Re[5]: Выбор NoSQL

G>Напомни какая NoSQL база может делать дифференциальный бекап и Point In Time restore на базе в минимум в 200гб?
G>Сколько монге надо времени на сбор индексов после рестора 100 гб базы?

100GB это слезы

Попробую рассказать, почему это странный вопрос. У нас есть Hadoop кластер на 100 с гаком машин, там крутится HDFS, в которой непосредственно лежат данные (в том числе файлы данных HBase, но не только). Данные хранятся с replication factor = 5 (в нашем случае), поэтому бэкапы делать не нужно, да и смысла в них нет, так как такой объем данных нереально ни забэкапить нормально, ни восстановить, это слишком долго и дорого и не нужно.

Я расскажу зачем нужно делать бэкап, для начала. Есть такое явление, как bit rot из-за которого, любой файл на жестком диске может со временем измениться. Если это файл данных РСУБД, то контрольная сумма поврежденной страницы не сойдется и данные будут потеряны. Эта проблема решается периодическим бэкапом. В той же HDFS это не проблема, так как там поврежденные блоки удаляются (специальный фоновый процесс все время читает блоки и сверяет контрольные суммы), после чего replication factor блока восстанавливается до нужного уровня. Поэтому там бэкап тупо не нужен.

	От:	chaotic-kotik
	Дата:	09.06.16 20:26
	Оценка:	15 (1)