Re[5]: Выбор NoSQL
От: chaotic-kotik  
Дата: 09.06.16 20:26
Оценка: 15 (1)
G>Напомни какая NoSQL база может делать дифференциальный бекап и Point In Time restore на базе в минимум в 200гб?
G>Сколько монге надо времени на сбор индексов после рестора 100 гб базы?

100GB это слезы

Попробую рассказать, почему это странный вопрос. У нас есть Hadoop кластер на 100 с гаком машин, там крутится HDFS, в которой непосредственно лежат данные (в том числе файлы данных HBase, но не только). Данные хранятся с replication factor = 5 (в нашем случае), поэтому бэкапы делать не нужно, да и смысла в них нет, так как такой объем данных нереально ни забэкапить нормально, ни восстановить, это слишком долго и дорого и не нужно.

Я расскажу зачем нужно делать бэкап, для начала. Есть такое явление, как bit rot из-за которого, любой файл на жестком диске может со временем измениться. Если это файл данных РСУБД, то контрольная сумма поврежденной страницы не сойдется и данные будут потеряны. Эта проблема решается периодическим бэкапом. В той же HDFS это не проблема, так как там поврежденные блоки удаляются (специальный фоновый процесс все время читает блоки и сверяет контрольные суммы), после чего replication factor блока восстанавливается до нужного уровня. Поэтому там бэкап тупо не нужен.
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.