Re[5]: Что лучше: сОрок пЯток или пятОк сорОк?
От: D. Petrov США  
Дата: 29.06.15 22:54
Оценка: 5 (1)
Здравствуйте, omgOnoz, Вы писали:

O>По сути идет оптимизация чтения одного-нескольких полей из базы данных. Это выгодно в тех задачах, когда редко интересен полных набор полей. Интересный подход.


Ага. Для удобства аналитики данные в Hadoop обычно де-нормализованные. 100 полей в одной таблице — обычное дело. Для анализа это удобнее чем нормализованные 30 таблиц по 2-10 полей.

Еще одни аспект вспомнил:
4) Степень архивации — Если данных много и они хранятся блоками, то помещая в блоки части отдельных массивов (часть столбца таблицы) вместо массивов структур (несколько из запесей теблицы) повышается степерь сжатия этих блоков т.к. там данные однотипные. Тот же Parquet умеет сжимать. Некоторые даже в памяти хранят сжатые данные.
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.