Re[9]: Разработка OLAP engine
От: vdshat  
Дата: 12.05.05 19:56
Оценка:
Здравствуйте, Yuri Burger, Вы писали:

А>>А вообще что нужно на выходе и какие входные данные?

YB>Для начала хотяб простейший вариант: на входе:
YB> полотно данных (одна таблица с дофигищем колонок) размера скажем порядка 100 милионов записей.
YB> описания измерений/иерархий , перечисление фактов (measures) — в идеале тут формулы агрегации, но пока хотяб просто сумма..
YB> + вся дополнительная метаинформация связывающая измерения с полотном и т.д.
YB>после предобработки поидее получаю некое внутреннее OLAP хранилище (таблици фактов, измерений, чанки, кэши, ХЗ шо там еще)
YB>дальше собсно запросы/ответы
YB>Вроде как сложного пока ничего нет... но.. Сразу же предвидятся проблемы обработки больших объемов данных, тобишь прийдется бить на чанки.. вот тут первый камень. Наиболее используемая операция будет из серии "group by". Для начала не могу найти даже хоть какогото описания реализации group_by на чанках
Я делал на tree map, мне скорости хватало, т.к. промежуточную агрегацию я делал заранее при накоплении стандартными средствами. Например, накопленная сумма по счетам набираем в текущем месяце по дням, в месяце по неделям, а в году по месяцам. Поэтому в конечном итоге приходится обрабатывать не 100 млн записей, десятки тысяч максимум на запрос. Но при больших объемах данных нужно вводить и парралельные вычисления. Вообще, примеры реализации агрегации можно посмотреть на открытых проектах баз данных.

А>>Например, я в банке строил OLAP-расширение существующей базы и движок под нее для агрегации и презентации данных.

YB>это в конечном итого "посредник между клиентом и сужествующим сервером БД"?
Скорей сервер БД является одним из звеньев — хранилища данных. Например, выбираем по измерению Дата все документы средствами БД, а потом на сервере приложений формируем кэш и агрегацию.

А>>Зря вы от olap.ru "нос воротите" там много нужного и полезного.

YB>Основное уже перерыл. Канечно ресурс полезный.. для общего понимания OLAP (оно кстати не всегда однозначно)... Но мне былиб больше полезны технические детали. Алгоритмы, структуры... Вобщим, таки "математика"
Да, с техническими ноу-хау, конечно, проблема. Приходится и самому доходить и изобретать тоже
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.