Datawarehouse + BI
От: peer  
Дата: 04.04.20 18:04
Оценка:
Сейчас есть сайт asp.net mvc + MSSQL c 4 базами к нему по 2-3 террабайта.
Рук-во хочет сделать дата варехауз на основе эти баз и новый сайт с BI чтобы всякие умные штуки прикрутить.

Как вообще это строится и что из себя представляет каждый элемент или небольшую статью кинете?


С этим не работал, только теория.

Из BI cейчас пока говорят про sas, qlik.
Re: Datawarehouse + BI
От: Milena США  
Дата: 04.04.20 19:57
Оценка: 4 (1) +1
Здравствуйте, peer, Вы писали:

P>Сейчас есть сайт asp.net mvc + MSSQL c 4 базами к нему по 2-3 террабайта.

P>Рук-во хочет сделать дата варехауз на основе эти баз и новый сайт с BI чтобы всякие умные штуки прикрутить.

P>Как вообще это строится и что из себя представляет каждый элемент или небольшую статью кинете?


1) Почитать книги Ральфа Кимбалла. Если к книгам доступа нет (перечень книг на сайте ниже), почитать статьи на его сайте Kimball Group: https://www.kimballgroup.com/data-warehouse-business-intelligence-resources/kimball-techniques
2) Почитать книги и статьи Билла Инмона. У Билла и Кимбала немного разный подход, но большинство хранилищ данных сделано именно по теории Кимбалла.
3) Почитать Дэна Линстеда про Data Vault 2.0. Достаточно интересная техника разработки хранилищ.
Если обобщить все вышеописанное, то недавно вышла книга Data Architecture: A Primer for the Data Scientist, где раскрыты примеры нескольких техник и теория по современным хранилищам данных, включая неструктурированные хранилища (Data Lakes)


P>Из BI cейчас пока говорят про sas, qlik.

Смотря, что именно вы хотите делать. Можно также посмотреть в сторону PowerBI и Tableau. Если ваша компания — Microsoft shop, то PowerBI обойдется гораздо дешевле, чем конкуренты засчёт скидок от MS.
Re: Datawarehouse + BI
От: MaximVK Россия  
Дата: 06.04.20 11:51
Оценка:
Здравствуйте, peer, Вы писали:

P>Как вообще это строится и что из себя представляет каждый элемент или небольшую статью кинете?


Тут важен не только объем данных, а какую аналитику вы собираетесь крутить поверх данных.
Возможно ли построение куба или нет, потому что количество требуемых комбинаций измерений очень велико + регулярно появляются новые.
Отдельной проблемой идут политики доступа к данным. Об этом тоже нужно подумать заранее, иначе придется костыли пилить.


P>Из BI cейчас пока говорят про sas, qlik.

Как уже сказали выше, лучше смотреть в сторону Tableau или PowerBI.
Tableau будет подороже, но и возможностей больше, особенно для конечного пользователя.
Re: Datawarehouse + BI
От: Dym On Россия  
Дата: 09.04.20 13:26
Оценка: +1
Здравствуйте, peer, Вы писали:

P>Сейчас есть сайт asp.net mvc + MSSQL c 4 базами к нему по 2-3 террабайта.

P>Рук-во хочет сделать дата варехауз на основе эти баз и новый сайт с BI чтобы всякие умные штуки прикрутить.
А что руководство хочет от BI? Как уже сказали для начала можно обойтись PowerBI+MDX+Excel, тем более, что база у вас на MSSQL. Проверьте какая лицуха на продукты МС, если PowerBI туда входит, может и делать ничего не надо. Уже всё есть и этого достаточно.
Счастье — это Glück!
Re: Datawarehouse + BI
От: El Camino Real США  
Дата: 16.04.20 17:02
Оценка:
Здравствуйте, peer, Вы писали:

P>Как вообще это строится и что из себя представляет каждый элемент или небольшую статью кинете?

По недавнему опыту могу сказать, что данных у тебя совсем немного (я вообще от data wrangling далёк и почему-то всегда считал, что терабайты — это дофига ), поэтому наколенное решение легко уделает всех больших вендоров по стоимости и скорости и разработки, и внедрения, и поддержки. Фактически тебе нужно провести аудит БД на предмет что и где ещё оптимизировать, посадить js-monkey извините, фронт-энд девелопера на веб-интерфейс, составить спек в каком формате данные должны поступать и пару человек кодить бизнес-логику. Обязательно выговори себе кого-нибудь из бизнеса в качестве подопытного кролика для моков. Желательно молодую, симпатичную девушку с карьерными перспективами. И совещаться приятнее, и женщины тупо внимательнее, усидчивее и дотошнее. Но если тебе нужно, чтобы оно никогда не заработало — смело доверяйся какому-нибудь Майкрософту.
Re[2]: Datawarehouse + BI
От: Milena США  
Дата: 18.04.20 03:19
Оценка:
Здравствуйте, MaximVK, Вы писали:

MVK>Здравствуйте, peer, Вы писали:


P>>Как вообще это строится и что из себя представляет каждый элемент или небольшую статью кинете?


MVK>Тут важен не только объем данных, а какую аналитику вы собираетесь крутить поверх данных.

MVK>Возможно ли построение куба или нет, потому что количество требуемых комбинаций измерений очень велико + регулярно появляются новые.

Ну как бы кубы уже давно никто не делает, их только поддерживают, если где остались, ибо они тормозят адски, когда данных много. В основном либо MPP, либо In-memory models (DAX).
MVK>Отдельной проблемой идут политики доступа к данным. Об этом тоже нужно подумать заранее, иначе придется костыли пилить.
Re[2]: Datawarehouse + BI
От: Milena США  
Дата: 18.04.20 03:49
Оценка:
Здравствуйте, El Camino Real, Вы писали:

ECR>Здравствуйте, peer, Вы писали:


P>>Как вообще это строится и что из себя представляет каждый элемент или небольшую статью кинете?

ECR>По недавнему опыту могу сказать, что данных у тебя совсем немного (я вообще от data wrangling далёк и почему-то всегда считал, что терабайты — это дофига ), поэтому наколенное решение легко уделает всех больших вендоров по стоимости и скорости и разработки, и внедрения, и поддержки.
Фактически тебе нужно провести аудит БД на предмет что и где ещё оптимизировать,

По этой фразе видно, что вы действительно далеки от data wrangling, потому что архитектура data warehouse существенно отличается от бэкенда приложений, и надо делать не аудит, а новую модель, оптимизированную под большие объемы (с запасом на рост) и желательно MPP. Реляционные СУБД, в которые пишут приложения, являются row-store в отличии от MPP движков, которые column-store.

ECR> посадить js-monkey извините, фронт-энд девелопера на веб-интерфейс, составить спек в каком формате данные должны поступать и пару человек кодить бизнес-логику.


ETL надо писать, но front-end developer не нужен, а надо взять толкового data analyst со скиллами в современных аналитических приложениях (Tableau, PowerBI, Qlik, Looker и т.п.), который будет и данные анализировать, и логику ETL проверять, и Data quality issues расследовать.

Обязательно выговори себе кого-нибудь из бизнеса в качестве подопытного кролика для моков. Желательно молодую, симпатичную девушку с карьерными перспективами. И совещаться приятнее, и женщины тупо внимательнее, усидчивее и дотошнее.
Куда ж без этого?

Но если тебе нужно, чтобы оно никогда не заработало — смело доверяйся какому-нибудь Майкрософту.
PowerBI и Tableau заработают в 10 раз быстрее, чем любая самописная аналитика. Работаю с этими технологиями около 3х лет, и ещё ни разу не встречала самописного аналога, который бы лучше смотрелся и был лёгок в поддержке.
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.