Анализ данных - Образование и наука

Здравствуйте, xRAZORx, Вы писали:

RAZ>Добрый день!
RAZ>Я сейчас учусь в университете. Давно мечтаю заняться высоконагруженными и распределенными системами, анализом больших объемов данных. В университете что-то более-менее похожее будет только в следующем году, но хочется уже начать прямо сейчас. Посоветуйте, пожалуйста, книги/курсы, на которые стоит обратить внимание/с которых стоит начать. Заранее очень благодарен!

Высоконагруженные распределённые системы и анализ больших объёмов данных — очень разные области и обычно ими занимаются разные люди.
Первое требует знаний операционных систем, сетей, алгоритмов согласования в распределённых системах, устройства хранилищ данных.
Второе — математики, машинного обучения, алгоритмов анализа данных.
Обычно специалисты первого типа делают что-то вроде MapReduce, а специалисты второго уровня гоняют на нём алгоритмы машинного обучения.

Здравствуйте, xRAZORx, Вы писали:

RAZ>Давно мечтаю заняться высоконагруженными и распределенными системами, анализом больших объемов данных.
RAZ>В университете что-то более-менее похожее будет только в следующем году, но хочется уже начать прямо сейчас. Посоветуйте, пожалуйста, книги/курсы, на которые стоит обратить внимание/с которых стоит начать. Заранее очень благодарен!

масса опытных специалистов и толковых книжек в области ~~random~~ forex.
если поверить что на demo account деньги настоящие, можно и ~~сэкономить на покраске волос~~ досрочно поседеть.

Здравствуйте, xRAZORx, Вы писали:

RAZ>Я сейчас учусь в университете. Давно мечтаю заняться высоконагруженными и распределенными системами, анализом больших объемов данных. В университете что-то более-менее похожее будет только в следующем году, но хочется уже начать прямо сейчас. Посоветуйте, пожалуйста, книги/курсы, на которые стоит обратить внимание/с которых стоит начать. Заранее очень благодарен!

Если говорить именно об анализе данных то тут необходимо:
1) Знать статистику и теорию вероятности. Глубинные знания мат основ не столь важны как умение применять эти методы.
2) Быть продвинутым пользователем R или Python (Pandas + NumPy)
3) Уметь использовать SQL. Вопросы проектирования и администрирования БД не так важны.
4) Умение применять алгоритмы машинного обучения.

Бонусные пункты зависящие от спацифики работы:
5) Желательно быть экспертом или хотя бы иметь базовые знания в какой то прикладной области: монетизация и онлайн-реклама, UX & user engagement, распознавание образов, NLP, retail, финансы и анализ рисков.
6) Hadoop Hive или Pig. Это единственное место где встречаются распределенные состемы. Со знаниями SQL тут все очень просто.
7) Shell scripting
8) Уметь реализовывать алгоритмы машинного обучения.

На русском к сожалению ничего не могу порекомендовать т.к. в России я этим профессионально не занимался. Из не российских:
1) "Data Analysis with R" курс по Exploratory data analysis: https://www.udacity.com/course/ud651
2) "OpenIntro Statistics" хорошая бесплатная книга по статистике (без излишних формул, для практикующих специалистов я бы сказал): https://www.openintro.org/stat/textbook.php?stat_book=os
3) "Machine Learning" с coursera.org. Будет особенно интересно и полезно для студентов начальных курсов: https://www.coursera.org/course/ml

Добавлю про анализ данных.
На Озоне есть такая книжка: https://www.ozon.ru/context/detail/id/4499324/
"Анализ данных и процессов".
Аннотация:

Излагаются основные направления в области разработки систем: организация хранилищ данных, оперативный (OLAP) и интеллектуальный (Data Mining) анализ данных. В третьем издании по сравнению со вторым, выходившем под названием "Технологии анализа данных: Data Mining, Text Mining, Visual Mining, OLAP", добавлены визуальный (Visual Mining) и текстовый (Text Mining) анализ данных, анализ процессов (Process Mining), анализ Web-ресурсов (Web mining) и анализ в режиме реального времени (Real-Time Data Mining). Приведено описание методов и алгоритмов решения основных задач анализа: классификации, кластеризации и др. Описание идеи каждого метода дополняется конкретным примером его использования.
Прилагаемый компакт-диск содержит стандарты Data Mining, библиотеку алгоритмов Xelopes и графический интерфейс к ней; JDK 1.6 и драйверы, необходимые для работы графического интерфейса, свободно распространяемую среду разработки Eclipse и лабораторный практикум по интеллектуальному анализу данных.

Один из отзывов:

Книга будет интересна как аналитику, пользователю, так и программисту.
Широко освещен спектр вопросов от архитектуры СППР на СУБД, применяемых аналитических методов анализа данных до конкретных реализаций: программных приложений и стандартов.
Не требует глубоких начальных знаний, при этом широкое и подробное описание всех процессов технологии Data Mining, современных информационных технологий.

Здравствуйте, ArtK, Вы писали:

AK>Высоконагруженные распределённые системы и анализ больших объёмов данных — очень разные области и обычно ими занимаются разные люди.
AK>Первое требует знаний операционных систем, сетей, алгоритмов согласования в распределённых системах, устройства хранилищ данных.
AK>Второе — математики, машинного обучения, алгоритмов анализа данных.
AK>Обычно специалисты первого типа делают что-то вроде MapReduce, а специалисты второго уровня гоняют на нём алгоритмы машинного обучения.

В целом все так, только алгоритмы машинного обучения чаще гоняются локально. А вот данные для моделей (feature extraction) могут собираться из очень большого объема разнородных данных при помощи всяких там hadoop-ов.

Здравствуйте, xRAZORx, Вы писали:
RAZ>Я сейчас учусь в университете. Давно мечтаю заняться высоконагруженными и распределенными системами, анализом больших объемов данных
мне понравилс курс machine learning товарища ng на coursera. немного занудно и с ошибками (он упускает одну важную деталь в нейросетях из-за которой обучение будет работать только на его данных, а на реально рандомных будет постоянно заглючивать), зато коротко и по делу дает базовое представление

Здравствуйте, xRAZORx, Вы писали:

RAZ>Добрый день!
RAZ>Я сейчас учусь в университете. Давно мечтаю заняться высоконагруженными и распределенными системами, анализом больших объемов данных. В университете что-то более-менее похожее будет только в следующем году, но хочется уже начать прямо сейчас. Посоветуйте, пожалуйста, книги/курсы, на которые стоит обратить внимание/с которых стоит начать. Заранее очень благодарен!

Если еще не смотрели на курсеру, то вот:
1)https://www.coursera.org/courses?query=data%20science;
2) в частности https://www.coursera.org/course/datasci, неплохой вводный курс, я брал;
3) также на курсере есть целая специализация в этом направлении, но за деньги -- https://www.coursera.org/specialization/jhudatascience/1?utm_medium=listingPage

Так же по ключевым словам можно data science, big data можно поискать на edx.org

Добрый день!
Я сейчас учусь в университете. Давно мечтаю заняться высоконагруженными и распределенными системами, анализом больших объемов данных. В университете что-то более-менее похожее будет только в следующем году, но хочется уже начать прямо сейчас. Посоветуйте, пожалуйста, книги/курсы, на которые стоит обратить внимание/с которых стоит начать. Заранее очень благодарен!

Здравствуйте, xRAZORx, Вы писали:

Principles of Reactive Programming

DP>Все одной картинкой

Картинка хорошая

А родители у персонажа продвинутые, прямо скажем

Здравствуйте, LaptevVV, Вы писали:

LVV>Добавлю про анализ данных.
LVV>На Озоне есть такая книжка: https://www.ozon.ru/context/detail/id/4499324/
LVV>"Анализ данных и процессов".

Эта книжка (1-е издание) в свое время была единственной русскоязычной по анализу данных. В те времена я ее читал, да и с Куприяновым и Ко знаком.

В качестве введения очень даже подойдет.

DP>Эта книжка (1-е издание) в свое время была единственной русскоязычной по анализу данных. В те времена я ее читал, да и с Куприяновым и Ко знаком.
Второе издание — расширенное и дополненное.
Я студентам всегда оглавление показываю — какую математику они должны сечь, чтобы в этом понимать...

И с Куприяновым я тоже водку пил...

В ЛЭТИ.
Но, ИМХО, его тут поставили для солидности.
Он вроде совсем другими делами в вузе занимался...

Здравствуйте, ArtK, Вы писали:

AK>Высоконагруженные распределённые системы и анализ больших объёмов данных — очень разные области и обычно ими занимаются разные люди.
AK>Первое требует знаний операционных систем, сетей, алгоритмов согласования в распределённых системах, устройства хранилищ данных.
AK>Второе — математики, машинного обучения, алгоритмов анализа данных.

А почему тогда в яндексах/мэйлру это одни люди? Просматривая их сайты, у них там программисты пишут распределенные системы для сбора и обработки больших объемов данных.
Я, наверное, что-то не так понимаю. Объясните, пожалуйста.

Здравствуйте, xRAZORx, Вы писали:

RAZ>А почему тогда в яндексах/мэйлру это одни люди? Просматривая их сайты, у них там программисты пишут распределенные системы для сбора и обработки больших объемов данных.
RAZ>Я, наверное, что-то не так понимаю. Объясните, пожалуйста.

Есть онлайн обработка и есть оффлайн анализ данных c построение моделей.

Инженеры в большей мере занимаются онлайн частью. Аналитики — оффлайн. Они ищут паттерны в данных и строят модели. Модели в дальнейшем могут использоваться в онлайн обработке, а могут быть просто основанием для принятия бизнес решений типа прогнозов метрик или качественное описание какого то процесса (Actionable Insights).

Здравствуйте, xRAZORx, Вы писали:

RAZ>А почему тогда в яндексах/мэйлру это одни люди? Просматривая их сайты, у них там программисты пишут распределенные системы для сбора и обработки больших объемов данных.
RAZ>Я, наверное, что-то не так понимаю. Объясните, пожалуйста.

В Яндексе это разные люди. Более того, разные отделы.
Под обработкой больших объёмов данных подразумеваются разные вещи.
Для разработчики MapReduce — как хранить много данных на множестве машин так, чтобы они не терялись в случае выпадения части машин, как эффективно выполнять операции Map/Reduce, чтобы основное время программа выполняла пользовательский код, а не гоняла данные по сети или не читала их с диска.
Для разработчика программ с использованием машинного обучения — как вытаскивать фичи из данных, чтобы это было асимптотически оптимально, какие фичи жгут на данном алгоритме машинного обучения, как проверить, что новая обученная модель лучше старой.

Здравствуйте, Sharov, Вы писали:

S>Здравствуйте, xRAZORx, Вы писали:

S>3) также на курсере есть целая специализация в этом направлении, но за деньги -- https://www.coursera.org/specialization/jhudatascience/1?utm_medium=listingPage

вот эту я бы не рекомендовал. я сейчас где-то на середине, 5 курс идет, и по моим ощущениям весь этот набор — о том, как правильно работы оформлять в качестве data scientist. ну в начале еще было про R чуть-чуть, да и то очень по верхам. может быть там подальше будет какое-то реальное обучение, но как-то уже не верится.

	От:	D. Petrov
	Дата:	02.03.15 07:52
	Оценка:	21 (4)

	От:	ArtK
	Дата:	02.03.15 04:16
	Оценка:	+4

	От:	Stanislaw K
	Дата:	01.03.15 16:06
	Оценка:	6 (1)

	От:	D. Petrov
	Дата:	02.03.15 07:25
	Оценка:	5 (2) +1

	От:	LaptevVV
	Дата:	02.03.15 08:28
	Оценка:	2 (1) +1

От:	Nuzhny	https://github.com/Nuzhny007
Дата:	03.03.15 08:09
Оценка:	+1

	От:	Ilias
	Дата:	17.03.15 10:42
	Оценка: