Здравствуйте, xRAZORx, Вы писали:
RAZ>Добрый день! RAZ>Я сейчас учусь в университете. Давно мечтаю заняться высоконагруженными и распределенными системами, анализом больших объемов данных. В университете что-то более-менее похожее будет только в следующем году, но хочется уже начать прямо сейчас. Посоветуйте, пожалуйста, книги/курсы, на которые стоит обратить внимание/с которых стоит начать. Заранее очень благодарен!
Высоконагруженные распределённые системы и анализ больших объёмов данных — очень разные области и обычно ими занимаются разные люди.
Первое требует знаний операционных систем, сетей, алгоритмов согласования в распределённых системах, устройства хранилищ данных.
Второе — математики, машинного обучения, алгоритмов анализа данных.
Обычно специалисты первого типа делают что-то вроде MapReduce, а специалисты второго уровня гоняют на нём алгоритмы машинного обучения.
Здравствуйте, xRAZORx, Вы писали:
RAZ>Давно мечтаю заняться высоконагруженными и распределенными системами, анализом больших объемов данных. RAZ>В университете что-то более-менее похожее будет только в следующем году, но хочется уже начать прямо сейчас. Посоветуйте, пожалуйста, книги/курсы, на которые стоит обратить внимание/с которых стоит начать. Заранее очень благодарен!
масса опытных специалистов и толковых книжек в области random forex.
если поверить что на demo account деньги настоящие, можно и сэкономить на покраске волос досрочно поседеть.
Здравствуйте, xRAZORx, Вы писали:
RAZ>Я сейчас учусь в университете. Давно мечтаю заняться высоконагруженными и распределенными системами, анализом больших объемов данных. В университете что-то более-менее похожее будет только в следующем году, но хочется уже начать прямо сейчас. Посоветуйте, пожалуйста, книги/курсы, на которые стоит обратить внимание/с которых стоит начать. Заранее очень благодарен!
Если говорить именно об анализе данных то тут необходимо:
1) Знать статистику и теорию вероятности. Глубинные знания мат основ не столь важны как умение применять эти методы.
2) Быть продвинутым пользователем R или Python (Pandas + NumPy)
3) Уметь использовать SQL. Вопросы проектирования и администрирования БД не так важны.
4) Умение применять алгоритмы машинного обучения.
Бонусные пункты зависящие от спацифики работы:
5) Желательно быть экспертом или хотя бы иметь базовые знания в какой то прикладной области: монетизация и онлайн-реклама, UX & user engagement, распознавание образов, NLP, retail, финансы и анализ рисков.
6) Hadoop Hive или Pig. Это единственное место где встречаются распределенные состемы. Со знаниями SQL тут все очень просто.
7) Shell scripting
8) Уметь реализовывать алгоритмы машинного обучения.
На русском к сожалению ничего не могу порекомендовать т.к. в России я этим профессионально не занимался. Из не российских:
1) "Data Analysis with R" курс по Exploratory data analysis: https://www.udacity.com/course/ud651
2) "OpenIntro Statistics" хорошая бесплатная книга по статистике (без излишних формул, для практикующих специалистов я бы сказал): https://www.openintro.org/stat/textbook.php?stat_book=os
3) "Machine Learning" с coursera.org. Будет особенно интересно и полезно для студентов начальных курсов: https://www.coursera.org/course/ml
Излагаются основные направления в области разработки систем: организация хранилищ данных, оперативный (OLAP) и интеллектуальный (Data Mining) анализ данных. В третьем издании по сравнению со вторым, выходившем под названием "Технологии анализа данных: Data Mining, Text Mining, Visual Mining, OLAP", добавлены визуальный (Visual Mining) и текстовый (Text Mining) анализ данных, анализ процессов (Process Mining), анализ Web-ресурсов (Web mining) и анализ в режиме реального времени (Real-Time Data Mining). Приведено описание методов и алгоритмов решения основных задач анализа: классификации, кластеризации и др. Описание идеи каждого метода дополняется конкретным примером его использования.
Прилагаемый компакт-диск содержит стандарты Data Mining, библиотеку алгоритмов Xelopes и графический интерфейс к ней; JDK 1.6 и драйверы, необходимые для работы графического интерфейса, свободно распространяемую среду разработки Eclipse и лабораторный практикум по интеллектуальному анализу данных.
Один из отзывов:
Книга будет интересна как аналитику, пользователю, так и программисту.
Широко освещен спектр вопросов от архитектуры СППР на СУБД, применяемых аналитических методов анализа данных до конкретных реализаций: программных приложений и стандартов.
Не требует глубоких начальных знаний, при этом широкое и подробное описание всех процессов технологии Data Mining, современных информационных технологий.
Хочешь быть счастливым — будь им!
Без булдырабыз!!!
Здравствуйте, ArtK, Вы писали:
AK>Высоконагруженные распределённые системы и анализ больших объёмов данных — очень разные области и обычно ими занимаются разные люди. AK>Первое требует знаний операционных систем, сетей, алгоритмов согласования в распределённых системах, устройства хранилищ данных. AK>Второе — математики, машинного обучения, алгоритмов анализа данных. AK>Обычно специалисты первого типа делают что-то вроде MapReduce, а специалисты второго уровня гоняют на нём алгоритмы машинного обучения.
В целом все так, только алгоритмы машинного обучения чаще гоняются локально. А вот данные для моделей (feature extraction) могут собираться из очень большого объема разнородных данных при помощи всяких там hadoop-ов.
Здравствуйте, xRAZORx, Вы писали: RAZ>Я сейчас учусь в университете. Давно мечтаю заняться высоконагруженными и распределенными системами, анализом больших объемов данных
мне понравилс курс machine learning товарища ng на coursera. немного занудно и с ошибками (он упускает одну важную деталь в нейросетях из-за которой обучение будет работать только на его данных, а на реально рандомных будет постоянно заглючивать), зато коротко и по делу дает базовое представление
Здравствуйте, xRAZORx, Вы писали:
RAZ>Добрый день! RAZ>Я сейчас учусь в университете. Давно мечтаю заняться высоконагруженными и распределенными системами, анализом больших объемов данных. В университете что-то более-менее похожее будет только в следующем году, но хочется уже начать прямо сейчас. Посоветуйте, пожалуйста, книги/курсы, на которые стоит обратить внимание/с которых стоит начать. Заранее очень благодарен!
Здравствуйте, xRAZORx, Вы писали:
RAZ>А почему тогда в яндексах/мэйлру это одни люди? Просматривая их сайты, у них там программисты пишут распределенные системы для сбора и обработки больших объемов данных. RAZ>Я, наверное, что-то не так понимаю. Объясните, пожалуйста.
Разные. Я даже больше скажу: разные люди занимаются такими вещами как выделение характеристик из сырых данных и написание алгоритмов их обработки.
Добрый день!
Я сейчас учусь в университете. Давно мечтаю заняться высоконагруженными и распределенными системами, анализом больших объемов данных. В университете что-то более-менее похожее будет только в следующем году, но хочется уже начать прямо сейчас. Посоветуйте, пожалуйста, книги/курсы, на которые стоит обратить внимание/с которых стоит начать. Заранее очень благодарен!
DP>Эта книжка (1-е издание) в свое время была единственной русскоязычной по анализу данных. В те времена я ее читал, да и с Куприяновым и Ко знаком.
Второе издание — расширенное и дополненное.
Я студентам всегда оглавление показываю — какую математику они должны сечь, чтобы в этом понимать...
И с Куприяновым я тоже водку пил...
В ЛЭТИ.
Но, ИМХО, его тут поставили для солидности.
Он вроде совсем другими делами в вузе занимался...
Хочешь быть счастливым — будь им!
Без булдырабыз!!!
Здравствуйте, ArtK, Вы писали:
AK>Высоконагруженные распределённые системы и анализ больших объёмов данных — очень разные области и обычно ими занимаются разные люди. AK>Первое требует знаний операционных систем, сетей, алгоритмов согласования в распределённых системах, устройства хранилищ данных. AK>Второе — математики, машинного обучения, алгоритмов анализа данных.
А почему тогда в яндексах/мэйлру это одни люди? Просматривая их сайты, у них там программисты пишут распределенные системы для сбора и обработки больших объемов данных.
Я, наверное, что-то не так понимаю. Объясните, пожалуйста.
Здравствуйте, xRAZORx, Вы писали:
RAZ>А почему тогда в яндексах/мэйлру это одни люди? Просматривая их сайты, у них там программисты пишут распределенные системы для сбора и обработки больших объемов данных. RAZ>Я, наверное, что-то не так понимаю. Объясните, пожалуйста.
Есть онлайн обработка и есть оффлайн анализ данных c построение моделей.
Инженеры в большей мере занимаются онлайн частью. Аналитики — оффлайн. Они ищут паттерны в данных и строят модели. Модели в дальнейшем могут использоваться в онлайн обработке, а могут быть просто основанием для принятия бизнес решений типа прогнозов метрик или качественное описание какого то процесса (Actionable Insights).
Здравствуйте, xRAZORx, Вы писали:
RAZ>А почему тогда в яндексах/мэйлру это одни люди? Просматривая их сайты, у них там программисты пишут распределенные системы для сбора и обработки больших объемов данных. RAZ>Я, наверное, что-то не так понимаю. Объясните, пожалуйста.
В Яндексе это разные люди. Более того, разные отделы.
Под обработкой больших объёмов данных подразумеваются разные вещи.
Для разработчики MapReduce — как хранить много данных на множестве машин так, чтобы они не терялись в случае выпадения части машин, как эффективно выполнять операции Map/Reduce, чтобы основное время программа выполняла пользовательский код, а не гоняла данные по сети или не читала их с диска.
Для разработчика программ с использованием машинного обучения — как вытаскивать фичи из данных, чтобы это было асимптотически оптимально, какие фичи жгут на данном алгоритме машинного обучения, как проверить, что новая обученная модель лучше старой.
вот эту я бы не рекомендовал. я сейчас где-то на середине, 5 курс идет, и по моим ощущениям весь этот набор — о том, как правильно работы оформлять в качестве data scientist. ну в начале еще было про R чуть-чуть, да и то очень по верхам. может быть там подальше будет какое-то реальное обучение, но как-то уже не верится.