Здравствуйте, Mihal9, Вы писали:
M>Кто в теме, в чем суть Data Science? Какие вводные книжки можно почитать? Нужно знать математику хорошо? Как на рынке дела у дата-сайентистов?
В качестве среды работы JupyterLab.
В качестве языка программирования Python.
Базовые библиотеки для работы с данными: numpy, scipy, pandas (или более новый и оптимизированный polars).
Для распределённой работы с данными (если не влезают на одну машину): pyspark (или более новый и оптимизированный dask).
Это вот всё выше — это просто инфраструктура работы, не затрагивающая собственно Data Science алгоритмы, а просто позволяющая максимально удобно оперировать массивами данных. Ну собственно для алгоритмов ты берёшь библиотеку scikit-learn и начинаешь её очень подробно изучать. В ней есть практически все разделы Data Science, пускай и многие в зародышевом состояние. И главное что у них замечательная документация (со ссылками на научные статьи по каждому алгоритму и т.п.), наверное лучшая из всех, что я вообще где-либо видел. Если сможешь сказать, что полностью знаешь и понимаешь все функции в scikit-learn, то можно сказать что ты уже более менее разобрался в Data Science.
Ну а после можно брать уже "взрослые" реализации различных методов, когда уверен, что они тебе нужны. Скажем для градиентного бустинга (простенькая реализация есть в scikit-learn) можно взять lghtgbm или catboost. Для нейронных сетей (простенькая реализация есть в scikit-learn) можно берут tensorflow/keras или pytorch. И т.д. и т.п.
Математику для всего этого знать не обязательно, но крайне желательно. Потому что без математики (например таких базовых понятий как градиентный спуск или доверительный интервал) ты не будешь понимать что происходит внутри, для тебя это будет всё как чёрный ящик. Т.е. в простейших случая ты в принципе сможешь без проблем по стандартной инструкции решить задачу, но боюсь в таких случая её сможет решить и тот же chatgpt (думаю он легко заменит всех этих псевдо дата-сайентистов, которые только и знают что fit/predict)... А вот в сложных случаях, где надо думать и бот не поможет, без понимания внутренних процессов вряд ли получится найти хорошее решение.
P.S. Вообще подобную стандартную информацию давно пора было закрепить в разделе или внести в какой-то FAQ, а то периодически всплывают такие базовые вопросы от новичков и странно впечатывать их каждый раз...
Здравствуйте, Mihal9, Вы писали:
M>Здравствуйте, alex_public, Вы писали:
M>А книжки для начинающих какие посоветуете? И какой бы пет-проект для DS подобрать?
Я бы для начала заргестрировался здесь и здесь. В тг можно посмотреть самый последний пост, там саммари кучи образовательных програам и сайтов.
Раньше было огромное сообщество в слаке ods, около 60т человек,
со всего СНГ. Сидели люди в среднем лет на 10-15 моложе чем здесь, этакий кывт 21 века. Пару недель назад,
слак это сообщество прикрыл, типа санкции. Часть народа перешла в новое сообщесвто singularity.ai --
по сути калька с ODS, но народу пока меньше, около 6т. А так все по-старому+костятк по сути тот же.
Вот ссылка для вступления в сообщество -- https://join.slack.com/t/singularis-ai/shared_invite/zt-1tav4id5g-VYQqi4DsV2udUm~cpyxBPQ
Но надо слак ставить.
Лично я в 20 году закончил митовскую микромастерскую программу по статистике и DS. Это мат. база по сути.
Ушло где-то 2 года -- в год по 2 курса. Сейчас участвую в игрушечных табличных соревнования на каггле.
В целом интересует cv, но конкуренция просто бешенная. Чуть ли не 400 человек на место. Куча джунов после
курсов и т.п. Т.е. я пытаюсь войти через соревнования. Можно и через pet project, и это даже лучше, но что-то
идей не особо + охота закрыть гештальт с табличками (выиграть 2-3 золота). И да, таблички это пока на 90% классический
ml, без нейронок.
Спасибо за ссылки.
А на DS можно прилично зарабатывать? (где лучше искать job: на Западе или у нас?)
Конкуренция бешеная именно в Computer vision или везде?
Здравствуйте, Mihal9, Вы писали:
M>Спасибо за ссылки. M>А на DS можно прилично зарабатывать?
Сейчас едва ли, сильно перегрето. Спрос кратно превыщает предлолжение.
M>(где лучше искать job: на Западе или у нас?)
А как на Западе из России сейчас возможно, если без usdt какого-нибудь?
Много кто работает удаленно на уехавшие фирмы. Много наших фирм в ml на Кипре или в Дубае.
M>Конкуренция бешеная именно в Computer vision или везде?
Думаю везде, на всех джуниорских позициях. Особенно после 24.02.22. Я же описал вакансию на хх,
где за первые 3 дня было 450 откликов на позицию. Рынок работодателя. Я бы занялся ml, а я и занимаюсь, но смотрел бы
на это как на хобби. Пока во всяком случае.
Здравствуйте, Mihal9, Вы писали:
M>А книжки для начинающих какие посоветуете? И какой бы пет-проект для DS подобрать?
Книжки для начинающих никакие не посоветую, т.к. сам такими никогда не пользовался (ну разве что курс высшей математики для универов могу подсказать). Вообще на мой взгляд именно книги стоит читать по различным фундаментальным вопросам, типа той же математики. Т.е. учебник по статистике/теории вероятностей/численным метода очень полезно прочитать. А по данным современным прикладным направлениям намного полезнее смотреть документации основных инструментов. Ну или в крайнем случае можно посмотреть на разных IT ресурсах (типа Хабра) статьи с описанием решения типовых задач.
А вот насчёт пет-проектов и т.п. в области DS как раз всё отлично, в том смысле что никакие пет-проекты просто не нужны, т.к. кругом постоянно идут всяческие интересные DS конкурсы и соревнования, на которых можно поучиться (особенно полезно будет сравнить в итоге свои решения и решения победителей-профессионалов) и в случае хорошего прогресса даже заработать некие деньги (лично я зарабатывал, хотя они мне нафиг не нужны были, а участие в конкурсах у меня как хобби для тренировки мозгов). Лично могу порекомендовать https://ai-journey.ru — это всё инициативы Сбербанка. Но и другие крупные компании часто объявляют различные конкурсы, так что можно сказать каждый месяц есть чем развлечься. Я правда редко участвую, только в самых интересных, т.к. времени на это мало (это у меня всего лишь развлечение). Но если бы я ставил это как основную свою цель, то наверное пробовал бы себя в каждом... )))
Ещё есть крайне известный в данных кругах международный сайт, на которым проводилось множество соревнований: https://www.kaggle.com И в прошлом наши профессионалы там занимали топовые места, да и наши компании там активно присутствовали (в роли заказчиков конкурсов). Но сейчас естественно в этом уже особого смысла нет (а то вот вдруг случайно сможешь выиграть, а получить деньги не сможешь — будет обидно), разве что в рамках обучения смотреть какие там задачки пробегают...
Здравствуйте, Sharov, Вы писали:
M>>А на DS можно прилично зарабатывать? S>Сейчас едва ли, сильно перегрето. Спрос кратно превыщает предлолжение.
Нуу скажем так, это не совсем корректная формулировка. На самом деле в области ML сейчас как раз нехватка профессионалов (я лично знаю компании, ищущие сотрудников на космические зарплаты уже несколько месяцев), но именно настоящих, с большим опытом за плечами. А вот всяческих выпускников интернет-курсов действительно сотни на одну позицию стажёра, просто потому что собственно стажёры в этой области особо и не нужны сейчас. Тут совсем не работает подход с толпой плохеньких дешёвых сотрудников (что как ни странно иногда работает в корпоративном программирование), а нужен как раз один но очень высокого уровня.
_>Нуу скажем так, это не совсем корректная формулировка. На самом деле в области ML сейчас как раз нехватка профессионалов (я лично знаю компании, ищущие сотрудников на космические зарплаты уже несколько месяцев), но именно настоящих, с большим опытом за плечами.
Большой опыт это сколько, учитывая что такие позиции стали появлятсья лет 5-6 назад?
Еще одну забыл -- https://academy.yandex.ru/handbook/ml
Учебник по ML от Яндекса. В принципе, там все что надо знать.
Можно его читать и разбирать, но нужна соотв. математика (1-2 курс вуза).