Сообщение Re: Введение в Data Science от 14.04.2023 12:21
Изменено 14.04.2023 12:23 alex_public
Re: Введение в Data Science
Здравствуйте, Mihal9, Вы писали:
M>Кто в теме, в чем суть Data Science? Какие вводные книжки можно почитать? Нужно знать математику хорошо? Как на рынке дела у дата-сайентистов?
В качестве среды работы JupyterLab.
В качестве языка программирования Python.
Базовые библиотеки для работы с данными: numpy, scipy, pandas (или более новый и оптимизированный polars).
Для распределённой работы с данными (если не влезают на одну машину): pyspark (или более новый и оптимизированный dask).
Это вот всё выше — это просто инфраструктура работы, не затрагивающая собственно Data Science алгоритмы, а просто позволяющая максимально удобно оперировать массивами данных. Ну собственно для алгоритмов ты берёшь библиотеку scikit-learn и начинаешь её очень подробно изучать. В ней есть практически все разделы Data Science, пускай и многие в зародышевом состояние. И главное что у них замечательная документация (со ссылками на научные статьи по каждому алгоритму и т.п.), наверное лучшая из всех, что я вообще где-либо видел. Если сможешь сказать, что полностью знаешь и понимаешь все функции в scikit-learn, то можно сказать что ты уже более менее разобрался в Data Science.
Ну а после можно брать уже "взрослые" реализации различных методов, когда уверен, что они тебе нужны. Скажем для градиентного бустинга (простенькая реализация есть в scikit-learn) можно взять lghtgbm или catboost. Для нейронных сетей (простенькая реализация есть в scikit-learn) можно берут tensorflow/keras или pytorch. И т.д. и т.п.
Математику для всего этого знать не обязательно, но крайне желательно. Потому что без математики (например таких базовых понятий как градиентный спуск или доверительный интервал) ты не будешь понимать что происходит внутри, для тебя это будет всё как чёрный ящик. Т.е. в простейших случая ты в принципе сможешь без проблем по стандартной инструкции решить проблему, но боюсь в таких случая её сможет решить и тот же chatgpt (думаю он легко заменит всех этих псевдо дата-сайентистов, которые только и знают что fit/predict)... А вот в сложных случаях, где надо думать и бот не поможет, без понимания внутренних процессов вряд ли получится найти хорошее решение.
P.S. Вообще подобную стандартную информацию давно пора было закрепить в разделе или внести в какой-то FAQ, а то периодически всплывают такие базовые вопросы от новичков и странно впечатывать их каждый раз...
M>Кто в теме, в чем суть Data Science? Какие вводные книжки можно почитать? Нужно знать математику хорошо? Как на рынке дела у дата-сайентистов?
В качестве среды работы JupyterLab.
В качестве языка программирования Python.
Базовые библиотеки для работы с данными: numpy, scipy, pandas (или более новый и оптимизированный polars).
Для распределённой работы с данными (если не влезают на одну машину): pyspark (или более новый и оптимизированный dask).
Это вот всё выше — это просто инфраструктура работы, не затрагивающая собственно Data Science алгоритмы, а просто позволяющая максимально удобно оперировать массивами данных. Ну собственно для алгоритмов ты берёшь библиотеку scikit-learn и начинаешь её очень подробно изучать. В ней есть практически все разделы Data Science, пускай и многие в зародышевом состояние. И главное что у них замечательная документация (со ссылками на научные статьи по каждому алгоритму и т.п.), наверное лучшая из всех, что я вообще где-либо видел. Если сможешь сказать, что полностью знаешь и понимаешь все функции в scikit-learn, то можно сказать что ты уже более менее разобрался в Data Science.
Ну а после можно брать уже "взрослые" реализации различных методов, когда уверен, что они тебе нужны. Скажем для градиентного бустинга (простенькая реализация есть в scikit-learn) можно взять lghtgbm или catboost. Для нейронных сетей (простенькая реализация есть в scikit-learn) можно берут tensorflow/keras или pytorch. И т.д. и т.п.
Математику для всего этого знать не обязательно, но крайне желательно. Потому что без математики (например таких базовых понятий как градиентный спуск или доверительный интервал) ты не будешь понимать что происходит внутри, для тебя это будет всё как чёрный ящик. Т.е. в простейших случая ты в принципе сможешь без проблем по стандартной инструкции решить проблему, но боюсь в таких случая её сможет решить и тот же chatgpt (думаю он легко заменит всех этих псевдо дата-сайентистов, которые только и знают что fit/predict)... А вот в сложных случаях, где надо думать и бот не поможет, без понимания внутренних процессов вряд ли получится найти хорошее решение.
P.S. Вообще подобную стандартную информацию давно пора было закрепить в разделе или внести в какой-то FAQ, а то периодически всплывают такие базовые вопросы от новичков и странно впечатывать их каждый раз...
Re: Введение в Data Science
Здравствуйте, Mihal9, Вы писали:
M>Кто в теме, в чем суть Data Science? Какие вводные книжки можно почитать? Нужно знать математику хорошо? Как на рынке дела у дата-сайентистов?
В качестве среды работы JupyterLab.
В качестве языка программирования Python.
Базовые библиотеки для работы с данными: numpy, scipy, pandas (или более новый и оптимизированный polars).
Для распределённой работы с данными (если не влезают на одну машину): pyspark (или более новый и оптимизированный dask).
Это вот всё выше — это просто инфраструктура работы, не затрагивающая собственно Data Science алгоритмы, а просто позволяющая максимально удобно оперировать массивами данных. Ну собственно для алгоритмов ты берёшь библиотеку scikit-learn и начинаешь её очень подробно изучать. В ней есть практически все разделы Data Science, пускай и многие в зародышевом состояние. И главное что у них замечательная документация (со ссылками на научные статьи по каждому алгоритму и т.п.), наверное лучшая из всех, что я вообще где-либо видел. Если сможешь сказать, что полностью знаешь и понимаешь все функции в scikit-learn, то можно сказать что ты уже более менее разобрался в Data Science.
Ну а после можно брать уже "взрослые" реализации различных методов, когда уверен, что они тебе нужны. Скажем для градиентного бустинга (простенькая реализация есть в scikit-learn) можно взять lghtgbm или catboost. Для нейронных сетей (простенькая реализация есть в scikit-learn) можно берут tensorflow/keras или pytorch. И т.д. и т.п.
Математику для всего этого знать не обязательно, но крайне желательно. Потому что без математики (например таких базовых понятий как градиентный спуск или доверительный интервал) ты не будешь понимать что происходит внутри, для тебя это будет всё как чёрный ящик. Т.е. в простейших случая ты в принципе сможешь без проблем по стандартной инструкции решить задачу, но боюсь в таких случая её сможет решить и тот же chatgpt (думаю он легко заменит всех этих псевдо дата-сайентистов, которые только и знают что fit/predict)... А вот в сложных случаях, где надо думать и бот не поможет, без понимания внутренних процессов вряд ли получится найти хорошее решение.
P.S. Вообще подобную стандартную информацию давно пора было закрепить в разделе или внести в какой-то FAQ, а то периодически всплывают такие базовые вопросы от новичков и странно впечатывать их каждый раз...
M>Кто в теме, в чем суть Data Science? Какие вводные книжки можно почитать? Нужно знать математику хорошо? Как на рынке дела у дата-сайентистов?
В качестве среды работы JupyterLab.
В качестве языка программирования Python.
Базовые библиотеки для работы с данными: numpy, scipy, pandas (или более новый и оптимизированный polars).
Для распределённой работы с данными (если не влезают на одну машину): pyspark (или более новый и оптимизированный dask).
Это вот всё выше — это просто инфраструктура работы, не затрагивающая собственно Data Science алгоритмы, а просто позволяющая максимально удобно оперировать массивами данных. Ну собственно для алгоритмов ты берёшь библиотеку scikit-learn и начинаешь её очень подробно изучать. В ней есть практически все разделы Data Science, пускай и многие в зародышевом состояние. И главное что у них замечательная документация (со ссылками на научные статьи по каждому алгоритму и т.п.), наверное лучшая из всех, что я вообще где-либо видел. Если сможешь сказать, что полностью знаешь и понимаешь все функции в scikit-learn, то можно сказать что ты уже более менее разобрался в Data Science.
Ну а после можно брать уже "взрослые" реализации различных методов, когда уверен, что они тебе нужны. Скажем для градиентного бустинга (простенькая реализация есть в scikit-learn) можно взять lghtgbm или catboost. Для нейронных сетей (простенькая реализация есть в scikit-learn) можно берут tensorflow/keras или pytorch. И т.д. и т.п.
Математику для всего этого знать не обязательно, но крайне желательно. Потому что без математики (например таких базовых понятий как градиентный спуск или доверительный интервал) ты не будешь понимать что происходит внутри, для тебя это будет всё как чёрный ящик. Т.е. в простейших случая ты в принципе сможешь без проблем по стандартной инструкции решить задачу, но боюсь в таких случая её сможет решить и тот же chatgpt (думаю он легко заменит всех этих псевдо дата-сайентистов, которые только и знают что fit/predict)... А вот в сложных случаях, где надо думать и бот не поможет, без понимания внутренних процессов вряд ли получится найти хорошее решение.
P.S. Вообще подобную стандартную информацию давно пора было закрепить в разделе или внести в какой-то FAQ, а то периодически всплывают такие базовые вопросы от новичков и странно впечатывать их каждый раз...