Data Science - О работе

Мне эта тема интересна, хотя более близок подраздел компютерного зрения — тут я даже поимел некоторый опыт.
Но вот в чем меня терзают смутные сомнения — это сейчас однозначно хайп, но имеет ли этот хайп под собой чтото существенное?

Со зрением тут более менее все понятно — где и как оно применяется, хотя весь концепт уже разработан и для сцантистов осталось только картинки размечать.
Но вот вижу я что дата сцантистов сча набирает любая мало мальски крупная компания, но
одновременно с тем когда набирают программеров — более менне понятно — ты будешь работать с продуктом компании или под какойнибудь проект который тоже
имеет более менее понятные очертания.

С сцантистами тут сложнее — описание звучит так — нам нужны креативные с аут оф бокс мышлением, поскольку у нас дохерища данных и вы будете с ними работать
... что конуретно нужно на выходе — походу сами не знают.

Стали попадатся топики типа — ваши сцантисты нагенерили хренову кучу графиков и вы не знаете куда их девать — давайте попробуем их хоть както пристроить.

Как вы думаете — есть реальная почва для хайпа или просто это сейчас модно и потом схлынет?

... не ну понятно, что есть серьезные направления во всяких реинфорсмент леарниг, где дяди с большими головами создают серьезных агентов Смитов,
но такое ощущение что скоро каждый второй формошлеп пойдет в сцантисты — а нужно ли их столько?

Здравствуйте, The Passenger, Вы писали:

TP>С сцантистами тут сложнее — описание звучит так — нам нужны креативные с аут оф бокс мышлением, поскольку у нас дохерища данных и вы будете с ними работать
TP>... что конуретно нужно на выходе — походу сами не знают.

TP>Как вы думаете — есть реальная почва для хайпа или просто это сейчас модно и потом схлынет?

Во-первых, начнём с того, что это называется в транслитерации это звучит как саентисты.

Во-вторых, данных становится все больше, анализ нужен специальный, кастомизированный под заказчика. И дальше этого будет только больше (так же как и программистов когда то было мало, а теперь миллионы). Это рождает спрос на специалистов в области данных в целом — data engineer, data architect, data scientist. Последнее это исследовательская работа. Как в любом исследовательском поле, есть удачные исследования и неудачные.
Насчёт того, что туда народ идёт табунами — потому что платят до фига. Только на днях видела объявление в наших краях на $170К/год, при том, что даже новичкам платят около $100К. В крупных компаниях вообще до $300К доходит. Почему бы и да? 😉

Здравствуйте, Milena, Вы писали:

TP>>Как вы думаете — есть реальная почва для хайпа или просто это сейчас модно и потом схлынет?

M>Во-первых, начнём с того, что это называется в транслитерации это звучит как саентисты.

сатанисты

M>Во-вторых, данных становится все больше, анализ нужен специальный, кастомизированный под заказчика. И дальше этого будет только больше (так же как и программистов когда то было мало, а теперь миллионы). Это рождает спрос на специалистов в области данных в целом — data engineer, data architect, data scientist. Последнее это исследовательская работа. Как в любом исследовательском поле, есть удачные исследования и неудачные.
M>Насчёт того, что туда народ идёт табунами — потому что платят до фига.

Ну в принципе и звучит как все обьявы — у нас ахулиарды гигабайтов данных, мы делаем крутые штуки с ними
— а что конкретно вы с ними делаете?
— строим графики регрессий
— а они вам зачем?
— а потому что это круто

вот из реального можно помотреть заказы на каггле и они там появляются раз в месяц и планка на выигрыш упала с миллионов до десятков тысяч

— где спрашивается заказы например для фрилансеров?

хммм решил проверить на фрилансе — да, есть немного (15) в стиле — у меня маленький бизнес, хочу предсказание как он будет расти ( проще к гадалке )
и все сатанисты из пакистана индии и нигерии за 20 баксов тебе все сделают

создается ощущение что конторы держат саентологов в основном для надувания щек

... я в общем к чему это — сам процесс мне интересен, но стоит ли тратить время на углубленное изучение или к тому времени как доучусь, саентистов буду как свидетелей Иеговы гнать отовсюду ...

Здравствуйте, The Passenger, Вы писали:

TP>Но вот в чем меня терзают смутные сомнения — это сейчас однозначно хайп, но имеет ли этот хайп под собой чтото существенное?

Этому хайпу лет шесть минимум. Когда я занимался "смежной" областью — BI, у меня сложилось ощущение что не имеет в большинстве случаев.

Да и до хайпа всякими линейными регрессиями пытались данные анализиорвать/прогнозировать, вроде как без особых успехов. Кто то типа Сороса говорил, что перестал верить в тех анализ (похожая штука) когда перевернул графики а прогнозы на выходе не изменились.

Здравствуйте, The Passenger, Вы писали:

TP>Мне эта тема интересна, хотя более близок подраздел компютерного зрения — тут я даже поимел некоторый опыт.
TP>Но вот в чем меня терзают смутные сомнения — это сейчас однозначно хайп, но имеет ли этот хайп под собой чтото существенное?

да, но как с этим в рф я хз

TP>С сцантистами тут сложнее — описание звучит так — нам нужны креативные с аут оф бокс мышлением, поскольку у нас дохерища данных и вы будете с ними работать
TP>... что конуретно нужно на выходе — походу сами не знают.

TP>Стали попадатся топики типа — ваши сцантисты нагенерили хренову кучу графиков и вы не знаете куда их девать — давайте попробуем их хоть както пристроить.

TP>Как вы думаете — есть реальная почва для хайпа или просто это сейчас модно и потом схлынет?

Ты видел новое приложение google translate? Вот он недавно перестал слать данные на сервер для перевода, а начал переводить локально, используя модель, которая занимает емнип где-то мегабайт 50. Таких приложений на самом деле куча. Начиная с клавиатуры в андроиде и заканчивая ai для камеры, который подбирает оптимальные параметры экспозиции, повсюду используются нейронные сети.

Делается это так. Собираются данные, датасайентисты делают модель с помощью tensorflow или torch или keras. Потом эта модель интегрируется в приложение. Уточняется, обновляется, улучшается, отправляется пользователю. В общем и в целом, это целый новый класс приложений. Вместо того чтобы деплоить код, ты деплоишь модель и обвзяку, которая эту модель использует. Для разработки такого софта нужна куча навыков, не толькло дата-сатанизм, но и работа с данными (БД, инфраструктура для масштабирования обработки и обучения), умение писать обычный код, который все это использует, UI/UX и тд. В общем, если ты обычный программист, то у тебя есть определенное преимущество. Хитрые топологии тоже далеко не всегда нужно придумывать, часто данные важнее чем модели. Это кстати причина, почему там не хватает людей и войти в эту область не так просто. Еще железки решают, нормальная рабочая станция для DL стоит несколько косарей.

ничего не понятно

если переводчик на все языки мира 50 мб памяти занимает, то какое ещё там ИИ? чего там оптимировать-то? там либо оно работает либо нет, на одном человеке там ИИ ничему не научится

как всё это связано с дорогим железом- тоже непонятно

Здравствуйте, The Passenger, Вы писали:

https://ru.wikipedia.org/wiki/Yandex_Data_Factory

Решения Yandex Data Factory основаны на технологиях машинного обучения и анализа больших данных, которые Яндекс активно развивал для нужд своего поиска и других сервисов: среди них распознавание образов и речи, глубокие нейронные сети и др.

Yandex Data Factory предлагает масштабируемые решения для непрерывного производства: металлургических, нефтехимических и др. компаний[3].

Направление Yandex Data Factory основано в 2014. Услугами Yandex Data Factory могут воспользоваться как российские, так и зарубежные компании. Среди клиентов и партнеров Yandex Data Factory — Intel[4], AstraZeneca, ЦЕРН, Магнитогорский металлургический комбинат[5], Газпром нефть[6] и Schlumberger. Главный офис компании расположен в Амстердаме.

В 2018 году Яндекс объявил о лишении YDF статуса эксперимента и присоединении к основному (поисковому) подразделению[7]. Планируется переориентировать деятельность YDF: от консалтингового формата работы над штучными проектами перейти к созданию масштабируемых сервисов совместно с другими B2B-подразделениями компании, в частности, Яндекс.Облаком[8].

Как-то так. Видимо, все не так просто оказалось даже для Яндекса.

SL>Как-то так. Видимо, все не так просто оказалось даже для Яндекса.

а что конкретно-то? какой конкретно сервис яндекс может предложить для непрерывного производства?
только пожалуйста поконкретнее: пустая по смыслу и содержанию реклама слаще от того не становится, если её с википедии перепечатать, скорее , наоборот: каждое сферическое заявление кажется ещё более никчёмным, если его постоянно повторять

Здравствуйте, takTak, Вы писали:

T>а что конкретно-то? какой конкретно сервис яндекс может предложить для непрерывного производства?

Если почитать внимательно, то будет ясно, что они, по сути, закрылись

T>>а что конкретно-то? какой конкретно сервис яндекс может предложить для непрерывного производства?

SL>Если почитать внимательно, то будет ясно, что они, по сути, закрылись

это как раз логично: распознавание картинок или программа-переводчик, который работает до сих пор хуже любого профессионального переводчика, никому особенно не нужно...

Здравствуйте, takTak, Вы писали:

T>ничего не понятно

T>если переводчик на все языки мира 50 мб памяти занимает, то какое ещё там ИИ? чего там оптимировать-то? там либо оно работает либо нет, на одном человеке там ИИ ничему не научится

50Mb это один язык, остальное не распарсил

T>как всё это связано с дорогим железом- тоже непонятно

рабочая станция под DL выглядит примерно так —

Здравствуйте, chaotic-kotik, Вы писали:

CK>Ты видел новое приложение google translate? Вот он недавно перестал слать данные на сервер для перевода, а начал переводить локально, используя модель, которая занимает емнип где-то мегабайт 50. Таких приложений на самом деле куча. Начиная с клавиатуры в андроиде и заканчивая ai для камеры, который подбирает оптимальные параметры экспозиции, повсюду используются нейронные сети.

Ну с переводчиками все понятно — там nlp как нельзя подходит ... но что всем нужны переводчики? ... да и что там сча такой переводчик любой студент
не забаненый в интернете за неделю слабает?

а вот как натянуть ~~сову~~ АИ на ~~глобус~~ клавиатуру страшно подумать

для фото — нейронки уж перебор по моему, только если для фильтров

а вот что странно — в финансовом секторе, где казалось бы, сам Бог велел — спрос небольшой, точнее в голландских конторах одна нанимала немного ... а сейчас вообще перестала
... может они просто быстрее других накушались?

... я как бы не говорю что у нейронок нет потенциала, но мне кажется они сильно переоценены

Здравствуйте, The Passenger, Вы писали:

TP>Здравствуйте, chaotic-kotik, Вы писали:

TP>Ну с переводчиками все понятно — там nlp как нельзя подходит ... но что всем нужны переводчики? ... да и что там сча такой переводчик любой студент
TP>не забаненый в интернете за неделю слабает?

Гугл не использует nlp, они используют RNN, эта RNN обучается на огромном корпусе текстов, переведенных на разные языки и учится генерировать перевод тех текстов, которые она еще не видела. У них в итоге получается, что входной текст напрямую скармливается нейронной сети, а сеть генерирует перевод. Никакой NLP там не используется. При слепом тестировании качество перевода неотличимо от переведенного людьми, для некоторых языковых пар. Для китайского пока не так хорошо все.

TP>а вот как натянуть ~~сову~~ АИ на ~~глобус~~ клавиатуру страшно подумать

Предиктивный ввод.

TP>для фото — нейронки уж перебор по моему, только если для фильтров

В каждом смартфоне с двумя камерами сейчас сидит нейронка, которая подбирает параметры экспозиции анализируя сцену и синтезирует результирующее изображение, удаляет шумы. Computational imaging сейчас очень сложно представить без всего этого.

TP>... я как бы не говорю что у нейронок нет потенциала, но мне кажется они сильно переоценены

Я думаю что нет. Это такая область где понять как использовать технологию — сложнее самой технологии. Отсюда и недопонимание.

Здравствуйте, chaotic-kotik, Вы писали:

CK>Гугл не использует nlp, они используют RNN, эта RNN обучается на огромном корпусе текстов, переведенных на разные языки и учится генерировать перевод тех текстов, которые она еще не видела. У них в итоге получается, что входной текст напрямую скармливается нейронной сети, а сеть генерирует перевод. Никакой NLP там не используется. При слепом тестировании качество перевода неотличимо от переведенного людьми, для некоторых языковых пар. Для китайского пока не так хорошо все.

Ну если уж мы тут заговорили о технологиях, то NLP — это natural language processing и это технология а не имплементация, и перевод — часть ее, по крайней мере группа NLP
из стенфорда https://nlp.stanford.edu/projects/mt.shtml занимается этим.

RNN устаревшая технология LTSM и GRU используют сейчас.

так что не надо учить дедушку кашлять

TP>>а вот как натянуть ~~сову~~ АИ на ~~глобус~~ клавиатуру страшно подумать

CK>Предиктивный ввод.

T9

TP>>... я как бы не говорю что у нейронок нет потенциала, но мне кажется они сильно переоценены

CK>Я думаю что нет. Это такая область где понять как использовать технологию — сложнее самой технологии. Отсюда и недопонимание.

ничего тут такого нет — просто взяли и знасиловали теорию вероятности

есть такая байка, что если взять кусок деревяшек, положить их в мешок и долго долго трясти, то получится стул
... так вот с помощью GPU у людей получается трясти мешок быстрее, а что происходит внутри — сами не знают.
Простой пример — посмотрите туториалы по компьютерному зрению — выглядит это так — давайте соберем сетку ... не нравится результат —
давайте улучшим — добавим слой добавим другой, а давайте поменяем размерность полносвязных, давайте поиграемся с леарнинг рэйт

... но например никакого расклада что конкретно изменилось при изменении чегото — нет — просто трясем мешок немного по другому

ну и до сих пор сеть не всегда сможет отличить гепарда от дивана с гепардовой расцветкой, а пара битых пикселей на картинке может
прибить распознавание очевидного человеческого лица

читал что люди разработавшие VGG сумели както математически доказать что уменьшение кортексов в сверточном слое улучшает распознавание
и это преподносилось как великое достижение.

Здравствуйте, chaotic-kotik, Вы писали:

CK>При слепом тестировании качество перевода неотличимо от переведенного людьми, для некоторых языковых пар.

Интересно, где на это можно посмотреть.

CK>>При слепом тестировании качество перевода неотличимо от переведенного людьми, для некоторых языковых пар.

CM>Интересно, где на это можно посмотреть.

я не верю в это: контекст перевода компьютер не понимает, а от самого контекста слова часто меняют смысл, поэтому google-перевод таким, как у переводчика не получится никогда

Здравствуйте, CoderMonkey, Вы писали:

CM>Интересно, где на это можно посмотреть.

тута https://arxiv.org/abs/1609.08144v1

Здравствуйте, The Passenger, Вы писали:

TP>Ну если уж мы тут заговорили о технологиях, то NLP — это natural language processing и это технология а не имплементация, и перевод — часть ее, по крайней мере группа NLP
TP>из стенфорда https://nlp.stanford.edu/projects/mt.shtml занимается этим.

NLP это скорее широкий набор задач, часть которых уже давно решают нейронками (нампример OCR или topic segmentation), а часть нет (stemming и деление на части речи). Перевод — одна из этих задач. Раньше в основном для ее решения использовали SNLP (statistical NLP). Насколько я понимаю (wild guess) — у гугла раньше был example based перевод. Они анализировали кучу переводов для всех языковых пар, находили соответствующие фразы (меня зовут вася -> my name is vasya). Для перевода — находили сначала фразу с такой же структурой (меня зовут толя -> my name is vasya), потом брали ее аналог на ругом языке и подставляли нужные слова (толя -> tolya -> my name is tolya). Чтобы это делать нужен классический NLP, делить текст на предложения, предложения на слова, тегировать части речи и выделять структуру.

TP>RNN устаревшая технология LTSM и GRU используют сейчас.

RNN это общий термин, одна из разновидностей сетей (как convolutional или feed-forward network). RNN может быть на основе LSTM и на основе GRU.

TP>ничего тут такого нет — просто взяли и знасиловали теорию вероятности

TP>есть такая байка, что если взять кусок деревяшек, положить их в мешок и долго долго трясти, то получится стул
TP>... так вот с помощью GPU у людей получается трясти мешок быстрее, а что происходит внутри — сами не знают.
TP>Простой пример — посмотрите туториалы по компьютерному зрению — выглядит это так — давайте соберем сетку ... не нравится результат —
TP>давайте улучшим — добавим слой добавим другой, а давайте поменяем размерность полносвязных, давайте поиграемся с леарнинг рэйт

TP>... но например никакого расклада что конкретно изменилось при изменении чегото — нет — просто трясем мешок немного по другому

TP>ну и до сих пор сеть не всегда сможет отличить гепарда от дивана с гепардовой расцветкой, а пара битых пикселей на картинке может
TP>прибить распознавание очевидного человеческого лица

TP>читал что люди разработавшие VGG сумели както математически доказать что уменьшение кортексов в сверточном слое улучшает распознавание
TP>и это преподносилось как великое достижение.

если ты все заранее для себя решил, то зачем тогда было спрашивать?

Здравствуйте, chaotic-kotik, Вы писали:

CK>Здравствуйте, The Passenger, Вы писали:

TP>>Ну если уж мы тут заговорили о технологиях, то NLP — это natural language processing и это технология а не имплементация, и перевод — часть ее, по крайней мере группа NLP
TP>>из стенфорда https://nlp.stanford.edu/projects/mt.shtml занимается этим.

CK>NLP это скорее широкий набор задач, часть которых уже давно решают нейронками

так и я вроде о том же

TP>>RNN устаревшая технология LTSM и GRU используют сейчас.

CK>RNN это общий термин, одна из разновидностей сетей (как convolutional или feed-forward network). RNN может быть на основе LSTM и на основе GRU.

а может быть на основе RNN

... но по сути вопрос можно рассматривать и так и так

CK>если ты все заранее для себя решил, то зачем тогда было спрашивать?

Хочу чтоб разубедили, доказали что я не прав и машин лернинг имеет под собой достаточные основания чтобы тратить на него время,
поскольку область применения мне кажется более ограниченной чем это пытаются представить.
Что есть много реальных и не высосанных из пальца, проектов.
А то может быть как со скрамом, который позиционировали, как решение всех проблем в проектах

В принципе мне интересна область машинного зрения, но может случится так, что например фреймворк от гугла ( есть Object Detection Framework )https://futurism.com/google-announces-new-api-that-can-detect-and-identify-objects-using-images/
Сейчас она достаточно сырая, я ее пробовал, но может статься, что через пару тройку лет работа "программиста" будет заключаться в том чтобы размечать картинки в плане —
вот здесь кошечка а вот здесь собачечка и кормить все это апи, которое само сконфигиться под параметры.
Я все равно буду это ковырять ... но хочется больше мотивации

	От:	The Passenger
	Дата:	29.06.18 11:03
	Оценка:

	От:	Milena
	Дата:	29.06.18 14:23
	Оценка:	+1

	От:	The Passenger
	Дата:	29.06.18 14:47
	Оценка:

	От:	sr_dev
	Дата:	29.06.18 14:57
	Оценка:	+1

	От:	chaotic-kotik
	Дата:	29.06.18 18:00
	Оценка:	3 (1)

От:	StatujaLeha	на правах ИМХО
Дата:	29.06.18 18:51
Оценка:

От:	gandjustas	http://blog.gandjustas.ru/
Дата:	30.06.18 14:42
Оценка:

	От:	CoderMonkey
	Дата:	01.07.18 02:59
	Оценка:

	От:	takTak
	Дата:	01.07.18 06:03
	Оценка: