Самые высокооплачиваемые технологии - О работе

Здравствуйте, Keith, Вы писали:

K>Добрый день,

Добрый.

K>Spark — Распределенные вычисления? Finance? HFT? Big Data? Recommendation system?

Типа связан с ML и BigData. На самом деле просто библиотечка для Hadoop-а. Вполне годная для предобработки больших данных (SparkML — так себе).

K>Scala — Back end или Full stack? Play framework?

Часто это просто дополнение к Spark (он писан на Scala и основной API тоже на Скала). Хотя нынче модно и обычные проекты на Скале писать. Это скорее back-end.

K>F# — Что это может быть? Тоже вместе со Spark? Или это UI на WPF?

В живой природе не встречал. Хотя в "заповеднике" (Бинг) видел вполне рабочий код на F#.

K>Похоже сплошной Enterprise...

Как раз Enterprise я тут и не вижу.

PS: Результаты странные. Откуда взялась Cassandra? Где фронт-енд технологии, котрые всегда в цене?

K>>Spark — Распределенные вычисления? Finance? HFT? Big Data? Recommendation system?
DP>Типа связан с ML и BigData. На самом деле просто библиотечка для Hadoop-а. Вполне годная для предобработки больших данных (SparkML — так себе).

А популярные прикладные задачи каковы?
Что именно делают с распределенными вычислениями?

K>>Scala — Back end или Full stack? Play framework?
DP>Часто это просто дополнение к Spark (он писан на Scala и основной API тоже на Скала). Хотя нынче модно и обычные проекты на Скале писать. Это скорее back-end.

Web бэкенд / API? Какой-то конкретный фреймворк? Или full stack типа Vaadin?

K>>F# — Что это может быть? Тоже вместе со Spark? Или это UI на WPF?
DP>В живой природе не встречал. Хотя в "заповеднике" (Бинг) видел вполне рабочий код на F#.

В микрософте работали? Про какой рынок говорите? US?

K>>Похоже сплошной Enterprise...
DP>Как раз Enterprise я тут и не вижу.

А что же это все? Стартапы?

DP>PS: Результаты странные.
Думаю, это из-за сущестевенного процента работающих в крупных компаниях.
В микрософте 50к инженеров + контракторы:
https://www.quora.com/How-many-engineers-does-Microsoft-have
В амазоне не меньше, плюс google, apple..

DP>Откуда взялась Cassandra?
Подозреваю, что из Amazon'a.

DP>Где фронт-енд технологии, котрые всегда в цене?
Всегда думал, что фронт-енд имеет среднюю цену, т.к. работа не сложная,
даже в вебе не так сложно делать интерфейсы,
не говоря уж про нативные приложения,
где накидать контролов на окошко проще простого.
Или имеются ввиду всякие Angular/React, где спрос превышает предложение?

Здравствуйте, Keith, Вы писали:

DP>>Откуда взялась Cassandra?
K>Подозреваю, что из Amazon'a.

facebook

Здравствуйте, Keith, Вы писали:

DP>>Типа связан с ML и BigData. На самом деле просто библиотечка для Hadoop-а. Вполне годная для предобработки больших данных (SparkML — так себе).

K> А популярные прикладные задачи каковы?
Анализ бизнеса. Это типа BI под новым углом. Иногда дает очень неплохие результаты.
Плюс много стартапов делающих всякое прогнозирование и\или аналитику. Плюс известные игроки: амазон и Аппл, например, активно используют Спарк ну и все модные AirBnb, Uber и т.п.

K> Что именно делают с распределенными вычислениями?

Ничего выдающегося — подготовка данных для последующего анализа нормальными инструментами типа R, Python, Excel или загрузка во всекие там дашборды. Суть в том что современный подход (к BI) заключается в сборе всех данных в одну большую кучу (hadoop\hdfs), авось сгодятся. Потом пытаться из них вытащить полезную информацию. Индексы (заранее) не строятся. Соответственно, производительность паршивая, компенсируется массивно паралельной обработкой. Ну и главное все гибко для аналитика — все данные под рукой не надо индексы строить и запросы оптимизировать.

K> Web бэкенд / API? Какой-то конкретный фреймворк? Или full stack типа Vaadin?

Чаще бэкэнд. Много сетевых библиотек типа Akka.

K>В микрософте работали? Про какой рынок говорите? US?

Рынок чего? Ну, наверно US

K>А что же это все? Стартапы?

Скорее стартапы и новые проекты в крупных конторах.

K>В амазоне не меньше, плюс google, apple..

Скорее из-за долиновских стартапов.

DP>>Откуда взялась Cassandra?
K>Подозреваю, что из Amazon'a.
Не думаю...

DP>>Где фронт-енд технологии, котрые всегда в цене?
K>Всегда думал, что фронт-енд имеет среднюю цену, т.к. работа не сложная,
K>даже в вебе не так сложно делать интерфейсы,
K>не говоря уж про нативные приложения,
K>где накидать контролов на окошко проще простого.
K>Или имеются ввиду всякие Angular/React, где спрос превышает предложение?

Да, я скорее про Angular и т.п.

Здравствуйте, Keith, Вы писали:

K>Spark — Распределенные вычисления? Finance? HFT? Big Data? Recommendation system?
Все, кроме HFT (хотя может быть в цикле обратной связи и подготовки данных использоваться). По сути стандарт де-факто в мире больших данных. Может и в HFT проникнуть, если проект Tungsten добьют.

K>Scala — Back end или Full stack? Play framework?
Backend — Akka и Spark.

K>F# — Что это может быть? Тоже вместе со Spark? Или это UI на WPF?
Финансы — DSL + вычисления. Интероп с кучей легаси кода на экселе (спасибо .NET библиотеке классов) + нравится квантам своей похожестью на ML.

Спасибо за ответы!

K>> А популярные прикладные задачи каковы?
DP>Плюс много стартапов делающих всякое прогнозирование и\или аналитику.
Анализ — это только про прошлое/настоящее?
Всегда думал, что прогнозирование является частью аналитики.

K>> Что именно делают с распределенными вычислениями?
DP>Ничего выдающегося — подготовка данных для последующего анализа нормальными инструментами типа R, Python, Excel или загрузка во всекие там дашборды.
Т.е. в работу инженера входит как основной сценарий послушать лида/аналитика, написать Map/Reduce и сделать самому или делегировать визуализацию?
Я так понимаю, что после Map/Reduce может потребоваться дополнительный более подробный анализ и тогда
результаты могут выгружаться на диск и оттуда их анализируют более подробно?

DP>Суть в том что современный подход (к BI) заключается в сборе всех данных в одну большую кучу (hadoop\hdfs), авось сгодятся.
Параллельно с sql базой или чистый nosql?
Транзакций и ACID по опрделению нет в распределенных хранилищах?
В Uber'е, например, состояние текущего заказа наверняка хранится в sql, или нет?

DP>Потом пытаться из них вытащить полезную информацию. Индексы (заранее) не строятся.
DP>Соответственно, производительность паршивая, компенсируется массивно параллельной обработкой.
DP>Ну и главное все гибко для аналитика — все данные под рукой не надо индексы строить и запросы оптимизировать.
Предела масштабированию нет?
Мощность серверов играет меньшее значение, чем их количество?

K>> Web бэкенд / API? Какой-то конкретный фреймворк? Или full stack типа Vaadin?
DP>Чаще бэкэнд. Много сетевых библиотек типа Akka.
Это что-то вроде очереди?
Т.е. приложения скидывают все события в очередь, которая сохраняет данные в распределенную базу?

K>>В микрософте работали? Про какой рынок говорите? US?
DP>Рынок чего? Ну, наверно US

Рынок труда
В микрософте все-таки работали?

K>>А что же это все? Стартапы?
DP>Скорее стартапы и новые проекты в крупных конторах.
Т.е. технологически сейчас стартапы от ентерпрайза не отличаются, если не брать легаси?

K>>В амазоне не меньше, плюс google, apple..
DP>Скорее из-за долиновских стартапов.
В стартапах разве больше платят, чем в крупных компаниях?
Там же часть бенефитов идет акциями.

K>>F# — Что это может быть? Тоже вместе со Spark? Или это UI на WPF?
AT>Финансы — DSL + вычисления.
Что понимается под DSL?
Описание предметной области?

AT>Интероп с кучей легаси кода на экселе (спасибо .NET библиотеке классов)
Т.е. есть куча кода на .net, который работает с Excel (отчеты?)
и чтобы с ним работать используют F#?

AT>нравится квантам своей похожестью на ML.
Кто такие кванты?

Здравствуйте, Keith, Вы писали:

K> Что понимается под DSL?
Domain Specific Language.

K> Т.е. есть куча кода на .net, который работает с Excel (отчеты?)
Да + VBA / COM

K> Кто такие кванты?
quantitative analysts

K>в опросе StackOverflow за этот год есть список наиболее оплачиваемых технологий:

Все-гораздо проще. Ты можешь знать эти технологии и говорить на десятках языков и не получить даже посредственной работы.
А можешь нихрена ничего не знать и получишь очень приличную работу с очень приличной зарплатой.
Это — отрицательная селекция.
Так что если твои качестве (точнее недокачества) соответствуют уровню проводящих отбор — то все будет ок

Критерии положительного отбора уже десятки лет как ушли в прошлое.

Здравствуйте, Keith, Вы писали:

K> Анализ — это только про прошлое/настоящее?
Что угодно. Хоть будущее.

K> Всегда думал, что прогнозирование является частью аналитики.

Как бы да, но не обязательно. Вопрос терминологии.
Например, когда ты играешь в Каггл то для заданного набора данных ты строишь прогноз по заданному критерию. Это прогнозирование но фактически без аналитики. Такую ситуацию можно (хотя и сложно) представить и в реальных проектах.

K> Т.е. в работу инженера входит как основной сценарий послушать лида/аналитика, написать Map/Reduce и сделать самому или делегировать визуализацию?
K> Я так понимаю, что после Map/Reduce может потребоваться дополнительный более подробный анализ и тогда
K> результаты могут выгружаться на диск и оттуда их анализируют более подробно?

Данные скорее будет готовить сам аналитик. Да и простенькие мапперы сам напишет. Инженер нужен чтобы 1) создать и поддерживать эту систему; 2) для вытаскивания более сложных признаков\фич из данных (мапперы); 3) автоматизации когда-то написанных аналитических сценариев; 4) подготовка моделей данных (data engineering) для упрощения жизни аналитикам.

DP>>Суть в том что современный подход (к BI) заключается в сборе всех данных в одну большую кучу (hadoop\hdfs), авось сгодятся.
K> Параллельно с sql базой или чистый nosql?
K> Транзакций и ACID по опрделению нет в распределенных хранилищах?
K> В Uber'е, например, состояние текущего заказа наверняка хранится в sql, или нет?

Да. Но база дампится в хадупы (или события стримятся и записываются), а там их хранятся и анализируются.
Почти все данные read only. ACID — нет. Обычно это не критично, хотя какой то шум в данных это привносит.

DP>>Ну и главное все гибко для аналитика — все данные под рукой не надо индексы строить и запросы оптимизировать.
K> Предела масштабированию нет?
K> Мощность серверов играет меньшее значение, чем их количество?

Предел есть. Как теоритический — некоторые задачи не параллелятся. Так и практический — хадуп начинает загибаться с более чем парой тысяч серверов.
Лучше меньше но мощных серверов — меньше расходов на сеть (редюсеры). Важно иметь много дисков на каждой машине. SSD на хадупах не обязательны — у него все равно латентность большая, а много параллельных HDD и без того загрузят шину по полной.

DP>>Чаще бэкэнд. Много сетевых библиотек типа Akka.
K> Это что-то вроде очереди?
K> Т.е. приложения скидывают все события в очередь, которая сохраняет данные в распределенную базу?

Не. Это про другое. Просто обмен сообщениями.

K>>>В микрософте работали? Про какой рынок говорите? US?
DP>>Рынок чего? Ну, наверно US

K> Рынок труда
K> В микрософте все-таки работали?

Было дело...

K>>>А что же это все? Стартапы?
DP>>Скорее стартапы и новые проекты в крупных конторах.
K> Т.е. технологически сейчас стартапы от ентерпрайза не отличаются, если не брать легаси?

Зависит, конечно же. Ентерпрайз обычно просто отстает на 3-5 лет.

K>>>В амазоне не меньше, плюс google, apple..
DP>>Скорее из-за долиновских стартапов.
K> В стартапах разве больше платят, чем в крупных компаниях?
K> Там же часть бенефитов идет акциями.

Сегодня платят столько же базовой зарплаты (ее обычно и сравнивают). Разница в опционах (больших, но виртуальных) или акциях (маленьких, но реальных).

	От:	Keith
	Дата:	01.12.16 16:35
	Оценка:	10 (2)

	От:	kov_serg
	Дата:	01.12.16 19:12
	Оценка:

	От:	sergey2b
	Дата:	02.12.16 08:25
	Оценка:	10 (1)

	От:	D. Petrov
	Дата:	02.12.16 10:36
	Оценка:

	От:	Keith
	Дата:	02.12.16 14:59
	Оценка:

	От:	andrey.t
	Дата:	03.12.16 10:40
	Оценка:

	От:	andrey.t
	Дата:	03.12.16 15:45
	Оценка:

	От:	???
	Дата:	05.12.16 05:19
	Оценка: