Country Salary (mean) Salary (median) Local Big Mac Price Big Macs per Year (mean)
South Africa $45,383 $35,000 $1.77 25,713
United States $106,120 $105,000 $4.93 21,530
Ukraine $33,023 $35,000 $1.54 21,444
Australia $80,093 $75,000 $3.74 21,426
China $54,667 $45,000 $2.72 20,072
Denmark $81,778 $85,000 $4.32 18,930
New Zealand $70,727 $65,000 $3.91 18,089
Типа связан с ML и BigData. На самом деле просто библиотечка для Hadoop-а. Вполне годная для предобработки больших данных (SparkML — так себе).
K>Scala — Back end или Full stack? Play framework?
Часто это просто дополнение к Spark (он писан на Scala и основной API тоже на Скала). Хотя нынче модно и обычные проекты на Скале писать. Это скорее back-end.
K>F# — Что это может быть? Тоже вместе со Spark? Или это UI на WPF?
В живой природе не встречал. Хотя в "заповеднике" (Бинг) видел вполне рабочий код на F#.
K>Похоже сплошной Enterprise...
Как раз Enterprise я тут и не вижу.
PS: Результаты странные. Откуда взялась Cassandra? Где фронт-енд технологии, котрые всегда в цене?
K>>Spark — Распределенные вычисления? Finance? HFT? Big Data? Recommendation system? DP>Типа связан с ML и BigData. На самом деле просто библиотечка для Hadoop-а. Вполне годная для предобработки больших данных (SparkML — так себе).
А популярные прикладные задачи каковы?
Что именно делают с распределенными вычислениями?
K>>Scala — Back end или Full stack? Play framework? DP>Часто это просто дополнение к Spark (он писан на Scala и основной API тоже на Скала). Хотя нынче модно и обычные проекты на Скале писать. Это скорее back-end.
Web бэкенд / API? Какой-то конкретный фреймворк? Или full stack типа Vaadin?
K>>F# — Что это может быть? Тоже вместе со Spark? Или это UI на WPF? DP>В живой природе не встречал. Хотя в "заповеднике" (Бинг) видел вполне рабочий код на F#.
В микрософте работали? Про какой рынок говорите? US?
K>>Похоже сплошной Enterprise... DP>Как раз Enterprise я тут и не вижу.
А что же это все? Стартапы?
DP>PS: Результаты странные.
Думаю, это из-за сущестевенного процента работающих в крупных компаниях.
В микрософте 50к инженеров + контракторы: https://www.quora.com/How-many-engineers-does-Microsoft-have
В амазоне не меньше, плюс google, apple..
DP>Откуда взялась Cassandra?
Подозреваю, что из Amazon'a.
DP>Где фронт-енд технологии, котрые всегда в цене?
Всегда думал, что фронт-енд имеет среднюю цену, т.к. работа не сложная,
даже в вебе не так сложно делать интерфейсы,
не говоря уж про нативные приложения,
где накидать контролов на окошко проще простого.
Или имеются ввиду всякие Angular/React, где спрос превышает предложение?
Здравствуйте, Keith, Вы писали:
DP>>Типа связан с ML и BigData. На самом деле просто библиотечка для Hadoop-а. Вполне годная для предобработки больших данных (SparkML — так себе).
K> А популярные прикладные задачи каковы?
Анализ бизнеса. Это типа BI под новым углом. Иногда дает очень неплохие результаты.
Плюс много стартапов делающих всякое прогнозирование и\или аналитику. Плюс известные игроки: амазон и Аппл, например, активно используют Спарк ну и все модные AirBnb, Uber и т.п.
K> Что именно делают с распределенными вычислениями?
Ничего выдающегося — подготовка данных для последующего анализа нормальными инструментами типа R, Python, Excel или загрузка во всекие там дашборды. Суть в том что современный подход (к BI) заключается в сборе всех данных в одну большую кучу (hadoop\hdfs), авось сгодятся. Потом пытаться из них вытащить полезную информацию. Индексы (заранее) не строятся. Соответственно, производительность паршивая, компенсируется массивно паралельной обработкой. Ну и главное все гибко для аналитика — все данные под рукой не надо индексы строить и запросы оптимизировать.
K> Web бэкенд / API? Какой-то конкретный фреймворк? Или full stack типа Vaadin?
Чаще бэкэнд. Много сетевых библиотек типа Akka.
K>В микрософте работали? Про какой рынок говорите? US?
Рынок чего? Ну, наверно US
K>А что же это все? Стартапы?
Скорее стартапы и новые проекты в крупных конторах.
K>В амазоне не меньше, плюс google, apple..
Скорее из-за долиновских стартапов.
DP>>Откуда взялась Cassandra? K>Подозреваю, что из Amazon'a.
Не думаю...
DP>>Где фронт-енд технологии, котрые всегда в цене? K>Всегда думал, что фронт-енд имеет среднюю цену, т.к. работа не сложная, K>даже в вебе не так сложно делать интерфейсы, K>не говоря уж про нативные приложения, K>где накидать контролов на окошко проще простого. K>Или имеются ввиду всякие Angular/React, где спрос превышает предложение?
Здравствуйте, Keith, Вы писали:
K>Spark — Распределенные вычисления? Finance? HFT? Big Data? Recommendation system?
Все, кроме HFT (хотя может быть в цикле обратной связи и подготовки данных использоваться). По сути стандарт де-факто в мире больших данных. Может и в HFT проникнуть, если проект Tungsten добьют.
K>Scala — Back end или Full stack? Play framework?
Backend — Akka и Spark.
K>F# — Что это может быть? Тоже вместе со Spark? Или это UI на WPF?
Финансы — DSL + вычисления. Интероп с кучей легаси кода на экселе (спасибо .NET библиотеке классов) + нравится квантам своей похожестью на ML.
Спасибо за ответы!
K>> А популярные прикладные задачи каковы? DP>Плюс много стартапов делающих всякое прогнозирование и\или аналитику.
Анализ — это только про прошлое/настоящее?
Всегда думал, что прогнозирование является частью аналитики.
K>> Что именно делают с распределенными вычислениями? DP>Ничего выдающегося — подготовка данных для последующего анализа нормальными инструментами типа R, Python, Excel или загрузка во всекие там дашборды.
Т.е. в работу инженера входит как основной сценарий послушать лида/аналитика, написать Map/Reduce и сделать самому или делегировать визуализацию?
Я так понимаю, что после Map/Reduce может потребоваться дополнительный более подробный анализ и тогда
результаты могут выгружаться на диск и оттуда их анализируют более подробно?
DP>Суть в том что современный подход (к BI) заключается в сборе всех данных в одну большую кучу (hadoop\hdfs), авось сгодятся.
Параллельно с sql базой или чистый nosql?
Транзакций и ACID по опрделению нет в распределенных хранилищах?
В Uber'е, например, состояние текущего заказа наверняка хранится в sql, или нет?
DP>Потом пытаться из них вытащить полезную информацию. Индексы (заранее) не строятся. DP>Соответственно, производительность паршивая, компенсируется массивно параллельной обработкой. DP>Ну и главное все гибко для аналитика — все данные под рукой не надо индексы строить и запросы оптимизировать.
Предела масштабированию нет?
Мощность серверов играет меньшее значение, чем их количество?
K>> Web бэкенд / API? Какой-то конкретный фреймворк? Или full stack типа Vaadin? DP>Чаще бэкэнд. Много сетевых библиотек типа Akka.
Это что-то вроде очереди?
Т.е. приложения скидывают все события в очередь, которая сохраняет данные в распределенную базу?
K>>В микрософте работали? Про какой рынок говорите? US? DP>Рынок чего? Ну, наверно US
Рынок труда
В микрософте все-таки работали?
K>>А что же это все? Стартапы? DP>Скорее стартапы и новые проекты в крупных конторах.
Т.е. технологически сейчас стартапы от ентерпрайза не отличаются, если не брать легаси?
K>>В амазоне не меньше, плюс google, apple.. DP>Скорее из-за долиновских стартапов.
В стартапах разве больше платят, чем в крупных компаниях?
Там же часть бенефитов идет акциями.
K>>F# — Что это может быть? Тоже вместе со Spark? Или это UI на WPF? AT>Финансы — DSL + вычисления.
Что понимается под DSL?
Описание предметной области?
AT>Интероп с кучей легаси кода на экселе (спасибо .NET библиотеке классов)
Т.е. есть куча кода на .net, который работает с Excel (отчеты?)
и чтобы с ним работать используют F#?
AT>нравится квантам своей похожестью на ML.
Кто такие кванты?
Здравствуйте, Keith, Вы писали:
K> Что понимается под DSL?
Domain Specific Language.
K> Т.е. есть куча кода на .net, который работает с Excel (отчеты?)
Да + VBA / COM
K> Кто такие кванты?
quantitative analysts
K>в опросе StackOverflow за этот год есть список наиболее оплачиваемых технологий:
Все-гораздо проще. Ты можешь знать эти технологии и говорить на десятках языков и не получить даже посредственной работы.
А можешь нихрена ничего не знать и получишь очень приличную работу с очень приличной зарплатой.
Это — отрицательная селекция.
Так что если твои качестве (точнее недокачества) соответствуют уровню проводящих отбор — то все будет ок
Критерии положительного отбора уже десятки лет как ушли в прошлое.
K> Анализ — это только про прошлое/настоящее?
Что угодно. Хоть будущее.
K> Всегда думал, что прогнозирование является частью аналитики.
Как бы да, но не обязательно. Вопрос терминологии.
Например, когда ты играешь в Каггл то для заданного набора данных ты строишь прогноз по заданному критерию. Это прогнозирование но фактически без аналитики. Такую ситуацию можно (хотя и сложно) представить и в реальных проектах.
K> Т.е. в работу инженера входит как основной сценарий послушать лида/аналитика, написать Map/Reduce и сделать самому или делегировать визуализацию? K> Я так понимаю, что после Map/Reduce может потребоваться дополнительный более подробный анализ и тогда K> результаты могут выгружаться на диск и оттуда их анализируют более подробно?
Данные скорее будет готовить сам аналитик. Да и простенькие мапперы сам напишет. Инженер нужен чтобы 1) создать и поддерживать эту систему; 2) для вытаскивания более сложных признаков\фич из данных (мапперы); 3) автоматизации когда-то написанных аналитических сценариев; 4) подготовка моделей данных (data engineering) для упрощения жизни аналитикам.
DP>>Суть в том что современный подход (к BI) заключается в сборе всех данных в одну большую кучу (hadoop\hdfs), авось сгодятся. K> Параллельно с sql базой или чистый nosql? K> Транзакций и ACID по опрделению нет в распределенных хранилищах? K> В Uber'е, например, состояние текущего заказа наверняка хранится в sql, или нет?
Да. Но база дампится в хадупы (или события стримятся и записываются), а там их хранятся и анализируются.
Почти все данные read only. ACID — нет. Обычно это не критично, хотя какой то шум в данных это привносит.
DP>>Ну и главное все гибко для аналитика — все данные под рукой не надо индексы строить и запросы оптимизировать. K> Предела масштабированию нет? K> Мощность серверов играет меньшее значение, чем их количество?
Предел есть. Как теоритический — некоторые задачи не параллелятся. Так и практический — хадуп начинает загибаться с более чем парой тысяч серверов.
Лучше меньше но мощных серверов — меньше расходов на сеть (редюсеры). Важно иметь много дисков на каждой машине. SSD на хадупах не обязательны — у него все равно латентность большая, а много параллельных HDD и без того загрузят шину по полной.
DP>>Чаще бэкэнд. Много сетевых библиотек типа Akka. K> Это что-то вроде очереди? K> Т.е. приложения скидывают все события в очередь, которая сохраняет данные в распределенную базу?
Не. Это про другое. Просто обмен сообщениями.
K>>>В микрософте работали? Про какой рынок говорите? US? DP>>Рынок чего? Ну, наверно US K> Рынок труда K> В микрософте все-таки работали?
Было дело...
K>>>А что же это все? Стартапы? DP>>Скорее стартапы и новые проекты в крупных конторах. K> Т.е. технологически сейчас стартапы от ентерпрайза не отличаются, если не брать легаси?
Зависит, конечно же. Ентерпрайз обычно просто отстает на 3-5 лет.
K>>>В амазоне не меньше, плюс google, apple.. DP>>Скорее из-за долиновских стартапов. K> В стартапах разве больше платят, чем в крупных компаниях? K> Там же часть бенефитов идет акциями.
Сегодня платят столько же базовой зарплаты (ее обычно и сравнивают). Разница в опционах (больших, но виртуальных) или акциях (маленьких, но реальных).