TP>непонятное есть для меня вот в чем — в соревнованиях, в разделе кернелс, например этом https://www.kaggle.com/c/tgs-salt-identification-challenge/kernels TP>люди выкладывают почти готовые болванки рабочих сетей
TP>интересен вопрос — нафига? вродеж конкурентов плодят
TP>рейтинг? чтобы заметили? еще варианты
TP>пысы — кто нибудь в нем участвует?
Что бы заметили, что бы сравнить свой уровень с другими. Насчет конкурентов, хз. Идей много, а вот доведенных до продашена и внедренных задач гораздо меньше.
Здравствуйте, The Passenger, Вы писали:
TP>интересен вопрос — нафига? вродеж конкурентов плодят
Нет, способствуют развитию отрасли. Сейчас такая нехватка кадров и такое большое число проектов, что конкурентов у многих контор по факту нет.
С другой стороны, наиболее уязвимыми на конкурсе являются не участники с кернелами, а компании, выкладывающие датасеты. Собрать датасет — дорого, данные уникальны. Кернелы и алгоритмы невозможны без данных и являются их производными. Зачастую никакого рокет сайенса в них нет, просто адаптация и тюнинг известных моделей.
TP>рейтинг? чтобы заметили? еще варианты
Да. Это во многом тоже.
TP>пысы — кто нибудь в нем участвует?
Нет времени и вычислительных мощностей, но иногда хочется.
Здравствуйте, The Passenger, Вы писали:
TP>интересен вопрос — нафига? вродеж конкурентов плодят
Для обсуждения идей (например, если команды нет), для рейтинга или чтобы можно было потом показать на собеседовании. Можно еще конкурентов по ложному следу пускать
Но, кстати, в тех соревнованиях, где я участвовал разница между топовыми решениями и решениями выложенными в публичном доступе была очень большой. И в плане результата, и в плане архитектуры решения. Обычно топовые решения — это какие-то монструозные ансамблевые модели, где намешано все подряд (вот пример). Такое решение на кернеле может даже не запуститься.
TP>пысы — кто нибудь в нем участвует?
Д>Но, кстати, в тех соревнованиях, где я участвовал разница между топовыми решениями и решениями выложенными в публичном доступе была очень большой. И в плане результата, и в плане архитектуры решения. Обычно топовые решения — это какие-то монструозные ансамблевые модели, где намешано все подряд (вот пример). Такое решение на кернеле может даже не запуститься.
да — слышал что выигрывают в основном ансамбли
TP>>пысы — кто нибудь в нем участвует?
Д>Участвовал пару раз.
Здравствуйте, The Passenger, Вы писали:
TP>как успехи?
Не очень — до призовых мест далеко
Первое соревнование — Quora Duplicate Questions — нужно было определять одинаковые по смыслу вопросы. Попал в 8% (где-то 250 место из 3,500 участников).
Второе — Home Credit Default — нужно определять людей, которые не вернут кредит. Попал в 7% (в четвертой сотне из 7,000 команд. хотя одно время был даже на 30-м месте, но потом очень сильно откатился назад, когда они открыли полный дата сет — сильно перетренировал модель).
Но, в принципе, мне понравилось и я нахожу свой опыт очень полезным. Одно делать читать теорию и совсем другое — применять эти знания на практике, сразу вставляет мозги на место.
Для себя сделал выводы, что если хочешь добиться хороших результатов:
1. Как здесь уже писали, нужно выделять достаточно много времени и иметь хорошее оборудование. Например, на моей машине мое финальное решение выполнялось где-то за 6 часов.
2. Выбирать и знать правильный инструментарий. В частности, нейронные сети и архитектуру составных сетей. Например, глядя на топ решение по первому соревнованию, я понимаю, что такую архитектуру я бы просто не собрал. Хотя второе соревнование в этом плане было намного проще и вопрос был больше в тонкой настройке метапараметров, чем глобальном выборе подхода. Или, например, на первом соревновании я использовал R, хотя конечно Python был бы намного лучшим выбором.
3. Ну и дальше — практика, опыт, правильный подход к структурированию решения (например, чтобы его легко было перезапускать или чтобы можно было легко объединить два подхода в одно решение).
Здравствуйте, Sharov, Вы писали:
S>Собираюсь начать участвовать, посоветуете какие-нибудь конкурсы помимо Титаника для начала?
Зависит от того, какая область вам более интересна. Если работа с изображениями, там есть Digits Recognition. Работа с текстом — movies review. Предсказание ценовых рядов — тоже есть house pricing competition.
Ну, и лично мне кажется. что реальные соревнования поинтересней будут. Как-то больше мотивации доводить до конца и стараться сделать получше
Здравствуйте, Джеффри, Вы писали:
Д>Но, кстати, в тех соревнованиях, где я участвовал разница между топовыми решениями и решениями выложенными в публичном доступе была очень большой. И в плане результата, и в плане архитектуры решения. Обычно топовые решения — это какие-то монструозные ансамблевые модели, где намешано все подряд (вот пример). Такое решение на кернеле может даже не запуститься.
Как, как они такое придумывают? Как им приходит в голову делать именно такие комбинации фичей? Как у них строится работа в команде (организовать 12 человек это само по себе не так просто)? Такое ощущение, что примерно так: каждый делает себе свои фичи + тренирует модели, а потом они начинают это всё как-то комбинировать. Но это скорее всего это очень наивное представление.
Это даже не столько к вам вопросы, сколько просто в воздух. Но если сможете поделиться, было бы интересно
Здравствуйте, Джеффри, Вы писали:
Д>Зависит от того, какая область вам более интересна. Если работа с изображениями, там есть Digits Recognition. Работа с текстом — movies review. Предсказание ценовых рядов — тоже есть house pricing competition.
Хотелось бы от простого к сложному. Если это возможно, конечно.
Здравствуйте, tdiff, Вы писали:
T>Как им приходит в голову делать именно такие комбинации фичей?
Error and trial, опыт в доменной области, стандартные практики по feature selection. На форуме очень много идей высыпают, иногда бывает решение из топа просто грамотно использует паблик идеи. T>Как у них строится работа в команде (организовать 12 человек это само по себе не так просто)?
Обычно команды формируются ближе к концу когда у всех уже есть наработки из которых начинают крутить ансамбли и блэнды, ну и обмен фичами, и ретреин моделей. Популярно так же когда каждый сидит и крутит
свой тип модели — один lightgbm, другой conv net, третий rnn, препроцессинг данных и тюнинг параметров у них сильно отличается. Да даже если банально заблендить усреднением N достаточно разнообразных (diverse) моделей результат
практически всегда будет лучше самой топовой из набора. T> Такое ощущение, что примерно так: каждый делает себе свои фичи + тренирует модели, а потом они начинают это всё как-то комбинировать. Но это скорее всего это очень наивное представление.
На самом деле так оно и есть, ретреин моделей по общему data split, out-of-fold predictions и ансамбли по ним.