вопрос по kaggle
От: The Passenger Голландия  
Дата: 18.09.18 13:35
Оценка:
непонятное есть для меня вот в чем — в соревнованиях, в разделе кернелс, например этом https://www.kaggle.com/c/tgs-salt-identification-challenge/kernels
люди выкладывают почти готовые болванки рабочих сетей

интересен вопрос — нафига? вродеж конкурентов плодят

рейтинг? чтобы заметили? еще варианты

пысы — кто нибудь в нем участвует?
Весь мир — Кремль, а люди в нем — агенты
Re: вопрос по kaggle
От: BlackEric http://black-eric.lj.ru
Дата: 18.09.18 13:51
Оценка: +1
Здравствуйте, The Passenger, Вы писали:


TP>непонятное есть для меня вот в чем — в соревнованиях, в разделе кернелс, например этом https://www.kaggle.com/c/tgs-salt-identification-challenge/kernels

TP>люди выкладывают почти готовые болванки рабочих сетей

TP>интересен вопрос — нафига? вродеж конкурентов плодят


TP>рейтинг? чтобы заметили? еще варианты


TP>пысы — кто нибудь в нем участвует?


Что бы заметили, что бы сравнить свой уровень с другими. Насчет конкурентов, хз. Идей много, а вот доведенных до продашена и внедренных задач гораздо меньше.
https://github.com/BlackEric001
Re: вопрос по kaggle
От: Nuzhny Россия https://github.com/Nuzhny007
Дата: 18.09.18 13:54
Оценка: 2 (1)
Здравствуйте, The Passenger, Вы писали:

TP>интересен вопрос — нафига? вродеж конкурентов плодят


Нет, способствуют развитию отрасли. Сейчас такая нехватка кадров и такое большое число проектов, что конкурентов у многих контор по факту нет.
С другой стороны, наиболее уязвимыми на конкурсе являются не участники с кернелами, а компании, выкладывающие датасеты. Собрать датасет — дорого, данные уникальны. Кернелы и алгоритмы невозможны без данных и являются их производными. Зачастую никакого рокет сайенса в них нет, просто адаптация и тюнинг известных моделей.

TP>рейтинг? чтобы заметили? еще варианты


Да. Это во многом тоже.

TP>пысы — кто нибудь в нем участвует?


Нет времени и вычислительных мощностей, но иногда хочется.

P.S. Что такое kaggle и роль соревнований.
Re: вопрос по kaggle
От: Джеффри  
Дата: 18.09.18 16:47
Оценка: 2 (1)
Здравствуйте, The Passenger, Вы писали:

TP>интересен вопрос — нафига? вродеж конкурентов плодят


Для обсуждения идей (например, если команды нет), для рейтинга или чтобы можно было потом показать на собеседовании. Можно еще конкурентов по ложному следу пускать

Но, кстати, в тех соревнованиях, где я участвовал разница между топовыми решениями и решениями выложенными в публичном доступе была очень большой. И в плане результата, и в плане архитектуры решения. Обычно топовые решения — это какие-то монструозные ансамблевые модели, где намешано все подряд (вот пример). Такое решение на кернеле может даже не запуститься.

TP>пысы — кто нибудь в нем участвует?


Участвовал пару раз.
Отредактировано 18.09.2018 16:54 Джеффри . Предыдущая версия . Еще …
Отредактировано 18.09.2018 16:48 Джеффри . Предыдущая версия .
Re[2]: вопрос по kaggle
От: The Passenger Голландия  
Дата: 18.09.18 20:19
Оценка:
Здравствуйте, Джеффри, Вы писали:


Д>Но, кстати, в тех соревнованиях, где я участвовал разница между топовыми решениями и решениями выложенными в публичном доступе была очень большой. И в плане результата, и в плане архитектуры решения. Обычно топовые решения — это какие-то монструозные ансамблевые модели, где намешано все подряд (вот пример). Такое решение на кернеле может даже не запуститься.


да — слышал что выигрывают в основном ансамбли

TP>>пысы — кто нибудь в нем участвует?


Д>Участвовал пару раз.


как успехи?
Весь мир — Кремль, а люди в нем — агенты
Re[3]: вопрос по kaggle
От: Джеффри  
Дата: 18.09.18 21:41
Оценка: 8 (2)
Здравствуйте, The Passenger, Вы писали:

TP>как успехи?


Не очень — до призовых мест далеко

Первое соревнование — Quora Duplicate Questions — нужно было определять одинаковые по смыслу вопросы. Попал в 8% (где-то 250 место из 3,500 участников).

Второе — Home Credit Default — нужно определять людей, которые не вернут кредит. Попал в 7% (в четвертой сотне из 7,000 команд. хотя одно время был даже на 30-м месте, но потом очень сильно откатился назад, когда они открыли полный дата сет — сильно перетренировал модель).

Но, в принципе, мне понравилось и я нахожу свой опыт очень полезным. Одно делать читать теорию и совсем другое — применять эти знания на практике, сразу вставляет мозги на место.

Для себя сделал выводы, что если хочешь добиться хороших результатов:

1. Как здесь уже писали, нужно выделять достаточно много времени и иметь хорошее оборудование. Например, на моей машине мое финальное решение выполнялось где-то за 6 часов.

2. Выбирать и знать правильный инструментарий. В частности, нейронные сети и архитектуру составных сетей. Например, глядя на топ решение по первому соревнованию, я понимаю, что такую архитектуру я бы просто не собрал. Хотя второе соревнование в этом плане было намного проще и вопрос был больше в тонкой настройке метапараметров, чем глобальном выборе подхода. Или, например, на первом соревновании я использовал R, хотя конечно Python был бы намного лучшим выбором.

3. Ну и дальше — практика, опыт, правильный подход к структурированию решения (например, чтобы его легко было перезапускать или чтобы можно было легко объединить два подхода в одно решение).
Re[4]: вопрос по kaggle
От: Sharov Россия  
Дата: 19.09.18 06:53
Оценка:
Здравствуйте, Джеффри, Вы писали:

Собираюсь начать участвовать, посоветуете какие-нибудь конкурсы помимо Титаника для начала?
Кодом людям нужно помогать!
Re[5]: вопрос по kaggle
От: Джеффри  
Дата: 19.09.18 21:24
Оценка:
Здравствуйте, Sharov, Вы писали:

S>Собираюсь начать участвовать, посоветуете какие-нибудь конкурсы помимо Титаника для начала?


Зависит от того, какая область вам более интересна. Если работа с изображениями, там есть Digits Recognition. Работа с текстом — movies review. Предсказание ценовых рядов — тоже есть house pricing competition.

Ну, и лично мне кажется. что реальные соревнования поинтересней будут. Как-то больше мотивации доводить до конца и стараться сделать получше
Re[2]: вопрос по kaggle
От: tdiff  
Дата: 21.09.18 21:40
Оценка:
Здравствуйте, Джеффри, Вы писали:

Д>Но, кстати, в тех соревнованиях, где я участвовал разница между топовыми решениями и решениями выложенными в публичном доступе была очень большой. И в плане результата, и в плане архитектуры решения. Обычно топовые решения — это какие-то монструозные ансамблевые модели, где намешано все подряд (вот пример). Такое решение на кернеле может даже не запуститься.


Как, как они такое придумывают? Как им приходит в голову делать именно такие комбинации фичей? Как у них строится работа в команде (организовать 12 человек это само по себе не так просто)? Такое ощущение, что примерно так: каждый делает себе свои фичи + тренирует модели, а потом они начинают это всё как-то комбинировать. Но это скорее всего это очень наивное представление.

Это даже не столько к вам вопросы, сколько просто в воздух. Но если сможете поделиться, было бы интересно
Re[6]: вопрос по kaggle
От: Sharov Россия  
Дата: 29.09.18 00:00
Оценка:
Здравствуйте, Джеффри, Вы писали:

Д>Зависит от того, какая область вам более интересна. Если работа с изображениями, там есть Digits Recognition. Работа с текстом — movies review. Предсказание ценовых рядов — тоже есть house pricing competition.


Хотелось бы от простого к сложному. Если это возможно, конечно.
Кодом людям нужно помогать!
Re[3]: вопрос по kaggle
От: Craig  
Дата: 05.11.18 15:37
Оценка: 3 (1)
Здравствуйте, tdiff, Вы писали:

T>Как им приходит в голову делать именно такие комбинации фичей?

Error and trial, опыт в доменной области, стандартные практики по feature selection. На форуме очень много идей высыпают, иногда бывает решение из топа просто грамотно использует паблик идеи.
T>Как у них строится работа в команде (организовать 12 человек это само по себе не так просто)?
Обычно команды формируются ближе к концу когда у всех уже есть наработки из которых начинают крутить ансамбли и блэнды, ну и обмен фичами, и ретреин моделей. Популярно так же когда каждый сидит и крутит
свой тип модели — один lightgbm, другой conv net, третий rnn, препроцессинг данных и тюнинг параметров у них сильно отличается. Да даже если банально заблендить усреднением N достаточно разнообразных (diverse) моделей результат
практически всегда будет лучше самой топовой из набора.
T> Такое ощущение, что примерно так: каждый делает себе свои фичи + тренирует модели, а потом они начинают это всё как-то комбинировать. Но это скорее всего это очень наивное представление.
На самом деле так оно и есть, ретреин моделей по общему data split, out-of-fold predictions и ансамбли по ним.
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.