Re[2]: Конкурс по машинному обучению от Яндекса
От: Gattaka Россия  
Дата: 10.06.18 12:29
Оценка: +1
Здравствуйте, Bjorn Skalpe, Вы писали:

BS>Нормальный способ рекуртинга...


Нажал зарегаться — форма исчезла и все. Аааа... Яндекс во всей красе.
Конкурс по машинному обучению от Яндекса
От: SomeOne_TT  
Дата: 26.05.18 15:59
Оценка:
Приветствую.

Яндекс устраивает конкурс по машинному обучению.
Регистрация здесь
Re: Конкурс по машинному обучению от Яндекса
От: Bjorn Skalpe Земля  
Дата: 27.05.18 04:38
Оценка:
Нормальный способ рекуртинга...
Re: Конкурс по машинному обучению от Яндекса
От: SomeOne_TT  
Дата: 11.06.18 22:06
Оценка:
Для тех, кто все еще готовится к конкурсу, на хабре есть
статья с описанием того, какого рода и уровня задачи предлагаются на блице.
Отредактировано 11.06.2018 22:06 SomeOne_TT . Предыдущая версия .
Re: Конкурс по машинному обучению от Яндекса
От: SomeOne_TT  
Дата: 19.06.18 07:32
Оценка:
Рассказывайте, как прошло?

Я решил всего одну задачу, на две следующие подал решения,которые не прошли, четвертую даже не начинал, оставалось минут двадцать.

1) Дан обучающий сет, про него известно, что все признаки являются бинарными (0 или 1). Дополнительно известно, что большая часть признаков является шумом, а также, что целевая функция линейная.

Требуется найти целевую функцию.

Решение будет зачтено, если будет точно предсказано значение функции на каждом тестовом наборе.


Тестовый сет оказался полностью бинарным — все признаки и Y состояли из 0 и 1.
Решал долго, но не ту задачу. Вместо восстановления функции пытался найти линейный разделитель
Идея была в том, что бы перебрать 49 вариантов разбиений матрицы, что предлагал PCA анализатор, которые скормить SVM.SVC алгоритму.
Результат проверить accuracy метрикой и выбрать лучший вариант. Полный провал. accuracy метрика ни в одном из вариантов не показывала что-либо лучше 0.54, что смахивало на произвольное гадание. Долго и мучительно проверял и перепроверял код, играл параметром ширины области разделения C — uичего не помогло. Плюнул, взял пачку классификаторов, натрейнил их все, MLPClassifier и QuadraticDiscriminantAnalysis дали score=1.0, что и позволило успешно решить задачу.

Третья задача:
"Пользователи задают в Яндекс.Поиске десятки тысяч запросов в секунду. Часть запросов задают сотни раз в час, другая часть запросов повторяется несколько раз в день, третью часть запросов пользователи спрашивают у Яндекса впервые.
Необходимо оценить количество уникальных запросов, при условии наличия 500 KB оперативной памяти. Гарантируется, что правильный ответ не превосходит 100000 и не меньше, чем 50000.
Решение засчитывается, если ответ отличается от правильного не более, чем на 5%.
"

Хотел было сделать O(N^2) решение с многократным реиспользованием ячеек массива, но проблема четности повторений и различного распределения категорий в датасете смутила. В лоб выделил массив a[0]*500000/sizeof(int) и для каждой строки данных делал a[hash(str)%(500000/sizeof(int))]++
Решение оказалось неверным, но ничего лучше даже сейчас придумать не могу.

Вторая задача:
Вкратце она состоит в следующем, есть массив объектов, которые принадлежат одному из двух классов. Массив задан векторами координат объектов .
Нужно вывести вектор плоскости, разделяющей все указанные в массиве объекты. По условиям задачи он гарантированно существует.


Мое решение состояло из трех строчек, в которых трейнился SVM.SVC и выводились компоненты его coef_ поля. На тестовых данных это прекрасно работало, но при копировании программы в оценивающую систему постоянно выводилась "ошибка при выполнении". Тут стоит попинать и поплевать систему контестов от яндекса. На редкость убогое поделие, не позволяющее никакой отладки или отладочного вывода. Так я эту ошибку и не поборол.

Четвертая задача — то, что в действительности стоило решать сразу с начала соревнования.
Нужно угадать, в какой организации в данный момент находится пользователь по SSIDу вайфая.

Датасет имеет сложный формат, его надо чистить и модифицировать, час-полтора на приведение датасета к нормальному виду необходимо.
Однако, времени уже не было, поэтому эта задача была проигнорирована.
Отредактировано 19.06.2018 7:34 SomeOne_TT . Предыдущая версия . Еще …
Отредактировано 19.06.2018 7:34 SomeOne_TT . Предыдущая версия .
Re[2]: Конкурс по машинному обучению от Яндекса
От: SomeOne_TT  
Дата: 20.06.18 13:57
Оценка:
Здравствуйте, SomeOne_TT, Вы писали:

SO_>Тестовый сет оказался полностью бинарным — все признаки и Y состояли из 0 и 1.

SO_>Решал долго, но не ту задачу. Вместо восстановления функции пытался найти линейный разделитель
SO_>Идея была в том, что бы перебрать 49 вариантов разбиений матрицы, что предлагал PCA анализатор, которые скормить SVM.SVC алгоритму.

PCA и не мог помочь. Он находит только корелляции. У шума корелляций нет.
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.