Критика ML с NIPS - Образование и наука

Вчера на NIPS была интересная презентация с критикой ML.

tl;dr; Сегодня МЛ скорее Алхимия чем наука. Пользуемся всякими аппроксимациями типа стохастического градиентного спуска которые не могут давать гарантированного результата. Испольщуем batch norm (как по-русский?) который вроде ускоряет но опять таки ничего не гарантирует. Да и вообще никто не понимает как этот batch-norm работает. Для всяких там сервисов с фоточками это ок, а для серьезных областей типа медицины это "труба".

Смотреть с 11ой минуты.

https://www.youtube.com/watch?v=Qi1Yry33TQE

DP>Вчера на NIPS была интересная презентация с критикой ML.
DP>tl;dr; Сегодня МЛ скорее Алхимия чем наука. Пользуемся всякими аппроксимациями типа стохастического градиентного спуска которые не могут давать гарантированного результата. Испольщуем batch norm (как по-русский?) который вроде ускоряет но опять таки ничего не гарантирует. Да и вообще никто не понимает как этот batch-norm работает. Для всяких там сервисов с фоточками это ок, а для серьезных областей типа медицыны это "труба".

На мой взгляд, это самое серьезное препятствие к продвижению ML. Едва ли, скажем, управление трафиком (воздушным, хехе), будет доверено системе, представляющей из себя черный ящик. Да и любое другое более-менее ответственное применение.

Здравствуйте, D. Petrov, Вы писали:

DP>tl;dr; Сегодня МЛ скорее Алхимия чем наука. Пользуемся всякими аппроксимациями типа стохастического градиентного спуска которые не могут давать гарантированного результата. Испольщуем batch norm (как по-русский?) который вроде ускоряет но опять таки ничего не гарантирует. Да и вообще никто не понимает как этот batch-norm работает. Для всяких там сервисов с фоточками это ок, а для серьезных областей типа медицыны это "труба".

Многое правда, но в целом чернота ящика явно преувеличивается. "никто не понимает как этот batch-norm работает" — слишком сильно сказано. ML — это обычная статистика, но применимая к большим массивам слабоструктурированных данных. Предлагаю обсудить вопрос: можно ли доверять статистике?
Тут все осознают, что автомобили и самолёты создают из деталей, качество и надёжность которых не 100%. Но есть теория надёжности и нормы брака, автомобили и самолёты всё таки делают, на них ездят и летают, им как-то доверяют.

Здравствуйте, Nuzhny, Вы писали:

N>Многое правда, но в целом чернота ящика явно преувеличивается. "никто не понимает как этот batch-norm работает" — слишком сильно сказано. ML — это обычная статистика, но применимая к большим массивам слабоструктурированных данных. Предлагаю обсудить вопрос: можно ли доверять статистике?

О том то и речь... Если ты делаешь все "по науке" то и оптимизацию будешь делать точными методами типа обращения матриц. Но где то на размерности 3го порядка такая возмжность теряется и приходится пользоваться приближенными методами. Современный ML это и есть умение работать с этими приблеженными методами путем их комбинирования и допиливания. Здесь и теряется связь с наукой и начинается алхимия.

PS: Я не пытаюсь доказать, что ML — ересь. Просто надо помнить о таких моментах если серьезно занимаешся этой облатью.

Здравствуйте, TMU_1, Вы писали:

TMU>На мой взгляд, это самое серьезное препятствие к продвижению ML. Едва ли, скажем, управление трафиком (воздушным, хехе), будет доверено системе, представляющей из себя черный ящик. Да и любое другое более-менее ответственное применение.

Ну так поэтому и появилось направление под названием Explainable AI.

Здравствуйте, Nuzhny, Вы писали:

N>Многое правда, но в целом чернота ящика явно преувеличивается. "никто не понимает как этот batch-norm работает" — слишком сильно сказано. ML — это обычная статистика, но применимая к большим массивам слабоструктурированных данных. Предлагаю обсудить вопрос: можно ли доверять статистике?

По моему, для серьезных дисциплин мы не можем доверять статистике. Точнее у нас должна быть адекватная модель, которая описывает действительность.
Вот эту модель мы можем проверять как на статистике, так и на искусственных данных. Должны проверять корректную работу модели в крайних точках и т.п.
Иначе каждый новый случай, не попадающийся в статистике , будет приводить к аварии.

Здравствуйте, D. Petrov, Вы писали:

DP>О том то и речь... Если ты делаешь все "по науке" то и оптимизацию будешь делать точными методами типа обращения матриц. Но где то на размерности 3го порядка такая возмжность теряется и приходится пользоваться приближенными методами. Современный ML это и есть умение работать с этими приблеженными методами путем их комбинирования и допиливания. Здесь и теряется связь с наукой и начинается алхимия.

На самом деле не важно точно или не точно выполнена оптимизация, если используется некорректна модель. А график по прошлым точкам и будет в большинстве своем некорректной моделью.

Здравствуйте, Nuzhny, Вы писали:

N>Многое правда, но в целом чернота ящика явно преувеличивается. "никто не понимает как этот batch-norm работает" — слишком сильно сказано. ML — это обычная статистика, но применимая к большим массивам слабоструктурированных данных. Предлагаю обсудить вопрос: можно ли доверять статистике?
N>Тут все осознают, что автомобили и самолёты создают из деталей, качество и надёжность которых не 100%. Но есть теория надёжности и нормы брака, автомобили и самолёты всё таки делают, на них ездят и летают, им как-то доверяют.

Тут другая проблема -- качество и надежность достигаются за счет "отлаживаемости", т.е. это итеративный сходящийся процесс. Нейросети, на сколько я знаю, невозможно отлаживать -- почему появлся тот или иной коэффицент и т.д.

Здравствуйте, kl, Вы писали:

TMU>>На мой взгляд, это самое серьезное препятствие к продвижению ML. Едва ли, скажем, управление трафиком (воздушным, хехе), будет доверено системе, представляющей из себя черный ящик. Да и любое другое более-менее ответственное применение.

kl>Ну так поэтому и появилось направление под названием Explainable AI.

Ирония в том, что not-explainable tenserflow нынче на два порядка более популярное направление.

Здравствуйте, Sharov, Вы писали:

S>Тут другая проблема -- качество и надежность достигаются за счет "отлаживаемости", т.е. это итеративный сходящийся процесс. Нейросети, на сколько я знаю, невозможно отлаживать -- почему появлся тот или иной коэффицент и т.д.

Более того, разные нейросети (в том числе нейросети с разными коэффициентами) могут давать одинаковый результат на прошлых стат. данных. А вот на будущих данных могут дать различный результат. Т.е. это просто напоминает школьника, который знает ответ, но не знает решения. Он подгоняет свое решение под ответ. А правильное ли оно или нет, сработает на другой задаче такого класса — не знает.

Здравствуйте, D. Petrov, Вы писали:

kl>>Ну так поэтому и появилось направление под названием Explainable AI.

DP>Ирония в том, что not-explainable tenserflow нынче на два порядка более популярное направление.

Ну так она дает практические результаты, в нее текут инвестиции, что привлекает серьезных людей — ничего удивительного.

Вообще на тему развернулась неплохая публичная дискуссия в FB Yann Lecun (директор ИИ в фейсбуке). Его посыл в том, что исторически нет ничего странного или удивительного в том, что практика обгоняет теорию по отдельным направлениям и это не повод перестать практиковать и ждать пока будут готовы теоретические инструменты.

Правда в этом, конечно, есть, но завершающий призыв к Али что, мол, если не не хватает теории, то иди работай над ней, а не жалуйся, довольно смехотворен.

Здравствуйте, D. Petrov, Вы писали:

DP>Вчера на NIPS была интересная презентация с критикой ML.

Кстати, вот на днях еще интересная штука появилась, стала обсуждаться: The Case for Learned Index Structures. Теперь не только алгоритмы будут черным ящиком, но и структуры данных (в данном случае для индексов в БД)

Здравствуйте, D. Petrov, Вы писали:

DP>Да и вообще никто не понимает как этот batch-norm работает.

Вот прямо никто-никто не понимает. Отучаемся говорить за всех

Все эмоциональные формулировки не соотвествуют действительному положению вещей и приведены мной исключительно "ради красного словца". За корректными формулировками и неискажённым изложением идей, следует обращаться к их автором или воспользоваться поиском

Здравствуйте, D. Petrov, Вы писали:

DP>PS: Я не пытаюсь доказать, что ML — ересь. Просто надо помнить о таких моментах если серьезно занимаешся этой облатью.

Так если серьёзно занимаешься, то это всё понимаешь

Ну и в этом смысле AI всегда был областью алхимии и субоптимальных решений и стохастических алгоритмов

Чем какой-нибудь генетический алгоритм хуже или лучше стохастического градиентного спуска?

"невозможно" и "не умею" -- разные слова.
Обычно, когда тюнят NN настраивают не коэффициенты конкретные, а архитектуру сети, функцию потерь, нормализацию данных и т. п.

Здравствуйте, D. Petrov, Вы писали:

DP>Ирония в том, что not-explainable tenserflow нынче на два порядка более популярное направление.

А что не так с tenserflow? Про глубокие сети люди обычно понимают, как они работают...

Здравствуйте, steep8, Вы писали:

S>Более того, разные нейросети (в том числе нейросети с разными коэффициентами) могут давать одинаковый результат на прошлых стат. данных. А вот на будущих данных могут дать различный результат. Т.е. это просто напоминает школьника, который знает ответ, но не знает решения. Он подгоняет свое решение под ответ. А правильное ли оно или нет, сработает на другой задаче такого класса — не знает.

Так AI-задачи все такие, что предполагается какой-то процент отзывчивости/отказов и ошибок.
Ну там, не знаю, управление АКПП или распознавание образов/букв/речи или поддержание равновесия робота или ещё чего.
Всюду могут быть ошибки. И у людей и у AI-алгоритмов. И NN тут ничем не специфичны...

Другое дело, что NN, как классификаторы, например, — дискриминационные по сути. Это накладывает некоторые ограничения.
Но на них тоже можно построить более или менее полную модель. Смотри на GAN, например.

Здравствуйте, Erop, Вы писали:

DP>>Да и вообще никто не понимает как этот batch-norm работает.

E>Вот прямо никто-никто не понимает. Отучаемся говорить за всех

Никто! Изучаем стилистические фигуры речи и, в частности, гиперболу

E>А что не так с tenserflow? Про глубокие сети люди обычно понимают, как они работают...
Так результатом понимания становятся хитрые картинки которые делают изображение неузнаваемым (вплоть до одного пикселя), и прочие трюки для обмана сети. Проблема в том что люди не понимают что ещё сделать чтобы такие глюки были невозможны.

S>Более того, разные нейросети (в том числе нейросети с разными коэффициентами) могут давать одинаковый результат на прошлых стат. данных. А вот на будущих данных могут дать различный результат. Т.е. это просто напоминает школьника, который знает ответ, но не знает решения. Он подгоняет свое решение под ответ. А правильное ли оно или нет, сработает на другой задаче такого класса — не знает.

Усугубляет ситуацию то что НС, как самый тупой из школьников, в "необычной" ситуации (например когда входные данные выходят за пределы обучающей выборки), даёт какой-то идиотский ответ (ещё и с большой уверенностью), вместо того чтобы сказать "алерт! алярм! ваще не знаю что происходит".

	От:	D. Petrov
	Дата:	07.12.17 06:16
	Оценка:	3 (1)

	От:	TMU_1
	Дата:	07.12.17 06:31
	Оценка:

От:	Nuzhny	https://github.com/Nuzhny007
Дата:	07.12.17 07:48
Оценка:	+4

	От:	D. Petrov
	Дата:	07.12.17 08:04
	Оценка:

От:	kl	http://stardog.com
Дата:	07.12.17 09:57
Оценка:

	От:	Erop
	Дата:	02.02.18 21:28
	Оценка:

	От:	Erop
	Дата:	02.02.18 21:32
	Оценка:

	От:	Erop
	Дата:	02.02.18 21:35
	Оценка:

	От:	Erop
	Дата:	02.02.18 21:36
	Оценка: