Покер-AI или "комп научился годно врать" - Образование и наука

Прямо сейчас в Питтсбурге проходит соревнование Покер-ИИ Libratus'a против людей, и если вначале люди побеждали, то сейчас, отстают с сокрушительным разрывом. Игроки против которых играет ИИ входят в мировой топ-10, и людей там за столом 4, плюс замотивированы они на 200+ тыс. зелени. Короткий разбор этого исторического противостояния в слайдах тут. Как и в случае с Alpha-Go в победу компа мало кто верил, и даже после начала чемпионата букмекеры оценивали шансы на победу компа не выше 25%.

Для тех кто не в теме покера — безлимитный холдем — одна из игр, где умение врать (оно тут называется блеф) и разгадывать чужое враньё, чуть ли не важнее чем то какие у тебя карты. Игра проходит при неизвестной ситуации о которой можно только строить предположения глядя на действия противников (которые всё время стараются обмануть), и на каждую стратегию существует контр-стратегия. Из-за этого компу нужно постоянно анализировать свои действия на предмет предсказуемости и "взламываемости".

В общем, с точки зрения развития ИИ, это событие в некотором роде чуть ли не более знаковое чем победа AlphaGo в игре Го или DeepBlue в шахматах (там вся ситуация видна обоим игрокам, и глубина просчёта ограничивается лишь скоростями компов). Что радует — разработку вёл университет и очень большая часть математики этого покер-бота опубликована в статьях; как минимум создаётся ощущение что информации выложили существенно больше чем про Alpha-Go.

Здравствуйте, hi_octane, Вы писали:

_>В общем, с точки зрения развития ИИ, это событие в некотором роде чуть ли не более знаковое чем победа AlphaGo в игре Го или DeepBlue в шахматах (там вся ситуация видна обоим игрокам, и глубина просчёта ограничивается лишь скоростями компов).

Не очень понятно, в чём проблема блефа? Блеф это такая же часть игры, как и любая другая и реализуется тривиально. Что тут знакового?

Здравствуйте, hi_octane, Вы писали:

Кабы ЭТОТ же самый алгоритм при этом одновременно с этим людей лечил и падение метеоритов предсказывал — вот это был бы AI

А то блин куча математиков кучу лет разрабатывали алгоритм и дальше чо? Просто чтоб был? Чтоб бабла сбить на следующие гранты?

В чем причина писанья кипятком?

vsb>Не очень понятно, в чём проблема блефа? Блеф это такая же часть игры, как и любая другая и реализуется тривиально. Что тут знакового?
В случае покера — нет какого-то абсолютного критерия как и сколько надо блефовать — всё зависит от того с кем играешь и нет возможности узнать правильные ходы ты делаешь или нет. В большом числе случаев ты не знаешь карты противника даже после окончания партии. Например противник мог сблефовать на первом или втором ходу, а на следующем ситуация на столе изменилась в его пользу, и дальше он играл строго по вероятности. В случае если кто-то сдаётся, он имеет право не показывать карты, а если и показывает, может это делать намеренно, например изображая "безбашенного" игрока который рвётся в бой с мелкими картами, и т.п. Т.е. нет какой-то стратегии, которая бы работала без постоянной калибровки "параметров" противников. Ну и каждый противник может иметь свой собственный "стиль" игры, которые могут перемешиваться в любых пропорциях, так как и в начале каждой партии, и на каждом ходу, игроки сами решают стоит ли играть или карты слишком плохие чтобы ввязываться.

Если бы она реализовывалась тривиально — честного бота для покера сделали бы гораздо раньше чем для Го, особенно учитывая сколько денег в онлайн-покере крутится.

SO>Кабы ЭТОТ же самый алгоритм при этом одновременно с этим людей лечил и падение метеоритов предсказывал — вот это был бы AI
Конкретно этот, думаю, при внедрении в клиники сможет так балансировать нужные и левые процедуры пациентам и грузить их такими диагнозами, что даже опытные врачи оказавшись в такой больничке будут выкладывать всё что имееют до последнего цента, залезать в кредиты, брать на лечение у родственников, и т.д. Т.е. вырастет объём оказываемых мед-услуг населению, и, соотвественно, ВВП. А рост ВВП это хорошо.

SO>А то блин куча математиков кучу лет разрабатывали алгоритм и дальше чо? Просто чтоб был? Чтоб бабла сбить на следующие гранты?
SO>В чем причина писанья кипятком?
В том что сделан ещё один очень важный кирпич для ИИ. Покер это игра в которой понятие обмана, и игра с неполными данными, выражены в очень чистой форме (чище наверное только в детской игре верю-не-верю). Наличие решения такой задачи спокойно может вылиться в непредсказуемые и очень сбалансированные манипуляции рынками, или математически выверенными обманными манёврами на войне.

Здравствуйте, hi_octane, Вы писали:

_>В том что сделан ещё один очень важный кирпич для ИИ. Покер это игра в которой понятие обмана

"Обман" для компьютера — не тонкая психологическая игра с распознаванием микромимики по видео, а всего лишь одна из ветвей алгоритма.

Здравствуйте, SergeyOsipov, Вы писали:

SO>"Обман" для компьютера — не тонкая психологическая игра с распознаванием микромимики по видео, а всего лишь одна из ветвей алгоритма.

А вот откуда вы знаете? Может там как раз к обычному боту для покера прикрутили детектор вранья по камере.

Здравствуйте, Слава, Вы писали:

С>А вот откуда вы знаете? Может там как раз к обычному боту для покера прикрутили детектор вранья по камере.

Да потому что скорее всего это не так, и вы сами это понимаете

Здравствуйте, hi_octane, Вы писали:

vsb>>Не очень понятно, в чём проблема блефа? Блеф это такая же часть игры, как и любая другая и реализуется тривиально. Что тут знакового?
_>В случае покера — нет какого-то абсолютного критерия как и сколько надо блефовать — всё зависит от того с кем играешь и нет возможности узнать правильные ходы ты делаешь или нет. В большом числе случаев ты не знаешь карты противника даже после окончания партии. Например противник мог сблефовать на первом или втором ходу, а на следующем ситуация на столе изменилась в его пользу, и дальше он играл строго по вероятности. В случае если кто-то сдаётся, он имеет право не показывать карты, а если и показывает, может это делать намеренно, например изображая "безбашенного" игрока который рвётся в бой с мелкими картами, и т.п. Т.е. нет какой-то стратегии, которая бы работала без постоянной калибровки "параметров" противников. Ну и каждый противник может иметь свой собственный "стиль" игры, которые могут перемешиваться в любых пропорциях, так как и в начале каждой партии, и на каждом ходу, игроки сами решают стоит ли играть или карты слишком плохие чтобы ввязываться.

_>Если бы она реализовывалась тривиально — честного бота для покера сделали бы гораздо раньше чем для Го, особенно учитывая сколько денег в онлайн-покере крутится.

Честные боты для покера уже лет 10, а то и больше зарабатывают деньги на онлайн-площадках, которые в свою очередь пытаются с ними бороться. И у их создателей нет никакой мотивации показывать кому-то этих ботов, как раз чтобы живые люди несли им деньги, а не разочарованно переходили на другие игры. У Го такой ситуации нет.

Также покер не считается чем-то интеллектуально сложным, для обывателя это обычная азартная игра на уровне "дурака", в отличие от шахмат и Го. Поэтому то, что гугл сделал Го, а не покер, вполне закономерно и не говорит о том, что Го было сделать проще.

С>А вот откуда вы знаете? Может там как раз к обычному боту для покера прикрутили детектор вранья по камере.

В интернет-покере нет никаких видеокамер. Распознавание блефа скорее всего только по ставкам, и уж в крайнем случае по таймингу.

_>и людей там за столом 4

Людей там за столом не 4. Это игра heads-up. Т.е. даже если компьютер и победит, то это будет только очень частичное решение задачи игры в покер. Но в любом случае круто.

Здравствуйте, SergeyOsipov, Вы писали:

SO>Здравствуйте, hi_octane, Вы писали:
SO>В чем причина писанья кипятком?

ИИ это не только самообучаемость чему то новому. Это прежде всего решение некой задачи, которую раньше как считалось может
эффективно решать только человек: распознавание изображений, игра в шахматы, го и покер и тд. Понятно, что до человека с его
универсальным мозгом пока еще очень далеко. Но, возможно, методы и алгоритмы, разрабатываемые в контексте решений узких задач,
в будущем лягут в основу разработки чего-то более гибкого и универсального, типа человеческого мозга.

Здравствуйте, De-Bill, Вы писали:

_>>и людей там за столом 4

DB>Людей там за столом не 4. Это игра heads-up. Т.е. даже если компьютер и победит, то это будет только очень частичное решение задачи игры в покер. Но в любом случае круто.

Интересно только, моделируется ли у них как-то оппонент, и эксплуатируются ли его ошибки? Или нашли и используют эквилибриумную стратегию (которая делает ходы которые заведомо нельзя эксплуатировать, но которая не адаптируется под оппонента)?

Интересней, применимы ли их методы для игры 9-10 человек за столом, для турниров, для других видов покера (например, омаха). Я так думаю, там количество состояний астрономически больше, чем в heads-up. И чтобы выиграть в турнире, недостаточно играть эквилибриумную стратегию — надо активно эксплуатировать оппонентов.

RNS>Интересно только, моделируется ли у них как-то оппонент, и эксплуатируются ли его ошибки? Или нашли и используют эквилибриумную стратегию (которая делает ходы которые заведомо нельзя эксплуатировать, но которая не адаптируется под оппонента)?

Думаю, что там внутри сумасшедшая нейросеть, такая, что сами учёные не знают, почему система играет именно так. Но, думаю, однозначно есть базовая стратегия, которая потом адаптируется под оппонента. В heads-up невозможно выиграть на эквилибриумной стратегии.

RNS>Интересней, применимы ли их методы для игры 9-10 человек за столом, для турниров, для других видов покера (например, омаха). Я так думаю, там количество состояний астрономически больше, чем в heads-up. И чтобы выиграть в турнире, недостаточно играть эквилибриумную стратегию — надо активно эксплуатировать оппонентов.

На нижних уровнях эквилибриумная стратегия на 9-10 человек и на турниры должна быть на порядок проще. По крайней мере я несколько лет назад писал программу, которая с помощью статистического анализа подбирала стратегию с положительным матожиданием для микролимитов. Робота, правда, я не написал, поэтому выписывал стратегию на листочек, а потом играл 10 быстрых столов одновременно. Выигрыш был что-то около 1 доллара в час. Для турниров тоже на 90% случаев можно подобрать развешанную стратегию (push-bot в частности). Но если рассматривать игры на высоких лимитах или с несколькими профессионалами за столом, то, думаю, их системе это пока не под силу.

Здравствуйте, hi_octane, Вы писали:

_>Прямо сейчас в Питтсбурге проходит соревнование [...]

Вот хоть пристрелите, не врубаюсь, откуда столько восторгов. Чем это конкретное "годное враньё" принципиально отличается, например, от автоматической оптимизации налогообложения путём "рисования" фиктивного товарооборота подставной фирмы-однодневки. Или удаления прыщиков фотошопом

Я всё понимаю. Модная тема. Машинное обучение, все дела. Десятилетиями ждали искусственного интеллекта, прошли через длинную череду разочарований, и вот наконец-то получили методику, которая (а) способна решать те задачи, которые раньше не решались и (б) работает не до конца понятно как. Давайте по пунктам:

а). Вообще-то создание артефактов, способных решать не решаемые ранее задачи — нормальная функция технического прогресса. Так было и с паровой машиной, и с аэропланами, и позже со всей нашей IT-машинерией.

б). На основании одного общего свойства нельзя делать вывод о том, что два рассматриваемых предмета имеют одну и ту же суть. Это логическая ошибка. Утверждать, что наше собственное сознание и алгоритм машинного обучения логически подобны друг другу только потому, что оба не до конца понятны — всё равно что сказать, что красивая девушка Маша имеет ту же природу, что и красивый Ниагарский водопад.

Нужно помнить о том, что то, что называют сейчас машинным обучением — это один из методов решения задачи фильтрации. Оно же ещё со времён Ньютона и Лапласа (м.б. и раньше) известно как задача аппроксимации. Известна куча мат. методов решения этой задачи начиная от банальной линейной аппроксимации методом наименьших квадратов и заканчивая генетическими алгоритмами и, да, нейросетями. Метод наименьших квадратов прекрасен (потому что математически выверен), но его можно реально применять только тогда, когда входных параметров ("иксов") не больше нескольких штук. Он по "иксам" очень плохо масштабируется. Если "иксов" много, то применяются другие методы. Если их сотни и тысячи, то ничего не остаётся, как наплевать на надёжность и предсказуемость и, помолившись Фортуне, воспользоваться методом градиентного спуска по пространству решений. Собственно, это и есть наше прекрасное и модное машинное обучение.

Какое отношение имеет аппроксимация функций многих переменных методом градиентного спуска к работе нашего сознания? В общем-то, никакого. Если говорить о работе мозга "в целом", то нет той функции, которую мы бы своими мозгами аппроксимировали. Она просто отсутствует. Задачи, логически похожие на задачу фильтрации наши мозги походя решают много и часто, но, во-первых, они их решают не методом градиентного спуска (иначе для того, чтобы понять книгу, нам приходилось её читать сто тысяч раз), а, во-вторых, взятая "в целом" работа мозга не является решанием одной большой задачи фильтрации.

В сухом остатке: машинное обучение — это хоть и чрезвычайно полезная штука, но к интеллекту она имеет отношения не больше, чем суммирование чисел арифмометром "Феликс". То, что к машинному обучению сейчас прилепился термин "ИИ", считаю глупостью и случаем обыкновенного маркетингового вранья.

V>В сухом остатке: машинное обучение — это хоть и чрезвычайно полезная штука, но к интеллекту она имеет отношения не больше, чем суммирование чисел арифмометром "Феликс". То, что к машинному обучению сейчас прилепился термин "ИИ", считаю глупостью и случаем обыкновенного маркетингового вранья.

Есть устоявшаяся терминология, что в современной науке понимается под AI. Я эту терминологию разделяю, поэтому прорывы в машинном обучении рассматриваю, как прорывы в AI.

Здравствуйте, De-Bill, Вы писали:

DB>Есть устоявшаяся терминология, что в современной науке понимается под AI. Я эту терминологию разделяю, поэтому прорывы в машинном обучении рассматриваю, как прорывы в AI.

Сильно подозреваю, что та наука, в которой сложилось такое понимание термина AI, называется "маркетология"

Мы все думаем и общаемся словами, и поэтому косяки в терминологии неизбежно дают косяки в понимании. Неадекватный термин запутывает, уводит в сторону, блокирует конструктивное обсуждение. Мы готовы с этим смириться?

V>Мы все думаем и общаемся словами, и поэтому косяки в терминологии неизбежно дают косяки в понимании. Неадекватный термин запутывает, уводит в сторону, блокирует конструктивное обсуждение. Мы готовы с этим смириться?

Для любого человека, кто хоть немного разбирался и работал в области AI этот термин не запутывает и не уводит в сторону. А то, что он уводит кого-то, для которого AI — это "чтобы компьютеры мыслили как человеки", то ничего страшного в этом нет.

Здравствуйте, De-Bill, Вы писали:

_>>и людей там за столом 4

DB>Людей там за столом не 4. Это игра heads-up. Т.е. даже если компьютер и победит, то это будет только очень частичное решение задачи игры в покер. Но в любом случае круто.
Хедз ап? Тьфу, халява — откуда восторги — рекламное мероприятие обычное, для хедз апа уже давно доказали наличие беспроигрышной стратегии. Хедс ап и полный стол — это как шашки и шахматы, только полный стол еще сложнее автмоатизировать чем шахматы.

Здравствуйте, De-Bill, Вы писали:

DB>Для любого человека, кто хоть немного разбирался и работал в области AI этот термин не запутывает и не уводит в сторону. А то, что он уводит кого-то, для которого AI — это "чтобы компьютеры мыслили как человеки", то ничего страшного в этом нет.

В области AI есть много интересных направлений, и машинное обучение — лишь одно из них. Да, сейчас именно оно принесло очередную порцию "чудес", и поэтому оно оказалось в фокусе внимания. Но другие направления тоже живы. Не надо их хоронить раньше времени.

Кроме того, что-то мне подсказывает, что основные прорывы в области AI ещё впереди, и ситуация вполне может развернуться так, что с аппроксимации функций многих переменных вообще снимут от греха подальше прилепившийся к ней сейчас ярлык "интеллект".
Ну не называем же мы сейчас интеллектом способность Экселя быстро просуммировать колонку чисел, правда? А ещё совсем недавно вычисления вручную считались очень даже интеллектуальной работой.

	От:	hi_octane
	Дата:	30.01.17 12:38
	Оценка:	23 (7)

	От:	vsb
	Дата:	30.01.17 12:42
	Оценка:

	От:	SergeyOsipov
	Дата:	30.01.17 12:47
	Оценка:

	От:	hi_octane
	Дата:	30.01.17 13:03
	Оценка:

	От:	hi_octane
	Дата:	30.01.17 13:13
	Оценка:

От:	Voblin	http://maslyaew.narod.ru/
Дата:	01.02.17 11:47
Оценка:	+3

	От:	De-Bill
	Дата:	31.01.17 03:15
	Оценка:

	От:	De-Bill
	Дата:	31.01.17 03:38
	Оценка:	+1

	От:	GreenTea
	Дата:	31.01.17 16:46
	Оценка:	+1

	От:	RiNSpy
	Дата:	31.01.17 22:38
	Оценка: