Искусственный интеллект стал лучшим шахматистом мира за 4 ч - Образование и наука

ИИ от Google за несколько часов сам научился играть в шахматы и го и победил «чемпионов»
https://rb.ru/news/alpha-zero/

Искусственный интеллект стал лучшим шахматистом мира за 4 часа
https://vivalacloud.ru/2017/12/alphazero-chess/

Ещё одна революция. Разработан алгоритм, позволяющий играть в шахматы на космическом уровне
http://chess-news.ru/node/24010

DeepMind представила новый алгоритм, за считаные часы освоивший шахматы
https://hitech.newsru.com/article/06dec2017/alphazero

пока ещё не читал , но вкратце "белые начинают и выигрывают" — оказалось верным (в том смысле что у белых есть определённое преимущество, статистически на примере среди самых сильных программ AlphaZero и Stockfish),

"Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm" (научная статья если кому интересно)
https://arxiv.org/pdf/1712.01815.pdf

Кажется, здесь особо нечему радоваться.

Здравствуйте, De-Bill, Вы писали:

DB>Кажется, здесь особо нечему радоваться.

Почему?
Я так понимаю, что скоро такой подход можно будет активнее применять к доказательству теорем. Нет?

Здравствуйте, itmanager85, Вы писали:

I>ИИ от Google за несколько часов сам научился играть в шахматы и го и победил «чемпионов»

Отлично. Теперь его надо научить выбирать тарифные планы сотовых операторов.

Здравствуйте, kov_serg, Вы писали:

I>>ИИ от Google за несколько часов сам научился играть в шахматы и го и победил «чемпионов»

_>Отлично. Теперь его надо научить выбирать тарифные планы сотовых операторов.

Сотовые операторы будут придумывать новые тарифные планы. ИИ на ИИ ИИ погоняет. Главное накачивать энергией это замкнутый контур.

I>ИИ от Google за несколько часов сам научился играть в шахматы и го и победил «чемпионов»
I>https://rb.ru/news/alpha-zero/

В отличие от предыдущих программ DeepMind, AlphaZero создавался как алгоритм, способный научиться сразу нескольким задачам-играм, а не одной. Для этого алгоритм не обучали побеждать, а давали только базовые знания о правилах игры. AlphaZero затем играл сам с собой и самостоятельно вырабатывал тактику.

Перевожу на программерский язык: Они закодили правила, а затем запустили перебором найти все успешные варианты.
ИИ?

Здравствуйте, namespace, Вы писали:

N>

N>В отличие от предыдущих программ DeepMind, AlphaZero создавался как алгоритм, способный научиться сразу нескольким задачам-играм, а не одной. Для этого алгоритм не обучали побеждать, а давали только базовые знания о правилах игры. AlphaZero затем играл сам с собой и самостоятельно вырабатывал тактику.

N>Перевожу на программерский язык: Они закодили правила, а затем запустили перебором найти все успешные варианты.
N>ИИ?
N>

действительно facepalm

ты конечно же в курсе что перебрать все варианты в шахматах до конца — невозможно , и существует проблема объективной оценки "недоперебранных позиций" , с тем чтобы в отсутствии однозначной определённости сделать наиболее точную их оценку ?

так вот ,

AlphaZero searches just 80 thousand positions per second in chess and 40 thousand in shogi, compared to 70 million for Stockfish and 35 million for Elmo.

т.е. имея вычислительную производительность глубины ходов почти в 1000 раз меньше (у AlphaZero против Stockfish), ИИ тем не менее благодаря более точным своим оценкам "относительных позиций" выигрывает у более глубоко-переборного варианта в виде Stockfish ..

на некоторых форумах указывают что мол Stockfish играла не в полную силу , т.к.

"64 threads" — в два раза меньше от мощности. (хз чё это — прим.)
~~"with 40ms thinking time" — это в два раза больше от самого минимума Полная мощь — это thinking 5000!~~

а также что

Говорят и оперативки выделили мало (1ГБ) для такого количества потоков.

чтобы включить на заявленную эталонную мощность, там нужно терабайт

и что

Stockfish не мог пользоваться дебютной базой.

И без дебютной книги,эндшпильных баз,они вынуждены с нуля просчитывать позицию,в отличие от AlphaZero.

но так и AlphaZero училась всего 4 часа , а может ведь и месяц

и если мощи не хватит даже после этого (в чём я сомневаюсь) — то можно было бы дополнительно также скормить "дебютной книги, эндшпильных баз"

но понятно конечно что тут фишка AlphaZero в том что она (за считанные часы) самостоятельно достигает результатов лучших чем всё человечество со всеми шахматными достижениями , в т.ч. написанными им самыми лучшими программами ..

ну и так к сведению ,

AlphaZero and the previous AlphaGo Zero used a single machine with 4 TPUs.

а при обучении ,

Training proceeded for 700,000 steps (mini-batches of size 4,096) starting from randomly initialised parameters, using 5,000 first-generation TPUs (15) to generate self-play games and 64 second-generation TPUs to train the neural networks.

Здравствуйте, namespace, Вы писали:

N>Перевожу на программерский язык: Они закодили правила, а затем запустили перебором найти все успешные варианты.
N>ИИ?
Они использовали не все варианты, а Monte Carlo Tree Search и добились того что процесс обучения стал сходится.

DB>>Кажется, здесь особо нечему радоваться.
N>Почему?
N>Я так понимаю, что скоро такой подход можно будет активнее применять к доказательству теорем. Нет?

Скоро этот подход (или модифицированный) будет применим ко всему.

Здравствуйте, De-Bill, Вы писали:

DB>Скоро этот подход (или модифицированный) будет применим ко всему.

Давай не говорить загадками. Что же вызывает у тебя беспокойство?

1) Правила меняются со временем по известному для нейронной сети закону (возможно частный случай статичных правил)
2) Правила меняются со временем по не известному для нейронной сети закону
3) Правила меняются со временем по не известному для нейронной сети частично случайному закону

Здравствуйте, Nuzhny, Вы писали:

N>Я так понимаю, что скоро такой подход можно будет активнее применять к доказательству теорем. Нет?

Теоремы и без нейронных сетей отлично доказываются. Алгоритм Вонга и прочее. (Мы в школе проходили

Здравствуйте, Nuzhny, Вы писали:

DB>>Скоро этот подход (или модифицированный) будет применим ко всему.
N>Давай не говорить загадками. Что же вызывает у тебя беспокойство?

Я хотел привести здесь цитату из Зеленого слоника, но в прямом виде она неуместна, поэтом я её перефразирую: "будешь, программист, картошку сажать?".

Здравствуйте, itmanager85, Вы писали:

I> ты конечно же в курсе что перебрать все варианты в шахматах до конца — невозможно , и существует проблема объективной оценки "недоперебранных позиций" , с тем чтобы в отсутствии однозначной определённости сделать наиболее точную их оценку ?

I>т.е. имея вычислительную производительность глубины ходов почти в 1000 раз меньше (у AlphaZero против Stockfish), ИИ тем не менее благодаря более точным своим оценкам "относительных позиций" выигрывает у более глубоко-переборного варианта в виде Stockfish ..

I>но так и AlphaZero училась всего 4 часа , а может ведь и месяц

Ну вообще-то интеллект — это правильность, а не скорость.
Поэтому я не удивляюсь тому, что нейронки в некоторых случаях выигрывают.

Я подозреваю, AlphaZero училась всего 4 часа именно потому, что на пятом часу ничего нового не происходит.
После определённого предела уже не важно, какую оценку позиции она даёт 17.748 или 17.749.
Ходы она делает точно такие же и "умнее" не становится.

А чтобы сделать Stockfish "умнее" ей достаточно просто дать больше ресурсов.
А что делать с нейронками — непонятно.
Нельзя ей скормить "дебютной книги, эндшпильных баз".
Если бы можно было, то скормили бы и не жужжали.
Поэтому таки да, в этот раз Stockfish боролась со связанными руками.

I>ИИ от Google за несколько часов сам научился играть в шахматы и го и победил «чемпионов»

Насколько я понимаю, самое интересное там
"the same algorithm settings, network architecture, and hyper-parameters were used for all three games".
То есть одна и та же сетка освоила три игры.

Здравствуйте, Слава, Вы писали:

С>Я хотел привести здесь цитату из Зеленого слоника, но в прямом виде она неуместна, поэтом я её перефразирую: "будешь, программист, картошку сажать?".

Почему нет? Например, у меня нет желания считать на бумажке или арифмометре, пользоваться таблицами Брадиса и т.д.

Здравствуйте, igor-booch, Вы писали:

IB>1) Правила меняются со временем по известному для нейронной сети закону (возможно частный случай статичных правил)
IB>2) Правила меняются со временем по не известному для нейронной сети закону
IB>3) Правила меняются со временем по не известному для нейронной сети частично случайному закону

Не. Следующий этап вот

Здравствуйте, alpha21264, Вы писали:

A>Я подозреваю, AlphaZero училась всего 4 часа именно потому, что на пятом часу ничего нового не происходит.
A>После определённого предела уже не важно, какую оценку позиции она даёт 17.748 или 17.749.
A>Ходы она делает точно такие же и "умнее" не становится.

интересная теория

A>А чтобы сделать Stockfish "умнее" ей достаточно просто дать больше ресурсов.

A>А что делать с нейронками — непонятно.
A>Нельзя ей скормить "дебютной книги, эндшпильных баз".
A>Если бы можно было, то скормили бы и не жужжали.

в AlphaGo же скормили

а AlphaZero которой вообще ничего не скармливали — её таки победила ..

A>Поэтому таки да, в этот раз Stockfish боролась со связанными руками.

Здравствуйте, itmanager85, Вы писали:

I>Здравствуйте, alpha21264, Вы писали:

A>>Я подозреваю, AlphaZero училась всего 4 часа именно потому, что на пятом часу ничего нового не происходит.
A>>После определённого предела уже не важно, какую оценку позиции она даёт 17.748 или 17.749.
A>>Ходы она делает точно такие же и "умнее" не становится.

I>интересная теория

Очевидная.
На Google Translate посмотри. Почему он умнее не становится?
Вот ыменно.

A>>А что делать с нейронками — непонятно.
A>>Нельзя ей скормить "дебютной книги, эндшпильных баз".
A>>Если бы можно было, то скормили бы и не жужжали.

I>в AlphaGo же скормили

а AlphaZero которой вообще ничего не скармливали — её таки победила ..

Где? Ты сказал, что:

Stockfish не мог пользоваться дебютной базой.
И без дебютной книги,эндшпильных баз,они вынуждены с нуля просчитывать позицию,в отличие от AlphaZero.

По моему, это ясно показывает, что по честному AlphaZero не может бороться против Stockfish.

Здравствуйте, alpha21264, Вы писали:

A>Очевидная.

может потому что время хода ограничили ?

A>На Google Translate посмотри. Почему он умнее не становится?
по мне так перевод в гугл транслейт стал на порядок качественнее (после внедрения нейросетей для перевода)

I>>в AlphaGo же скормили

а AlphaZero которой вообще ничего не скармливали — её таки победила ..

A>Где?
что где ? AlphaGo это ИИ для Го , обучавшийся в т.ч. на человеческих партиях .. а AlphaZero — это ИИ обучавшийся только на игре самим с собой ..

A>Ты сказал, что:
A>

A>Stockfish не мог пользоваться дебютной базой.
A>И без дебютной книги,эндшпильных баз,они вынуждены с нуля просчитывать позицию,в отличие от AlphaZero.

A>По моему, это ясно показывает, что по честному AlphaZero не может бороться против Stockfish.

вилами на воде писано

хотя конечно вызывает определённый интерес дальнейшее развитие событий

I>действительно facepalm

Я не писал о тупом переборе всех ходов. Думаю, понятие этюдов не нужно обьяснять.
И если в данном случае алгоритм подбора этюдов победил алгоритм простого перебора, то один черт это все просто алгоритмы, и к ИИ они не имеют ровно никакого отношения.
С точки зрения машины, шахматы — крайне простая задача с мизерным количеством правил. Интеллект уровня какого-нибудь таракана.
Проблема настоящего ИИ в понимании/приобретении новых правил, но этих правил такое количество, что добавляя их такими способом(вручную кодируя), мы на уровень интеллекта трехлетнего ребенка даже в этом столетии не выйдем.

Для сравнения, если в автонавигаторы встроить возможность сохранения всех возможных маршрутов(на основе правил ПДД и карты города), то затем так же можно проверить, какой из них более 'ителлектуальный'.

Здравствуйте, itmanager85, Вы писали:

I>на некоторых форумах указывают что мол Stockfish играла не в полную силу , т.к.

I>

I>~~"with 40ms thinking time" — это в два раза больше от самого минимума Полная мощь — это thinking 5000!~~

это не так — я посмотрел доку и о чудо что я увидел там

Figure 2 shows the scalability of each player with respect to thinking time, measured on an Elo scale, relative to Stockfish or Elmo with 40ms thinking time.

график на Figure 2 (на 7 странице) — по нему видно что начиная с пол секунды (на ход) AlphaZero начинает уделывать StockFish — и чем больше времени на ход (график вплоть до 10 секунд) — тем больше отрыв у AlphaZero ..

We evaluated the fully trained instances of AlphaZero against Stockfish, Elmo and the previous version of AlphaGo Zero (trained for 3 days) in chess, shogi and Go respectively, playing 100 game matches at tournament time controls of one minute per move.

https://arxiv.org/pdf/1712.01815.pdf

Table 1. (5-ая страница) .. Each program was given 1 minute of thinking time per move.

а на каждый ход в соревнования по 100 партий — давалась вообще минута ..

I>и что

I>

I>Stockfish не мог пользоваться дебютной базой.

I>И без дебютной книги,эндшпильных баз,они вынуждены с нуля просчитывать позицию,в отличие от AlphaZero.

это тоже хз , кто то накукарекал на форуме ..

Здравствуйте, De-Bill, Вы писали:

DB>Скоро этот подход (или модифицированный) будет применим ко всему.

Слава роботам! Убить всех человеков!

... << RSDN@Home 1.0.0 alpha 5 rev. 0>>

Почему они выбирают игры а не скажем обучают его компиляции и оптимизаии программ?

Здравствуйте, igor-booch, Вы писали:

IB>1) Правила меняются со временем по известному для нейронной сети закону (возможно частный случай статичных правил)
IB>2) Правила меняются со временем по не известному для нейронной сети закону
IB>3) Правила меняются со временем по не известному для нейронной сети частично случайному закону

S>Почему они выбирают игры а не скажем обучают его компиляции и оптимизаии программ?

Попробую грубо переложить задачу оптимизации программ на шахматы.
Допустим расстановка шахмат на доске это программа. Вариантов расстановки очень много. Ровно как и программ может быть очень много. Ходы это оптимизация программы.
Сейчас нейронную сеть натренировали выигрывать из одного начального положения (исходная расстановка шахмат согласно правилам). Сможет ли та же нейронная сеть включиться не в свою игру, когда игра сыграна наполовину и текущая расстановка шахмат отличается от исходной? Например, решить шахматный этюд? Если нет, то это ещё один следующий этап.

Здравствуйте, igor-booch,

IB>Допустим расстановка шахмат на доске это программа. Вариантов расстановки очень много. Ровно как и программ может быть очень много. Ходы это оптимизация программы.

А теперь перейдем к реальному процессу разработки программ.

Допустим, что партнер время от времени меняет расположение и количество фигур на доске. К примеру, в какой-то момент времени он "внезапно" решил заменить ладью на слона. Бизнес-процесс у него, видишь-ли, изменился. А еще допустим, что партнер время от времени меняет правила игры. Вот, к примеру, захотелось "внезапно" ему, чтобы конь ходил еще и по диагоналям....
Ась?

V_S>А теперь перейдем к реальному процессу разработки программ.

V_S>Допустим, что партнер время от времени меняет расположение и количество фигур на доске. К примеру, в какой-то момент времени он "внезапно" решил заменить ладью на слона. Бизнес-процесс у него, видишь-ли, изменился. А еще допустим, что партнер время от времени меняет правила игры. Вот, к примеру, захотелось "внезапно" ему, чтобы конь ходил еще и по диагоналям....
V_S>Ась?

serb имел ввиду скорей всего оптимизацию производительности и расхода памяти при компиляции программы. Сейчас компиляторы не просто переводят текст на ЯП высокого уровня в ЯП низкого уровня (ассемблер или байт код), а делают при этом оптимизации.
То о чем говорите вы относится скорее к рефракторингу и применению шаблонов проектирования. Дал нейронной сети программу на ЯП высокого уровня. Она сама устранила дублирование кода, применила паттерны, разделила на модули, повысила связность, уменьшила зацепление. В результате другая программа на ЯП высокого уровня, но более гибкая, то есть адаптированная к изменениям требований заказчика.

	От:	itmanager85
	Дата:	06.12.17 20:20
	Оценка:	58 (8)

	От:	De-Bill
	Дата:	07.12.17 03:06
	Оценка:	+1

От:	Nuzhny	https://github.com/Nuzhny007
Дата:	07.12.17 06:56
Оценка:	+1

	От:	kov_serg
	Дата:	07.12.17 07:10
	Оценка:	+1

	От:	fin_81
	Дата:	07.12.17 10:41
	Оценка:

	От:	igor-booch
	Дата:	08.12.17 10:34
	Оценка:

	От:	alpha21264
	Дата:	08.12.17 11:18
	Оценка:	-1

	От:	alpha21264
	Дата:	08.12.17 11:27
	Оценка:	+1

	От:	TMU_1
	Дата:	08.12.17 12:38
	Оценка:	1 (1)