обсуждение &quot;AlphaZero&quot; LCZ

предыдущая часть,
[разочарование года] AI AlphaZero уже не лучший шахматист
Автор: xma
Дата: 13.04.22

продолжение,

	подробнее
	вообще, на английской википедии — больше информации про Leela Chess Zero, https://en.wikipedia.org/wiki/Leela_Chess_Zero Как и Leela Zero и AlphaGo Zero, Leela Chess Zero не имеет каких-либо специальных знаний о шахматах, кроме базовых правил игры. Затем Leela Chess Zero учится играть в шахматы с помощью обучения с подкреплением в результате повторяющейся самостоятельной игры с использованием распределенной вычислительной сети, координируемой на веб-сайте Leela Chess Zero. По состоянию на декабрь 2022 года Leela Chess Zero сыграла против себя более 1,5 миллиарда игр, играя около 1 миллиона игр каждый день, и способна играть на уровне, сравнимом с Stockfish , ведущей традиционной шахматной программой.

ну что дамы и господа, апгрейднутый AlphaZero LCZ опять занял первое место на чемпионате лучших шахматных программ "Top Chess Engine Championship Cup 11 (2023)" (пруф)

не зря я в него верил, чуял что направление не тупиковое для абсолютного лидерства

идеи по оптимизации

P.S.1:

есть интересные идеи по оптимизации,

короче интересная идея, чтобы Leela Chess Zero по мере самообучения впоследствии сама могла выбирать какие партии и с какой позиции тренировать доигрывание для своего усиления (чтобы сформировать максимально выигрышные стратегии глубокой игры, не тратя для этого лишнее время на "бесконечные" (условно) переборы начала партий)

как вам идея ?

вроде бы (но не точно) что то из этого в каком то виде даже реализовывалось (возможно частично)

далее, комментарий revollwars:

Посмотри проиграный матч нейросети Альфазеро тому же Стокфишу.
Нейросеть выбрала один раз ход ,как самый быстрый из известных её партий завершившихся победой.
И именно это стало роковой ошибкой нейросети ,которой воспользовался Стокфиш .

думаю потому что как раз чего то вот такого и не хватает при самообучении, чтобы нейросеть могла скакать и перебирать (многократно переигрывая) наиболее опасные или выгодные участки (с её точки зрения) ..

самообучение в AlphaZero LCZ на многократном переигрывании (доигрывании) эндшпилей вроде таки замутили — и тогда резко вырос рейтинг Elo у AI, но думаю что надо больше ковырять в эту сторону .. (а может и уже наковыряли, хз)

P.S.2:

ну и возможно есть резон с такой настройкой приоритетов — выбор стратегии на победу или на сдерживание (ничью), чтобы получать максимальный общий балл на соревнованиях (но возможно уже реализовано), чтобы лишний раз не рисковать

ну и интересная идея, попробовать отдельно самообучать — игру белыми и чёрными .. всё таки там разный подход должен быть и чёрные во многом изначально в более проигрышной позиции чем белые (судя по результатам соревнований)

P.S.3:

вот кстате, возможно это и оно (изложенное в P.S.1) (начиная с предыдущей версии 0.29)

Поддержка использования книги pgn с длинными строками в обучении: самостоятельная игра может начаться в произвольном месте книги.

	оригинал
	Support for using pgn book with long lines in training: selfplay can start at a random point in the book.

думаю что именно поэтому AlphaZero LCZ теперь и топчег из топчегов ..

P.S.4:

долго же до них доходила необходимость этого ..

P.S.:

а в русскоязычных СМИ чёт опять ни слухом ни духом про победы AlphaZero LCZ, неужели настолько не популярная тема ?

	От:	xma
	Дата:	23.01.23 23:20
	Оценка: