|
|
От: | itmanager85 | |
| Дата: | 07.12.17 19:13 | ||
| Оценка: | 5 (3) | ||
N>Перевожу на программерский язык: Они закодили правила, а затем запустили перебором найти все успешные варианты.N>В отличие от предыдущих программ DeepMind, AlphaZero создавался как алгоритм, способный научиться сразу нескольким задачам-играм, а не одной. Для этого алгоритм не обучали побеждать, а давали только базовые знания о правилах игры. AlphaZero затем играл сам с собой и самостоятельно вырабатывал тактику.
AlphaZero searches just 80 thousand positions per second in chess and 40 thousand in shogi, compared to 70 million for Stockfish and 35 million for Elmo.
"64 threads" — в два раза меньше от мощности. (хз чё это — прим.)
"with 40ms thinking time" — это в два раза больше от самого минимумаПолная мощь — это thinking 5000!
Говорят и оперативки выделили мало (1ГБ) для такого количества потоков.
чтобы включить на заявленную эталонную мощность, там нужно терабайт
Stockfish не мог пользоваться дебютной базой.
И без дебютной книги,эндшпильных баз,они вынуждены с нуля просчитывать позицию,в отличие от AlphaZero.
AlphaZero and the previous AlphaGo Zero used a single machine with 4 TPUs.
Training proceeded for 700,000 steps (mini-batches of size 4,096) starting from randomly initialised parameters, using 5,000 first-generation TPUs (15) to generate self-play games and 64 second-generation TPUs to train the neural networks.