Hierarchical Reasoning Model
По сравнению с мейнстримовыми LLM, которые ни шахматы, ни судоку решить не могут, получился прямо таки прорыв.
Самая громкая статья месяца – Hierarchical Reasoning Model
Без предисловий, сразу главный результат: у авторов получилось сделать модельку всего на 27 миллионов (!) параметров, которая обошла o3-mini на ARC-AGI-1. Неудивительно, что об этой работе сейчас говорит все комьюнити, а авторы ARC-AGI даже сами написали большой разбор результатов модели на их бенчмарке.
Погнали разбираться.
Итак, вся архитектура состоит из двух рекуррентных модулей: быстрого низкоуровневого и медленного высокоуровневого. Первый отвечает за быстрые локальные вычисления и решения частных задач, а цель второго – абстрактно управлять процессом и ставить таски первому.
Суть в том, что они обновляются с разной частотой. Исходная задача разбивается на несколько циклов рассуждения. В каждом из них верхний модуль обновляется только один раз и дает новый контекст нижнему модулю, который в свою очередь делает много мелких шагов и ищет локальное решение.
Сколько будет таких итераций, модель решает сама. Останавливаться (или не останавливаться) в правильный момент ее специально учили с помощью RL. Так что «думать» она может и пару секунд, и пару часов.
Обучается HRM не совсем привычно для рекуррентной модели: здесь, вместо того чтобы сохранять все внутренние состояния, авторы решили обновлять градиенты только по финальному стейту. Удивительно, но факт – это работает.
Кстати, вся конструкция и принцип обучения очень похожи на то, как работает наш мозг. Некоторые области отвечают за абстракцию, другие – за конкретные моментальные действия, а общаются они посредством обратных связей. Здесь те же принципы иерархии (отсюда и название). Плюс, мозг тоже не хранит промежуточные траектории и к сходимости приходит через схожие волновые циклы.
Итог: модель для своего размера просто беспрецедентно хороша на решениях всяких головоломок типа судоку, лабиринтов и индуктивных задач. В общем, именно в тех областях, где привычные LLM обычно фейлятся. Конечно, особенно поражают результаты на ARC-AGI, которые мы описали в начале.
Революция или нет, но выглядит действительно очень изящно и эффектно.
Обязательно почитайте работу полностью тут (+ вот еще один отличный разбор на русском языке)
Здравствуйте, Nuzhny, Вы писали:
K>>шахматные задачки она решает?))
N>Проверь, репозиторий доступен. Подходу без году неделя, не успели ещё
А я даже не буду проверять, чтобы знать заранее, что шахматные задачки большие языковые модели не решают.
Шахматные задачки решаются не рассуждениями, а перебором вариантов.
И не стоит всюду пихать модные языковые модели туда, где прекрасно работают старые классические способы
K>>Шахматные задачки решаются не рассуждениями, а перебором вариантов.
N>Думаешь, люди тоже все варианты перебирают?
а откуда ты знаешь, что НА САМОМ ДЕЛЕ происходит в голове шахматиста? То, что человек озвучивает, лишь вершина айсберга. Был такой чемпион мира Михаил Ботвинник, который посмеивался над перебором вариантов и хотел сделать свою шахматную программу, "думающую, как человек" ("Пионером" назвал ее). Проблема в том, как говорил один из создателей "Каиссы" (первая чемпионка мира среди шахматных программ), что Ботвинник думал, что знает, как человек думает.
И причем тут вообще человек? Я тебе говорю, что задолго до модных нейросетей классические способы шахматного программирования щелкали любые шахматные задачки.
Здравствуйте, Kocur, Вы писали:
K>И причем тут вообще человек? Я тебе говорю, что задолго до модных нейросетей классические способы шахматного программирования щелкали любые шахматные задачки.
Кто же с этим спорит? Да, перебор, отсечение — все дела. Полным перебором вообще любая оптимизационная задача решается, предлагаешь другие не изобретать?
Если говорить о шахматах, то и у них есть оценочная функция. Почему бы позиции не оценивать нейросети? Не перебирать, а просто оценивать, а перебор оставить классическим? Кстати, примерно так многие шахматные программы и работают, насколько я знаю. Я правильно понимаю, что такой подход ты осуждаешь? Нельзя! Только перебор!
Есть мнение, что шахматисты в голове оперируют как раз такими оценками. И запоминают не положение всех фигур на доске, а сразу всю доску. Это позволяет им играть вслепую с несколькими противниками. И оценивают они сразу всё.
Я отвлёкся. Я понимаю, почему тебе нравится перебор, но не улавливаю смысл запрета на все другие алгоритмы. Почему? Потому что 50 лет назад у одного шахматиста не получилось программу написать? Это твой основной аргумент?
Здравствуйте, Nuzhny, Вы писали:
K>>И не стоит всюду пихать модные языковые модели туда, где прекрасно работают старые классические способы
N>Кому не стоит?
Здравствуйте, Nuzhny, Вы писали:
N>Самая громкая статья месяца – Hierarchical Reasoning Model N>Без предисловий, сразу главный результат: у авторов получилось сделать модельку всего на 27 миллионов (!) параметров, которая обошла o3-mini на ARC-AGI-1. Неудивительно, что об этой работе сейчас говорит все комьюнити, а авторы ARC-AGI даже сами написали большой разбор результатов модели на их бенчмарке.
Круто. Интересно когда появится обученная кем-то в широком доступе.
N>Кто же с этим спорит? Да, перебор, отсечение — все дела. Полным перебором вообще любая оптимизационная задача решается, предлагаешь другие не изобретать? N>Если говорить о шахматах, то и у них есть оценочная функция. Почему бы позиции не оценивать нейросети? Не перебирать, а просто оценивать, а перебор оставить классическим?
без перебора не обойтись, пусть даже и неглубокого
Здравствуйте, Kocur, Вы писали:
K>А зачем УЖЕ РЕШЕННУЮ задачу решать повторно, приплетая модные нейросети? Правильно, попилить бюджет, гранты, инвестиции. K>Не лучше ли сосредоточиться на решении еще не решенных задач???
Так нет доказательства, что она решена оптимально. Это ещё не решённая задача
Здравствуйте, Kocur, Вы писали:
K>без перебора не обойтись, пусть даже и неглубокого
Если бы ты статью прочитал, то знал бы, что там перебор есть. Ты совсем не понял, в чём инновация? Грубо говоря, добавили поиск в глубину. Раньше у LLM его не было, рассуждения — это не поиск в глубину, а его эмуляция в пределах размера контекста.
Здравствуйте, Kocur, Вы писали:
N>>Думаешь, люди тоже все варианты перебирают? K>а откуда ты знаешь, что НА САМОМ ДЕЛЕ происходит в голове шахматиста?...
Ты в шахматы не умеешь играть?
Шахматисты не видят всю доску целиком, а выделяют только значимые элементы. Мозг автоматически “затирает” несущественные фрагменты позиции Если ты дашь шахматисту посмотреть на задачу с множеством фигур, а потом попросишь его её воспроизвести на доске, то сначала шахматист расставляет значимые фигуры, а потом заполняет оставшуюся часть доски. Это кластерное восприятие. Разбор позиции на доске — выделение кластеров и сопоставление с паттернами. Люди не считают позицию, так как это делает шахматная программа, и варианты перебирают разве что в эндшпише, когда фигур на доске по числу пальцев руки. Есть ещё один случай, когда люди перебирают варианты — в миттельшпиле, в острых моментах, для заранее выделенных (распознанных) кластеров.
Поищи — на тему игры в шахматы есть психологические исследования.
Всё сказанное выше — личное мнение, если не указано обратное.
Философ, чё ты тут лыбу давишь?
Давай сыграем 6 партеек. Проверю твои реальные знания шахмат.
Может, даже дал бы тебе фору (пешку и ход). Не знаю, на lichess возможно ли такое
Здравствуйте, Kocur, Вы писали:
K>Давай сыграем 6 партеек. Проверю твои реальные знания шахмат. K>Может, даже дал бы тебе фору (пешку и ход). Не знаю, на lichess возможно ли такое
Я играю, когда мне позволяют дети (когда есть возможность). Она есть далеко не всегда, а когда есть (когда появляется), то чаще всего внимание и рабочая память оставляют желать лучшего. Очень вряд-ли в ближайшее время удастся согласовать время на игру, тем более на 6 партий.
Всё сказанное выше — личное мнение, если не указано обратное.
Здравствуйте, Философ, Вы писали:
Ф>Я играю, когда мне позволяют дети (когда есть возможность). Она есть далеко не всегда, а когда есть (когда появляется), то чаще всего внимание и рабочая память оставляют желать лучшего. Очень вряд-ли в ближайшее время удастся согласовать время на игру, тем более на 6 партий.
Ожидаемый слив
Когда настает час свое словоблудие доказывать делами, сразу в кусты))
6 партий в блиц — это от силы полчаса. У тебя полчаса не найдется?
Ф>Я играю, когда мне позволяют дети (когда есть возможность). Она есть далеко не всегда, а когда есть (когда появляется), то чаще всего внимание и рабочая память оставляют желать лучшего. Очень вряд-ли в ближайшее время удастся согласовать время на игру, тем более на 6 партий.
так оно часто в сети бывает: чувак, играющий максимум в силу 4-го разряда, начинает глубокомысленно рассуждать, как думают шахматисты. Сколько я таких уже нагляделся...
"... и вы, в присутствии двух людей с университетским образованием, позволяете себе, с развязностью совершенно невыносимой, подавать какие-то советы космического масштаба и космической же глупости о том, как все поделить, и вы в то же время наглотались зубного порошку!.."
Здравствуйте, Kocur, Вы писали:
K>так оно часто в сети бывает: чувак, играющий максимум в силу 4-го разряда, начинает глубокомысленно рассуждать, как думают шахматисты....
Я тут не свою теорию озвучивал.
И нет, когда-то у меня был первый.
Всё сказанное выше — личное мнение, если не указано обратное.
Здравствуйте, Kocur, Вы писали:
K>в шахматы нужно уметь играть и быстро, и медленно K>даже в классике можно попасть в цейтнот, и приходится применять навыки блица
Цейнтнот обычно в эндшпиле — там ситуация существенно отличается от миттельшпиля.
Всё сказанное выше — личное мнение, если не указано обратное.
Ф>Цейнтнот обычно в эндшпиле — там ситуация существенно отличается от миттельшпиля.
это говорит человек точно с первым разрядом?
Раньше был такой контроль (сейчас не знаю — давно не играл в турнирах с классическим контролем): 2 часа на 40 ходов. И у людей наступал цейтнот уже в районе 30-х ходов, а это миттельшпиль