Информация об изменениях

Сообщение Re[5]: каждая сумасшедшая бабка теперь эксперд по ИИ от 04.02.2026 9:57

Изменено 04.02.2026 10:57 MaximVK

Старый текст
Новый текст
Разница

Re[5]: каждая сумасшедшая бабка теперь эксперд по ИИ

Здравствуйте, Nuzhny, Вы писали:

N>Я думаю, что с интерпретируемостью и понимаем моделей не так всё плохо, намного лучше, чем думает Черниговская. LLM создавали учёные, они делали это не в слепую, у неё вполне понятное устройство. Интерптериуемость нейросетей — это проблема не чёрного ящика, а слишком большого количества параметров и их высокой связности. Число параметров современных LLM сопоставимо с числом транзисторов в CPU и GPU, но связей сильно больше. Но меньше, чем в мозгу у человека.
N>При этом что неизвестно или непонятно? Все стадии разжёваны. Можно проследить активации при вводе каждого слова. Если хочется поменять что-то на высоком уровне — легко. Например, Heretic — убирание цензуры:
N>

N>Heretic — автоматическое снятие цензуры с LLM. В прошлом году несколько исследователей решило разобраться как именно работает механизм отказов в языковых моделях когда они блокируют вредные запросы. Оказалось, что за отказ LLM выполнять запрос отвечает одно единственное направление в пространстве активаций. А вот сейчас на основе этого ресёрча сделали софт для автоматического снятия цензуры. Heretic вычисляет направления отказа, как разницу средних активаций между вредными и безвредными промптами, затем ортогонализирует веса аттеншна и MLP проекций для удаления этого направления. Оптимизатор автоматически подбирает параметры подавления, минимизируя одновременно количество отказов и KL divergence от оригинальной модели. Работает полностью автоматически просто запускаешь на любой поддерживаемой модели и через 45 минут получаешь версию без цензуры. Поддерживает большинство популярных архитектур, включая Llama, Qwen, Gemma и даже некоторые мультимодальные модели. Той же gpt oss снятие цензуры точно не помешает.
N>https://github.com/p-e-w/heretic

N>Если бы люди не понимали, как работают LLM, то было бы такое возможно? При этом удивительно, что все они работают одинаково. У всех цензура работает в разных нейронах, но где она конкретно локализована не так важно, потому что известно как она действует и как её отключить. Давайте такое же провернём с людьми. Как мы будем действовать?
N>Я считаю, что понимание работы современных нейросеток намного-намного-намного лучше, чем понимание того, как происходит мышление у людей. Понимание нейросеток мы можем потрогать рукой, а до людей надо на ракете лететь.

Я полностью согласен с тобой в части про качественную разницу в понимании работы нейросеток и мозга. Мы пока даже не в состоянии ответить на вопрос вычислимо ли наше сознания, не говоря уже о менее фундаментальных вещах.

Что же касается понимания того, как работае LLM, то тут я твой оптимизм не разделяю.
В области AI эта проблема известна как Explainable AI (XAI). Одно из направлений в этой области называется — Mechanistic Interpretability. Оно проясняет разницу между локальным знанием о том как работает AI и пониманием того, как AI работает в целом. Споры обвычно возникают из разного представления о значении термина "понимать как система работает в целом".

Понять разницу между этими двумя "локальны" и "в целом" можно на аналогии с задачей реверс инжениринга в программированиию
Если принять, что:
1. Архитектура сети — это виртуальная машина
2. Веса — это байт-код
3. Активация нейронов в сети — это память

Тогда задача "понять как работает сеть" эквивалента "зареверсинжениирить байт-код".
В этой оптике твой пример с Heretic — это аналог решения задачи нахождения счетчика жизней в ассемблерном коде и замена 1 на 0 в инкременте. Да, найдено место которое кодирует определенный аспект поведения системы, но это не тоже самое, что зареверсинженирить всю игру.
Одна из самых болезненных мест в mechanistic interperability — это "во что реверсинженирить". Когда мы реверсинженирим код, мы строим гипотезы исходя из знаний о том, как люди пишут код, как работает компилятор: мы "видим" границы функций, создание объекта, типовые алгоритмы, ходы. Мы знаем принципы по которым функции организовываются в библиотеки и классы, по какому принципу данные хранятся в памяти. Т.е. в сущности мы восстанавливаем то, что сделано человеком и, соответственно, представимо в человеческих категориях. Можно ли представить работу нейронной сети как "system as whole" в человеческих категориях — оптимистично, да. Но как это сделать — вопрос открытый. Есть различные идеи, но рабочей методологии, насколько мне известно, еще нет.

Вот две статьи, если интересно.
1. Mechanistic Interpretability, Variables, and the Importance of Interpretable Bases. Это программная статья о Mechanistic Interpretability by Chris Olah. Там более стройно и детально рассказывается о том, что я написал.
2. Свежая мета The Methods and Approaches of Explainable Artificial Intelligence. Обзор текущей ситуации в XAI, используемые методы, перспективные направления.

Re[5]: каждая сумасшедшая бабка теперь эксперд по ИИ

N>Heretic — автоматическое снятие цензуры с LLM. В прошлом году несколько исследователей решило разобраться как именно работает механизм отказов в языковых моделях когда они блокируют вредные запросы. Оказалось, что за отказ LLM выполнять запрос отвечает одно единственное направление в пространстве активаций. А вот сейчас на основе этого ресёрча сделали софт для автоматического снятия цензуры. Heretic вычисляет направления отказа, как разницу средних активаций между вредными и безвредными промптами, затем ортогонализирует веса аттеншна и MLP проекций для удаления этого направления. Оптимизатор автоматически подбирает параметры подавления, минимизируя одновременно количество отказов и KL divergence от оригинальной модели. Работает полностью автоматически просто запускаешь на любой поддерживаемой модели и через 45 минут получаешь версию без цензуры. Поддерживает большинство популярных архитектур, включая Llama, Qwen, Gemma и даже некоторые мультимодальные модели. Той же gpt oss снятие цензуры точно не помешает.
N>https://github.com/p-e-w/heretic

N>Если бы люди не понимали, как работают LLM, то было бы такое возможно? При этом удивительно, что все они работают одинаково. У всех цензура работает в разных нейронах, но где она конкретно локализована не так важно, потому что известно как она действует и как её отключить. Давайте такое же провернём с людьми. Как мы будем действовать?
N>Я считаю, что понимание работы современных нейросеток намного-намного-намного лучше, чем понимание того, как происходит мышление у людей. Понимание нейросеток мы можем потрогать рукой, а до людей надо на ракете лететь.

Я полностью согласен с тобой в части про качественную разницу в понимании работы нейросеток и мозга. Мы пока даже не в состоянии ответить на вопрос вычислимо ли наше сознания, не говоря уже о менее фундаментальных вещах.

Что же касается понимания того, как работае LLM, то тут я твой оптимизм не разделяю.
В области AI эта проблема известна как Explainable AI (XAI). Одно из направлений в этой области называется — Mechanistic Interpretability. Оно проясняет разницу между "локальным пониманием" того как работает AI, и пониманием того, как AI "работает в целом". Споры обвычно возникают из разного представления о значении термина "понимать как система работает в целом".

Понять разницу между "локальным" и "в целом" можно на аналогии с задачей реверс инжениринга в программированиию.
Если принять, что:
1. Архитектура сети — это виртуальная машина
2. Веса — это байт-код
3. Активация нейронов в сети — это память

Тогда задача "понять как работает сеть" эквивалента "зареверсинжениирить байт-код".
В этой оптике твой пример с Heretic — это аналог решения задачи нахождения счетчика жизней в ассемблерном коде и замена 1 на 0 в инкременте. Да, найдено место которое кодирует определенный аспект поведения системы, но это не тоже самое, что зареверсинженирить всю игру.
Одна из самых болезненных мест в mechanistic interperability — это "во что реверсинженирить". Когда мы реверсинженирим код, мы строим гипотезы исходя из знаний о том, как люди пишут код, как работает компилятор: мы "видим" границы функций, создание объекта, типовые алгоритмы, ходы. Мы знаем принципы по которым функции организовываются в библиотеки и классы, по какому принципу данные хранятся в памяти. Т.е. в сущности мы восстанавливаем то, что сделано человеком и, соответственно, представимо в человеческих категориях. Можно ли представить работу нейронной сети как "system as whole" в человеческих категориях — оптимистично, да. Но как это сделать — вопрос открытый. Есть различные идеи, но рабочей методологии, насколько мне известно, еще нет.

Вот две статьи, если интересно.
1. Mechanistic Interpretability, Variables, and the Importance of Interpretable Bases. Это программная статья о Mechanistic Interpretability by Chris Olah. Там более стройно и детально рассказывается о том, что я написал.
2. Свежая мета The Methods and Approaches of Explainable Artificial Intelligence. Обзор текущей ситуации в XAI, используемые методы, перспективные направления.