Здравствуйте, MaximVK, Вы писали:
MVK>Поэтому вопрос пор логику, или про то каким образом система выводит ответы и как устроено рассуждение — абсолютно нормальный. И похоже "бабка" понимает это лучше тебя
Я думаю, что с интерпретируемостью и понимаем моделей не так всё плохо, намного лучше, чем думает Черниговская. LLM создавали учёные, они делали это не в слепую, у неё вполне понятное устройство. Интерптериуемость нейросетей — это проблема не чёрного ящика, а слишком большого количества параметров и их высокой связности. Число параметров современных LLM сопоставимо с числом транзисторов в CPU и GPU, но связей сильно больше. Но меньше, чем в мозгу у человека.
При этом что неизвестно или непонятно? Все стадии разжёваны. Можно проследить активации при вводе каждого слова. Если хочется поменять что-то на высоком уровне — легко. Например, Heretic — убирание цензуры:
Heretic — автоматическое снятие цензуры с LLM. В прошлом году несколько исследователей решило разобраться как именно работает механизм отказов в языковых моделях когда они блокируют вредные запросы. Оказалось, что за отказ LLM выполнять запрос отвечает одно единственное направление в пространстве активаций. А вот сейчас на основе этого ресёрча сделали софт для автоматического снятия цензуры. Heretic вычисляет направления отказа, как разницу средних активаций между вредными и безвредными промптами, затем ортогонализирует веса аттеншна и MLP проекций для удаления этого направления. Оптимизатор автоматически подбирает параметры подавления, минимизируя одновременно количество отказов и KL divergence от оригинальной модели. Работает полностью автоматически просто запускаешь на любой поддерживаемой модели и через 45 минут получаешь версию без цензуры. Поддерживает большинство популярных архитектур, включая Llama, Qwen, Gemma и даже некоторые мультимодальные модели. Той же gpt oss снятие цензуры точно не помешает.
https://github.com/p-e-w/heretic
Если бы люди не понимали, как работают LLM, то было бы такое возможно? При этом удивительно, что все они работают одинаково. У всех цензура работает в разных нейронах, но где она конкретно локализована не так важно, потому что известно как она действует и как её отключить. Давайте такое же провернём с людьми. Как мы будем действовать?
Я считаю, что понимание работы современных нейросеток намного-намного-намного лучше, чем понимание того, как происходит мышление у людей. Понимание нейросеток мы можем потрогать рукой, а до людей надо на ракете лететь.