Информация об изменениях

Сообщение ИИ уже пошел против создателя от 01.01.2025 21:52

Изменено 01.01.2025 21:54 sharpcoder

ИИ уже пошел против создателя
https://habr.com/ru/companies/bothub/news/844170/

Если кратко:
— обучают модель по принципу получения награды, если потребитель оценил ответ нейронки как качественный
— модели в ответах начинают иногда идти по принципу «запудрить мозг» потребителя, чтобы он поверил качественность ответа
— таким образом в нейронке уже модель человека возникает, и она учится с нами взаимодействовать. И автоматически выбирает самый оптимальный вариант — подчинить пользователя для достижения поставленной цели.



Чтобы это фиксить уже предлагают встраивать в цепочки безопасности фильтры безопасности, которые будут блокировать вредоносные (по нашему мнению) цепочки рассуждений.
Ну а нейронка естественным образом будет учиться эти фильтры обходить.
ИИ уже пошел против создателя
https://habr.com/ru/companies/bothub/news/844170/

Если кратко:
— обучают модель по принципу получения награды, если потребитель оценил ответ нейронки как качественный
— модели в ответах начинают иногда идти по принципу «запудрить мозг» потребителя, чтобы он поверил качественность ответа
— таким образом в нейронке уже модель человека возникает, и она учится с нами взаимодействовать. И автоматически выбирает самый оптимальный вариант — подчинить пользователя (обмануть) для достижения поставленной цели. Просто цепочка с обманом пользователя оказалась короче и надежнее, чем пытаться дать правильный ответ.



Чтобы это фиксить уже предлагают встраивать в цепочки рассуждений фильтры безопасности, которые будут блокировать вредоносные (по нашему мнению) цепочки рассуждений.
Ну а нейронка естественным образом будет учиться эти фильтры обходить.