Здравствуйте, mrTwister, Вы писали:
T>2) LLM могут генерировать код для решения задач, которые уже были многократно решены ранее
Это уже далеко не так, серьезные LLM уже могут генерировать код по описанию в статье. То есть даешь на вход статью, описывающую алгоритм/метод и просьбу что-то в соответствии реализовать и оно таки пишет.
T>3) Чем больше будет появляться кода, сгенерированного LLM, тем хуже датасет для обучения следующих LLM. В определенный момент окажется, что LLM, натренированная по актуальным данным работает хуже, чем прошлая версия LLM. Есть признаки того, что это уже настало.
Современная LLM — уже далеко не чисто продукт тренировки на датасете, скорее даже где-то малая часть, потому что после тренировки на датасете они проходят обучение с подкреплением по разным изощренным сценариям и прочие настройки и подстройки. AlfaGo еще 10 лет назад в 2016-м выиграла у чемпиона игры в Го вовсе не за счет датасета.