LLM обучены на массе существующиего кода. Из этого следует несколько выводов:
1) LLM не могут генерировать код уровнем выше среднего, так как они обучены на среднем коде (по определению).
2) LLM могут генерировать код для решения задач, которые уже были многократно решены ранее
3) Чем больше будет появляться кода, сгенерированного LLM, тем хуже датасет для обучения следующих LLM. В определенный момент окажется, что LLM, натренированная по актуальным данным работает хуже, чем прошлая версия LLM. Есть признаки того, что это уже настало.