Здравствуйте, Wolverrum, Вы писали:
W>Глядя на то, как работают языковые модели, не отпускает ощущение, что весь этот формализм лежащий в их основе — не какой-то новый язык или новый математический объект, а все те же скрытые цепи Маркова "вид сбоку".
Начнем с определения (википедия)
Це́пь Ма́ркова — последовательность случайных событий с конечным или счётным числом исходов, где вероятность наступления каждого события зависит только от состояния, достигнутого в предыдущем событии
То есть для цепи Маркова имеют контекст длиной 1, если говорить в терминах LLM. Для такой постановки существуют строгие математические модели, на которых можно доказывать и опровергать свойства цепи.
LLM имеют гораздо большее окно контекста. Причем с токи зрения цепей можно в каждый узел поместить весь контекст, но тогда количество состояний и матрица переходов пухнуть настолько сильно, что вся математическая сторона теряет смысл.