Re: Изоморфны ли LLM и цепи Маркова?
От: gandjustas Россия http://blog.gandjustas.ru/
Дата: 11.11.24 08:17
Оценка: +1
Здравствуйте, Wolverrum, Вы писали:

W>Глядя на то, как работают языковые модели, не отпускает ощущение, что весь этот формализм лежащий в их основе — не какой-то новый язык или новый математический объект, а все те же скрытые цепи Маркова "вид сбоку".


Начнем с определения (википедия)

Це́пь Ма́ркова — последовательность случайных событий с конечным или счётным числом исходов, где вероятность наступления каждого события зависит только от состояния, достигнутого в предыдущем событии


То есть для цепи Маркова имеют контекст длиной 1, если говорить в терминах LLM. Для такой постановки существуют строгие математические модели, на которых можно доказывать и опровергать свойства цепи.


LLM имеют гораздо большее окно контекста. Причем с токи зрения цепей можно в каждый узел поместить весь контекст, но тогда количество состояний и матрица переходов пухнуть настолько сильно, что вся математическая сторона теряет смысл.
Re[3]: Изоморфны ли LLM и цепи Маркова?
От: σ  
Дата: 26.12.24 07:49
Оценка:
V>Они не изоморфны, конечно, хотя бы из-за того, что ИИ в работе детерминирован.
V>Т.е. на один и тот же вход будет давать один и тот же выход.

В смысле? Цепи Маркова задают вероятности перехода, LLM — вероятности токенов (насколько я понимаю) (ну и не обязательно LLM, другие модели тоже могут выдавать вероятности). А дальше семплируешь и получаешь разные траектории цепи или разные ответы от ИИ.
Re[4]: Изоморфны ли LLM и цепи Маркова?
От: vdimas Россия  
Дата: 27.12.24 01:18
Оценка:
Здравствуйте, σ, Вы писали:

σ>В смысле? Цепи Маркова задают вероятности перехода, LLM — вероятности токенов (насколько я понимаю) (ну и не обязательно LLM, другие модели тоже могут выдавать вероятности). А дальше семплируешь и получаешь разные траектории цепи или разные ответы от ИИ.


Сам алгоритм обсчёта цепи разный. Цепь Маркова — динамическая, для изучения процессов.
ИИ — статическая сеть для чистых вычислений.

Но цепь Маркова может использоваться для анализа работы ИИ, раскидывая вероятность, допустим, состояний узлов/сигналов. Для сеток с обратными связями может выглядеть полезным.
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.