Изоморфны ли LLM и цепи Маркова? - Образование и наука

Здравствуйте, Wolverrum, Вы писали:

W>Глядя на то, как работают языковые модели, не отпускает ощущение, что весь этот формализм лежащий в их основе — не какой-то новый язык или новый математический объект, а все те же скрытые цепи Маркова "вид сбоку".
И да и нет. По архитектуре и работе очень похожи, но есть и значительные отличия. И да есть новые направление, где нейронки делают в виде марковских цепей. Но пока это направление еще достаточно узкое.
Макровские цепи в виде HMM уже взлетали, но сейчас более простые и далекие от них нейронки показывают лучше результаты, но это пока. В стандартных сверточных нейронках уже уткнулись в потолок и начинаю возвращаться к марковщине, но уже на новом уровне знаний и понимания.
И да — это самое новье пока и больше теоретическое, с крутыми практическими результатами пока там туго.

Кстати, по kaldi ты можешь понаблюдать, как от HMM переходили к нейронкам и возможно там уже есть и направления снова к марковщине.

Здравствуйте, Wolverrum, Вы писали:

W>Глядя на то, как работают языковые модели, не отпускает ощущение, что весь этот формализм лежащий в их основе — не какой-то новый язык или новый математический объект, а все те же скрытые цепи Маркова "вид сбоку".

Цепи Маркова должны быть эквиавалентны машине Тьюринга

Нейронки принимаю решение, помножая входные сигналы на накопленные в результате обучения коэффициенты а потом складывая результат.

Современные нейронки, с которыми достигнуты все эти впечатляющие результаты, они многослойные. Т.е., входные сигналы подаются на первый слой, у него много выходов — они подаются на второй слой (со своими коэффициентами) и так далее.

Собственно, прорыв (deep learning) заключается в том, что придумали способы эти самые промежуточные слои обучать. Deep — это не от каких-то углубленных знаний, которые вколачивают в эту самую нейронку, а от многослойности. Учат глубинные слои, что потребовало (1) новых подходов (2) недоступных ранее вычислительных ресурсов.

Так что в принципе, это новый математический объект. Не цепи Маркова.

Здравствуйте, Pzz, Вы писали:

Pzz>Цепи Маркова должны быть эквиавалентны машине Тьюринга

Нет, не эквиваленты. Цепи Маркова можно смоделировать на машине Тьюринга, но не наоборот.
Цепи Маркова эквивалентны вероятностым конечным автоматам, а с помощью конечного автомата нельзя смоделировать машину Тьюринга.

Здравствуйте, Wolverrum, Вы писали:

W>Глядя на то, как работают языковые модели, не отпускает ощущение, что весь этот формализм лежащий в их основе — не какой-то новый язык или новый математический объект, а все те же скрытые цепи Маркова "вид сбоку".

Изоморфизм с точностью до чего? Вообще, имхо, лучше использовать слово эквивалентый. Изоморфизм — это про структурную идентичность, и если уж используешь это слово, то нужно как-то указать структурные свойства которые ты сравниваешь.

В целом можно считать , что LLM — это чистая фунция принимающая на вход очень много параметров. Ее результат строго детерменирован входным значением. Пространство входных и выходных параметров дискретно и конечно.
Такуж функцию можно смоделировать как вырожденную марковскую цепь, где пространство состояний — это все возмжные комбинации входных параметров LLM-ки с только одним возможным переходом (т.е. в матрице переходов в столбце будут все нолики и одна единичка), чтобы обеспечить чистоту.

Обратное же сделать невозможно, так как марковская цепь недетременирована.

Здравствуйте, Vzhyk2, Вы писали:

V>Макровские цепи в виде HMM уже взлетали

Отожествлять цепи Маркова и скрытые марковские модели — это смело.

Здравствуйте, Wolverrum, Вы писали:

W>Глядя на то, как работают языковые модели, не отпускает ощущение, что весь этот формализм лежащий в их основе — не какой-то новый язык или новый математический объект, а все те же скрытые цепи Маркова "вид сбоку".

Если на каждый нейрон подавать еще и шум некоей амплитуды, то будет в точности оно, конечно.
И есть предположение, что наш моск примерно так и работает.

Да и, генерирующие нейронки, собсно, именно это и делают — добавляют шум на входы.

Здравствуйте, vdimas, Вы писали:

V>Да и, генерирующие нейронки, собсно, именно это и делают — добавляют шум на входы.

Насколько я помню, в языковых моделях шум на вход не добавляется.
Там случайно выбирается один из сгенерированных токенов, т.е. уже на выходе.

Здравствуйте, MaximVK, Вы писали:

MVK>Насколько я помню, в языковых моделях шум на вход не добавляется.
MVK>Там случайно выбирается один из сгенерированных токенов, т.е. уже на выходе.

Т.е. шум добавляется на выходе? ))
ХЗ как в языковых, а в генерации изображений и музыки шум добавляют на входе.

Здравствуйте, vdimas, Вы писали:

V>Т.е. шум добавляется на выходе? ))

Это по желанию. Можно и без шума. Пользователь сам устанавливает степень случайности — температуру. В чистом виде модель генерирует фиксированный выход, можно решить, брать ли самый вероятный результат всегда или выбирать случайный из наиболее вероятных.

V>ХЗ как в языковых, а в генерации изображений и музыки шум добавляют на входе.

Генерация изображений работает по другому принципу.

Здравствуйте, vdimas, Вы писали:

V>Если на каждый нейрон подавать еще и шум некоей амплитуды, то будет в точности оно, конечно.
V>И есть предположение, что наш моск примерно так и работает.

https://chatgpt.com/share/672f1945-5348-800a-8893-3fb0d7dc4a85

Нет, большие языковые модели (Large Language Models, LLM) и цепи Маркова не являются изоморфными. Хотя оба подхода связаны с моделированием последовательностей и использованием вероятностных переходов, они существенно различаются по своей структуре и возможностям.

Цепи Маркова основаны на так называемом марковском свойстве: вероятность перехода в следующий состояние зависит только от текущего состояния, а не от всей предшествующей последовательности событий. Это означает, что модель учитывает только непосредственное прошлое при прогнозировании будущего.

Большие языковые модели, такие как GPT-4, используют архитектуры глубокого обучения (например, трансформеры) для обработки и генерации текста. Эти модели способны учитывать длинные контексты и сложные зависимости в данных, а не только предыдущий токен или слово. LLM анализирует большую часть или весь предшествующий текст для прогнозирования следующего элемента в последовательности.

Таким образом, из-за различий в структуре, принципах работы и способности учитывать контекст, LLM и цепи Маркова не являются изоморфными.

Здравствуйте, Nuzhny, Вы писали:

V>>ХЗ как в языковых, а в генерации изображений и музыки шум добавляют на входе.
N>Генерация изображений работает по другому принципу.

По какому "другому"?
Другому чем что? Что ты себе уже нарисовал в голове?

Здравствуйте, Wolverrum, Вы писали:

W>Глядя на то, как работают языковые модели, не отпускает ощущение, что весь этот формализм лежащий в их основе — не какой-то новый язык или новый математический объект, а все те же скрытые цепи Маркова "вид сбоку".

В философском смысле да, это одно и то же. LLM это история про определение состояний в скрытой цепи маркова (состояния здесь это конкретные сочетания токенов вплоть до длины контекста) и вероятностей переходов между ними путем глубокого обучения на больших данных. Дополнительно LMM оптимизирует схему хранения состояний и вероятностей чтобы не получить комбинаторный взрыв.

Здравствуйте, σ, Вы писали:

σ>https://chatgpt.com/share/672f1945-5348-800a-8893-3fb0d7dc4a85
σ>[q]Нет, большие языковые модели (Large Language Models, LLM) и цепи Маркова не являются изоморфными. Хотя оба подхода связаны с моделированием последовательностей и использованием вероятностных переходов, они существенно различаются по своей структуре и возможностям.

σ>Цепи Маркова основаны на так называемом марковском свойстве: вероятность перехода в следующий состояние зависит только от текущего состояния, а не от всей предшествующей последовательности событий. Это означает, что модель учитывает только непосредственное прошлое при прогнозировании будущего.

Это неточное утверждение, бо цепью Маркова можно и нужно кодировать "контекст".
Т.е. в текущее состояние система и могла попасть лишь согласно определённой предыстории.
Плюс никто не мешает хранить саму предысторию.

Собсно, любой детерминированный автомат обладает таким св-вом — автомат может сохранять контекст или нет.
Сами состояния могут зависеть от контекста глубоко или нет.

σ>Большие языковые модели, такие как GPT-4, используют архитектуры глубокого обучения (например, трансформеры) для обработки и генерации текста. Эти модели способны учитывать длинные контексты и сложные зависимости в данных, а не только предыдущий токен или слово. LLM анализирует большую часть или весь предшествующий текст для прогнозирования следующего элемента в последовательности.

Цепи Маркова тоже можно строить через обучение.
Просто тут речь о достаточной размерности как ИИ, так и цепи Маркова.

σ>Таким образом, из-за различий в структуре, принципах работы и способности учитывать контекст, LLM и цепи Маркова не являются изоморфными.

Они не изоморфны, конечно, хотя бы из-за того, что ИИ в работе детерминирован.
Т.е. на один и тот же вход будет давать один и тот же выход.

Но стоить добавить немного шума к каждому нейрону, и можно получить изоморфную некоторым видам цепей Маркова структуру.

Здравствуйте, Miroff, Вы писали:

M>Дополнительно LMM оптимизирует схему хранения состояний и вероятностей чтобы не получить комбинаторный взрыв.

Кстате, хорошее замечание.
Цепи Маркова позволяют прогонять в параллель кучу "рассуждений" по одним и тем же входным данным, сохраняя веса путей цепочек.
Часть рассуждений в процессе может отваливаться (становиться тупиковыми), часть менять свой вес относительно других и т.д.

Здравствуйте, vdimas, Вы писали:

V>По какому "другому"?

Ну, генерация может быть разной, тот же GAN и Stable diffusion работают по разным принципам. Следовательно, хотя бы один из этих способов отличается от генерации текста с помощью LLM.

V>Другому чем что? Что ты себе уже нарисовал в голове?

По другому, чем сабж. В голове я себе много чего рисую, визуализировать пока не научился.

Здравствуйте, vdimas, Вы писали:

V>Но стоить добавить немного шума к каждому нейрону, и можно получить изоморфную некоторым видам цепей Маркова структуру.

А можете подробней про вот этот момент?

Здравствуйте, Nuzhny, Вы писали:

V>>По какому "другому"?
N>Ну, генерация может быть разной, тот же GAN и Stable diffusion работают по разным принципам. Следовательно, хотя бы один из этих способов отличается от генерации текста с помощью LLM.

А, ну эт да, от генерации текста общая модель отличается, конечно.

Но опять же — не сильно, а из-за особенностей архитектуры сети (или подсети), ответственной за распознавание изображений — там специфическая сетка.

Но алгоритм верхнего уровня будет сильно похож, если есть намерение сделать речь чат-бота "живой", т.е. разнообразной, с различными оттенками настроений или видов лексики (деловой, неформальный, специфический для предметной области и т.д.), где чат-бот будет "улавливать" оттенки речи собеседника.

В общем, я бы не стал утверждать, что Stable Diffusion (SD) не является разновидностью GAN (или не является развитием идеи GAN).
Весь трюк в том, что в случае SD одна сетка выполняет обе роли, т.е. это вопрос кодирования входных/выходных данных.

Оба подхода используют итеративный метод уточнения исходного "шума + оценочных параметров", но в случае GAN разделение ролей явное по двум независимым сеткам, а в случае SD разделение только по областям входных и выходных сигналов, т.е. выходы и входы SD поделены на области, отвечающие за входной/конечный результат и за анализ его "достоверности" / "поправку". Т.е., у SD те же две "внешние" сетки, но с общей "внутренней".

Плюс, это ж разница в годах разработки подходов, а это важно! ))
Если обе сетки используют общие промежуточные слои, то это усложняет обучение, т.е. делает его более затратным, т.к. затраты на обучение зависят от размера сети не линейно, а в некоей степени, заметно большей 2 (для большей сетки больше итераций, помимо квадратичного увеличения стоимости каждой итерации).

Т.е. выгодней обучить две отдельные сетки с условными размерностями N и M, чем одну сетку с размерностью N+M, поэтому алгоритм GAN смотрелся из 1998-го неплохо, а Stable Diffusion выглядел бы в те года маниловщиной.

С другой стороны, общая внутренняя сеть SD ведь оперирует теми же самими данными для двух условных подсеток, которые для случая GAN дублируются, бо обучение обеих сеток происходит на одних и тех же данных. Т.е. SD при том же общем кол-ве нейронов способна быть "умнее" за счёт более эффективного их "переиспользования".

В этом и состоит трюк и это неплохо.
А всякие их саморекламы — откровенный фуфел для обывателя:

Кроме того, стабильная диффузия предназначена для работы в непрерывных скрытых пространствах, в то время как GAN работают в дискретных пиксельных пространствах.

Потому что сетки для распознавания изображений унутре в любом случае переводят входные пикселы в те самые "непрерывные скрытые пространства":

Свёрточная нейронная сеть ... нацеленная на эффективное распознавание образов, входит в состав технологий глубокого обучения. Использует некоторые особенности зрительной коры, в которой были открыты так называемые простые клетки, реагирующие на прямые линии под разными углами, и сложные клетки, реакция которых связана с активацией определённого набора простых клеток.
...
Структура сети — однонаправленная, принципиально многослойная.

V>>Другому чем что? Что ты себе уже нарисовал в голове?
N>По другому, чем сабж. В голове я себе много чего рисую, визуализировать пока не научился.

Я просто неправильно тебя понял.
Мне показалось, что твоё замечание "не таким образом" относилось к сеткам генерации изображений и музыки, где на входе некий шум + набор параметров, например, для картинки будет описание её содержимого, а для песни — описание стиля и слова самой песни.

Там подходы очень похожие — я одно время плотно изучал Suno в бытность их версии движка 2.5, этот движок явно был выполнен с чётким разделением "генератор — проверяющий" (я подробно описывал однажды на этом сайте, т.е. это подход GAN).

Но после выхода их движка 3.0 я уже так сказать не могу. ))
Вполне возможно, что отличия их движков 2.5 и 3.0 примерно такие же, как отличия GAN от SD.

Здравствуйте, MaximVK, Вы писали:

V>>Но стоить добавить немного шума к каждому нейрону, и можно получить изоморфную некоторым видам цепей Маркова структуру.
MVK>А можете подробней про вот этот момент?

Например, если сеть Маркова не является чисто генеративной, а еще производит вычисления над входными данными.
Например, внешние данные через некие вычисления управляют плотностью вероятности используемого генератора случайных чисел.
Т.е., внешние данные как бы "подталкивают" сеть в некоем пространстве направлений за счёт повышения вероятности перехода в те области.

Ну и, плюсом недетерминированных автоматов является то, что одновременно можно "протягивать" несколько наборов состояний, коль из каждого узла у нас потенциально более одного перехода.
Т.е., в этом месте могут резвиться "подходы верхнего уровня", бо область ИИ и вообще нечётких вычислений пока мест в зачаточном состоянии, там еще копать и копать...

Например, используемые сегодня подходы глубокого обучения — это жуткий нафталин из 80-90-х годов.

Одно время в нулевых я делал обзор текущего состояния исследований вокруг ИИ, самые передовые исследования у математиков происходили вокруг сеток с обратными связями (циклами).

Тогда активно изучалась устойчивость этих сетей, т.е. их сходимость (ведь эти сетки переходят в новое состояние не за один цикл вычислений, как это происходит в однонаправленных сетках, а итеративно, т.е. изменение на входе возбуждает сеть, далее сетка проходит через переходные процессы и должна устаканиться в некоем другом состоянии (т.е. следующая итерация обсчёта сетки не должна изменять её состояние более чем на некий эпсилон).

Сетки с обратными связями способны хранить больше данных при меньшем кол-ве узлов, но этого мало — повышение разрядности вычислений способно кардинально поднимать емкость сети даже без увеличения кол-ва узлов, т.к. обученная ф-ия сетки может иметь больше экстремумов (в данном случае минимумов, т.е. устойчивых состояний).

В этом смысле наработки из сетей Маркова полезны, конечно, как раз в плане исследований поведения циклов, устойчивости и достижимости состояний (эргодичности) сети и прочего такого, где математики ранее резвились именно на цепях Маркова.

Дело в том, что абстрактно теория хаоса в динамических системах (устойчивость, статистика-эргодичность и т.д.) исследовалась и ранее (например, активно Биркгофом, а книгой "Теория катастроф" и другими по этой теме зачитывался еще в старших классах и студенчестве без возможности оторваться, это must have чтиво).

Так вот, модель Маркова позволяет эти вещи исследовать не только абстрактно-теоретически, но и динамически на конечном пространстве состояний.

Просто в ИИ как везде — практика отстаёт от науки на многие десятилетия.
Се ля вуха такова. ))

Взять то же отличие SD от GAN — это сугубо "инженерный" трюк, а не "научный". ))
Эдакая небольшая оптимизация структуры, подходящая для параметров вычислительных машин в данный исторический период.

Це́пь Ма́ркова — последовательность случайных событий с конечным или счётным числом исходов, где вероятность наступления каждого события зависит только от состояния, достигнутого в предыдущем событии

То есть для цепи Маркова имеют контекст длиной 1, если говорить в терминах LLM. Для такой постановки существуют строгие математические модели, на которых можно доказывать и опровергать свойства цепи.

LLM имеют гораздо большее окно контекста. Причем с токи зрения цепей можно в каждый узел поместить весь контекст, но тогда количество состояний и матрица переходов пухнуть настолько сильно, что вся математическая сторона теряет смысл.

	От:	Wolverrum
	Дата:	06.11.24 19:32
	Оценка:

	От:	Vzhyk2
	Дата:	07.11.24 06:23
	Оценка:	4 (1)

От:	Pzz	https://github.com/alexpevzner
Дата:	07.11.24 07:39
Оценка:	4 (1)

	От:	MaximVK
	Дата:	08.11.24 13:37
	Оценка:	6 (1)

	От:	MaximVK
	Дата:	08.11.24 14:03
	Оценка:

От:	Nuzhny	https://github.com/Nuzhny007
Дата:	08.11.24 14:17
Оценка:	+2

От:	gandjustas	http://blog.gandjustas.ru/
Дата:	11.11.24 08:17
Оценка:	+1

	От:	vdimas
	Дата:	09.11.24 05:29
	Оценка:

	От:	Tai
	Дата:	09.11.24 07:36
	Оценка:

	От:	vdimas
	Дата:	09.11.24 09:12
	Оценка:

	От:	Miroff
	Дата:	09.11.24 09:44
	Оценка: