Сообщение Re[4]: Изоморфны ли LLM и цепи Маркова? от 09.11.2024 18:33
Изменено 09.11.2024 18:35 vdimas
Re[4]: Изоморфны ли LLM и цепи Маркова?
Здравствуйте, MaximVK, Вы писали:
V>>Но стоить добавить немного шума к каждому нейрону, и можно получить изоморфную некоторым видам цепей Маркова структуру.
MVK>А можете подробней про вот этот момент?
Например, если сеть Маркова не является чисто генеративной, а еще производит вычисления над входными данными.
Например, внешние данные через некие вычисления управляют плотностью вероятности используемого генератора случайных чисел.
Т.е., внешние данные как бы "подталкивают" сеть в некоем пространстве направлений за счёт повышения вероятности перехода в те области.
Ну и, плюсом недетерминированных автоматов является то, что одновременно можно "протягивать" несколько наборов состояний, коль из каждого узла у нас потенциально более одного перехода.
Т.е., в этом месте могут резвиться "подходы верхнего уровня", бо область ИИ и вообще нечётких вычислений пока мест в зачаточном состоянии, там еще копать и копать...
Например, используемые сегодня подходы глубокого обучения — это жуткий нафталин из 80-90-х годов.
Одно время в нулевых я делал обзор текущего состояния исследований вокруг ИИ, самые передовые исследования происходили вокруг сеток с обратными связями (циклами).
Тогда активно изучалась устойчивость этих сетей, т.е. их сходимость (ведь эти сетки переходят в новое состояние не за один цикл вычислений, как это происходит в однонаправленных сетках, а итеративно, т.е. изменение на входе возбуждает сеть, далее сетка проходит через переходные процессы и должны устаканиться в некоем другом состоянии (т.е. следующая итерация обсчёта сетки не должна изменять её состояние более чем на некий эпсилон).
Сетки с обратными связями способны хранить больше данных при меньшем кол-ве узлов, но этого мало — повышение разрядности вычислений способно кардинально поднимать емкость сети даже без увеличения кол-ва узлов, т.к. обученная ф-ия сетки может иметь больше экстремумов (в данном случае минимумов, т.е. устойчивых состояний).
В этом смысле наработки из сетей Маркова полезны, конечно, бо как раз в плане исследований поведения циклов, устойчивости (эргодичности) сети и прочего такого математики ранее резвились именно на цепях Маркова.
Дело в том, что абстрактно теория хаоса в динамических системах (устойчивость, статистика-эргодичность и т.д.) исследовалась и ранее (например, активно Биркгофом, а книгой "Теория катастроф" и другими по этой теме зачитывался еще в старших классах и студенчестве без возможности оторваться, это must have чтиво).
Так вот, модель Маркова позволяет эти вещи исследовать не только абстрактно-теоретически, но и динамически на конечном пространстве состояний.
Просто в ИИ как везде — практика отстаёт от науки на многие десятилетия.
Се ля вуха такова. ))
Взять то же отличие SD от GAN — это сугубо "инженерный" трюк, а не "научный". ))
Эдакая небольшая оптимизация структуры, подходящая для параметров вычислительных машин в данный исторический период.
V>>Но стоить добавить немного шума к каждому нейрону, и можно получить изоморфную некоторым видам цепей Маркова структуру.
MVK>А можете подробней про вот этот момент?
Например, если сеть Маркова не является чисто генеративной, а еще производит вычисления над входными данными.
Например, внешние данные через некие вычисления управляют плотностью вероятности используемого генератора случайных чисел.
Т.е., внешние данные как бы "подталкивают" сеть в некоем пространстве направлений за счёт повышения вероятности перехода в те области.
Ну и, плюсом недетерминированных автоматов является то, что одновременно можно "протягивать" несколько наборов состояний, коль из каждого узла у нас потенциально более одного перехода.
Т.е., в этом месте могут резвиться "подходы верхнего уровня", бо область ИИ и вообще нечётких вычислений пока мест в зачаточном состоянии, там еще копать и копать...
Например, используемые сегодня подходы глубокого обучения — это жуткий нафталин из 80-90-х годов.
Одно время в нулевых я делал обзор текущего состояния исследований вокруг ИИ, самые передовые исследования происходили вокруг сеток с обратными связями (циклами).
Тогда активно изучалась устойчивость этих сетей, т.е. их сходимость (ведь эти сетки переходят в новое состояние не за один цикл вычислений, как это происходит в однонаправленных сетках, а итеративно, т.е. изменение на входе возбуждает сеть, далее сетка проходит через переходные процессы и должны устаканиться в некоем другом состоянии (т.е. следующая итерация обсчёта сетки не должна изменять её состояние более чем на некий эпсилон).
Сетки с обратными связями способны хранить больше данных при меньшем кол-ве узлов, но этого мало — повышение разрядности вычислений способно кардинально поднимать емкость сети даже без увеличения кол-ва узлов, т.к. обученная ф-ия сетки может иметь больше экстремумов (в данном случае минимумов, т.е. устойчивых состояний).
В этом смысле наработки из сетей Маркова полезны, конечно, бо как раз в плане исследований поведения циклов, устойчивости (эргодичности) сети и прочего такого математики ранее резвились именно на цепях Маркова.
Дело в том, что абстрактно теория хаоса в динамических системах (устойчивость, статистика-эргодичность и т.д.) исследовалась и ранее (например, активно Биркгофом, а книгой "Теория катастроф" и другими по этой теме зачитывался еще в старших классах и студенчестве без возможности оторваться, это must have чтиво).
Так вот, модель Маркова позволяет эти вещи исследовать не только абстрактно-теоретически, но и динамически на конечном пространстве состояний.
Просто в ИИ как везде — практика отстаёт от науки на многие десятилетия.
Се ля вуха такова. ))
Взять то же отличие SD от GAN — это сугубо "инженерный" трюк, а не "научный". ))
Эдакая небольшая оптимизация структуры, подходящая для параметров вычислительных машин в данный исторический период.
Re[4]: Изоморфны ли LLM и цепи Маркова?
Здравствуйте, MaximVK, Вы писали:
V>>Но стоить добавить немного шума к каждому нейрону, и можно получить изоморфную некоторым видам цепей Маркова структуру.
MVK>А можете подробней про вот этот момент?
Например, если сеть Маркова не является чисто генеративной, а еще производит вычисления над входными данными.
Например, внешние данные через некие вычисления управляют плотностью вероятности используемого генератора случайных чисел.
Т.е., внешние данные как бы "подталкивают" сеть в некоем пространстве направлений за счёт повышения вероятности перехода в те области.
Ну и, плюсом недетерминированных автоматов является то, что одновременно можно "протягивать" несколько наборов состояний, коль из каждого узла у нас потенциально более одного перехода.
Т.е., в этом месте могут резвиться "подходы верхнего уровня", бо область ИИ и вообще нечётких вычислений пока мест в зачаточном состоянии, там еще копать и копать...
Например, используемые сегодня подходы глубокого обучения — это жуткий нафталин из 80-90-х годов.
Одно время в нулевых я делал обзор текущего состояния исследований вокруг ИИ, самые передовые исследования происходили вокруг сеток с обратными связями (циклами).
Тогда активно изучалась устойчивость этих сетей, т.е. их сходимость (ведь эти сетки переходят в новое состояние не за один цикл вычислений, как это происходит в однонаправленных сетках, а итеративно, т.е. изменение на входе возбуждает сеть, далее сетка проходит через переходные процессы и должны устаканиться в некоем другом состоянии (т.е. следующая итерация обсчёта сетки не должна изменять её состояние более чем на некий эпсилон).
Сетки с обратными связями способны хранить больше данных при меньшем кол-ве узлов, но этого мало — повышение разрядности вычислений способно кардинально поднимать емкость сети даже без увеличения кол-ва узлов, т.к. обученная ф-ия сетки может иметь больше экстремумов (в данном случае минимумов, т.е. устойчивых состояний).
В этом смысле наработки из сетей Маркова полезны, конечно, как раз в плане исследований поведения циклов, устойчивости (эргодичности) сети и прочего такого, где математики ранее резвились именно на цепях Маркова.
Дело в том, что абстрактно теория хаоса в динамических системах (устойчивость, статистика-эргодичность и т.д.) исследовалась и ранее (например, активно Биркгофом, а книгой "Теория катастроф" и другими по этой теме зачитывался еще в старших классах и студенчестве без возможности оторваться, это must have чтиво).
Так вот, модель Маркова позволяет эти вещи исследовать не только абстрактно-теоретически, но и динамически на конечном пространстве состояний.
Просто в ИИ как везде — практика отстаёт от науки на многие десятилетия.
Се ля вуха такова. ))
Взять то же отличие SD от GAN — это сугубо "инженерный" трюк, а не "научный". ))
Эдакая небольшая оптимизация структуры, подходящая для параметров вычислительных машин в данный исторический период.
V>>Но стоить добавить немного шума к каждому нейрону, и можно получить изоморфную некоторым видам цепей Маркова структуру.
MVK>А можете подробней про вот этот момент?
Например, если сеть Маркова не является чисто генеративной, а еще производит вычисления над входными данными.
Например, внешние данные через некие вычисления управляют плотностью вероятности используемого генератора случайных чисел.
Т.е., внешние данные как бы "подталкивают" сеть в некоем пространстве направлений за счёт повышения вероятности перехода в те области.
Ну и, плюсом недетерминированных автоматов является то, что одновременно можно "протягивать" несколько наборов состояний, коль из каждого узла у нас потенциально более одного перехода.
Т.е., в этом месте могут резвиться "подходы верхнего уровня", бо область ИИ и вообще нечётких вычислений пока мест в зачаточном состоянии, там еще копать и копать...
Например, используемые сегодня подходы глубокого обучения — это жуткий нафталин из 80-90-х годов.
Одно время в нулевых я делал обзор текущего состояния исследований вокруг ИИ, самые передовые исследования происходили вокруг сеток с обратными связями (циклами).
Тогда активно изучалась устойчивость этих сетей, т.е. их сходимость (ведь эти сетки переходят в новое состояние не за один цикл вычислений, как это происходит в однонаправленных сетках, а итеративно, т.е. изменение на входе возбуждает сеть, далее сетка проходит через переходные процессы и должны устаканиться в некоем другом состоянии (т.е. следующая итерация обсчёта сетки не должна изменять её состояние более чем на некий эпсилон).
Сетки с обратными связями способны хранить больше данных при меньшем кол-ве узлов, но этого мало — повышение разрядности вычислений способно кардинально поднимать емкость сети даже без увеличения кол-ва узлов, т.к. обученная ф-ия сетки может иметь больше экстремумов (в данном случае минимумов, т.е. устойчивых состояний).
В этом смысле наработки из сетей Маркова полезны, конечно, как раз в плане исследований поведения циклов, устойчивости (эргодичности) сети и прочего такого, где математики ранее резвились именно на цепях Маркова.
Дело в том, что абстрактно теория хаоса в динамических системах (устойчивость, статистика-эргодичность и т.д.) исследовалась и ранее (например, активно Биркгофом, а книгой "Теория катастроф" и другими по этой теме зачитывался еще в старших классах и студенчестве без возможности оторваться, это must have чтиво).
Так вот, модель Маркова позволяет эти вещи исследовать не только абстрактно-теоретически, но и динамически на конечном пространстве состояний.
Просто в ИИ как везде — практика отстаёт от науки на многие десятилетия.
Се ля вуха такова. ))
Взять то же отличие SD от GAN — это сугубо "инженерный" трюк, а не "научный". ))
Эдакая небольшая оптимизация структуры, подходящая для параметров вычислительных машин в данный исторический период.