word2vec, transformer
Б>начало дискуссии тут
Б>https://rsdn.org/forum/ai/9053164.1Автор: vdimas
Дата: 05.02 00:25
vdimas, ответим на вопросы.
1. контекстно зависимая грамматика — если нетерминал стоит в левой части правила.
Эффективных алгоритмов нет. для регулярок — появление backrefference переводит регэксп в класс контекстно зависимых грамматик. Собственно ты ошибаешься утверждая что от regex c рекурсией и тем паче бэкреф строится ДКА. Это справедливо только для клакссических регекспов без рекурсии. А в реализованном языке компилатор регекспов — только небольшая часть )
2. word2vec — ниже написал.
Б>>Таки есть непонимание того, что в моем случае никакой ДКА не был возможен.
) мы вообще о чем говорим? О возможности анализа больших LLM?
V>Я понял из твоих слов так, что "длина"
1.5м ркегекспоборазное выражение в контексте бустового кода — данность. И вполне решаемая задача.
V>всех правил — полтора метра (1.5*1024*1024 в символах грамматики?)
полтора метра — данность.
В моем случае регексп (расширенное выражение с дописанными операторами) — внутреннее представление NLP системы.
ИИ:
Рекурсивные регулярные выражения (РРВ) — это расширение стандартных регулярных выражений, позволяющее использовать рекурсию (например, для парсинга вложенных структур вида (a(b)c)), что делает их эквивалентными контекстно-свободным грамматикам. В отличие от них, ДКА (Детерминированные Конечные Автоматы) распознают только регулярные языки и не поддерживают вложенность.
V>(грамотнее сказать "показательной функцией", бо без указания контекста экспонентой называют показательную ф-ию с
основанием e)
Ты о чем ?
V>Но в общем случае комбинаторика оперирует не только степенями (комбинации), но и "полустепенями" — факториалами (перестановки/сочетания).
Ты о чем ? В описанном мной случае
V>Отсылка к "числу атомов во вселенной" — это, с одной стороны расхожий мем, указывающий на "очень большое число",
мне этот мем не известен
V>Например, можно заменить таблицу функцией, которая выдаёт комбинацию по её номеру.
V>В ИИ зашивается связь данных и интерполирующих ф-ий над этими данными при обучении.
отлично, что делает это не поддающемуся анализу?
V>Я занимался этим в самом начале нулевых безо всякого ИИ — строил графы синонимичности слов.
V>Делалась попытка скормить системе обычный толковый словарь для построения этой базы синонимичности.
Отлично, что мешает анализировать LLM?
V>Конкретно бизон мы не изучали, мы писали "кучи бизонов", по вариантам несколько раз с разными грамматиками, бо бизон имеет внутри стековый автоматон для LR(1), а на деле ограничен LALR(1). А мы писали вплоть до GLR, какой там в опу бизон, о чём ты? Это даже несравнимо... ))
я не знаю, что ты конретно там писал, я бизон использовал для компилятора. С контекстно зависимым токенайзером. Потом на этом языке писались, генерировались правила. Конечно там речи о бизон нет.
V>Атрибутные грамматики плохо живут без генерализированного разбора.
от ты тут о чем?
V>>>Во-вторых, связаны по контекстно-зависимым грамматикам.
Б>> как всетаки криво ты bison называешь ))
V>Класс всех контекстно-зависимых грамматик где-то в количество атомов во вселенной мощнее класса, поддерживаемого конкретно бизоном.
а давай ьез атомов во вселенной?))
V>>>В-третьих, связь не только с дисциплинами парсинга, но и с дисциплинами кодирования данных и знаний.
V>>>В-четвертых, связаны по общему пониманию работы синтаксического разбора, представлению графов разбора, результатов и т.д.
Б>> и чем контекстно свободные от контекстно зависимых отличаются ?
V>))
V>Различить их можно после факторизации и минимизации всех правил.
садись. все много проще. наличие нетерминала в левой части правила делает ее контекстно зависимой. В бизоне по моему есть флажочек для использования КЗГ
V>Ты спрашивай, не стесняйся.
ты куда-то уходишь все время. Ты утверждал, что LLM не подлежат анализу, я с этим не согласен.
V>Как раз курсовики по генераторам парсеров и лексеров были.
от меня твое темное прошлое не интересует.
V>Сначала генерация ДКА как раз из языка расширенных регулярных выражений, отдал потом наработку студенту на год меня младше (не тебе случаем, ты не 73 г.р., бгг?)
)) нет я на год старше. тем паче мне за разработку того языка день платили. Я к тому времени уже пару фреймворков на плюсах реализовал
V>>>И этот (уже устаревший) алгоритм, и любые другие алгоритмы (более новым учат в наших ВУЗ-ах) — всего лишь частный случай более фундаментальных знаний.
Б>> ))ты или теоретик, или ... хз в общем. 2013 год алгоритму
V>В общем, мне уже хочется ругаться матом ))
V>Word2Vec — это открытая и бесплатная реализация векторизации слов.
V>Т.е. вот были до этого "черные ящики", делающие то же самое, после этого заменили Word2Vec, потому что даром, проще в архитектуре, допиливалось и ускорялось всем миром.
Т.е. про word2vec нет ясности
V>А матом хочется ругаться за путание реализации с функциональностью.
подозреваю, что у тебя и тут шансов мало. СА дает экспиеренс для построения многоэтажек )
V>Да, можно сказать, что Word2Vec — это новый алгоритм, решающий задачу, которую ранее решали другими алгоритмами.
V>(но сам алгорим появился не с 0-ля а как развитие уже известных алгоритмов, а те, в свою очередь, тоже не с 0ля)
новый — не новый разницы нет. Есть одно, ранее аппроксимационные ИИ и символные (грамматики) были два разных направвления, их часто противопоставляли.
так вот через word2vec произошел своеобразный мердж этих двух направлений, т.е. аппроксимационные ИИ (статистика, линейная алгебра) стали исполььзоваться фактически
совместно с алгоритмами из символьных ИИ.
V>Почему возникла потребность в новом алгоритме для решения старой задачи?
V>Потому что индустрия подошла к такому уровню развития, когда потребовалось векторизовать все слова у всех хотя бы немного популярных языков.
дело не в ворд2век, я выше написал.
V>Банально выросла размерность задачи.
V>Но не появилась новая задача.
V>Ладно, сорри, тут я и прервусь, пожалуй, бо это всё несколько вызывающе для нашего форума, а нецензурщиной отвечать неохота.
V>(попытка гонять меня по студенческой программе,
где я пытался ? я договариваюсь о терминах. пока
V>безграмотные попытки меня "поправлять", непонимание отличий решений задачи от феномена существования самой задачи в отрыве от различных вариантов её решения, в свою очередь демонстрация приличных пробелов в базовом профильном образовании, т.е. профильного образования с сбольшой вероятностью не было вовсе, ты пришёл в IT из других специальностей... Про бизон — это огромных размеров маркер, что обсуждать с тобой эти темы более чем бесполезно... надеяюсь, я достаточно обосновал своё невежливое желание проигнорить остаток текста, дважды сорри если что)
ты о чем вообще??
Я кажется понял. Ты считаешь, что я тебя на что-то чекал. Мне это поверь неактуально. Ты высказал фразу, что в моем случае, про который ты, замечу вообще не компете, но утвердил, что там возможен ДКА. Я намекнул тебе, что там сидели (ладно я) людми со степенями с этой области. Но ты как ) Утвердил, так вот для того, чобы как-то "доказать", что там невозможен ДКА в принципе, но для этого надо бало прояснить понимание (тыже меня первы заподозрил в непонимании экспенциального взрыва (я от первого услыал от человека ос тепенью). Так вот прояснить про контекстно зависимые грамматики и про word2vec. Или самому писать ответ сразу, ну .. может
Вот это для того, чотбы указать, что в моем случае
1. Компилятор языка
вот здесь бизон и контекстно зависимый токенайзер (ить мы в бизон токены кидаем)
2. Код написанный и сгенерированнй на нем.
про word2vec я не спорю, что с тех пор как я занимался NLP прошло достаточно, чтобы мои знания устарели, но я вполне общаюсь с теми, кто этим занимается непорсдственно. Так вот своеобразный мерж направления перцептрон \ грамматики Хомского, тоже сказано весьма неглупыми людьми
мы с ними аджоинт (кстати тоже используется в ИИ, ml-adjoint зовется) пилили в 18-м. Там степенистов всяких было больше, олимпиадников ..
да "без профильного" ну ты вообще, я там практически один ореализовал корку фреймворка, что заставило работать статистические алгоритмы из квантлиб фин. мат., где шел расчет производдных функций многих переменных (первого и второго пордяка), в реверс моде и обратно )) в смысле вперед.
он гифт в подписи видишь — шеф (минимум ландау) дал подержать ))) бля
если бы я тебя чекал я бы зажал вопрос, (любимый) на собесах задавал, и потом рассказывал
что общего между жадностью и SFINAE
Здравствуйте, ботаныч, Вы писали:
A>>Извиняюсь, что влезаю в чужой разговор.
A>>Неужели до сих пор кто-то использует грамматики Хомского?! Я очень удивлён.
Б> для написания языков вполне.
Ну я имел в виду, что для всяких компьютерных языков типа С++ это нормально.
Потому что такие языки специально так пишутся, чтобы их было удобно парсить грамматиками Хомского.
Но с естественными-то языками (типа русского или аннглийского) они не справляются.
Б> а что там еще использовать ?
Ну вот, например:
https://www.youtube.com/watch?v=lqL45eVcGIg
Это другой, совершенно перпендикулярный формализм описания грамматики,
который имеет эффективность в тысячу раз больше.