Информация об изменениях

Сообщение Re[4]: Нечеткое сравнение слов. от 17.10.2025 21:06

Изменено 17.10.2025 21:13 vdimas

Re[4]: Нечеткое сравнение слов.
Здравствуйте, pik, Вы писали:

pik>наиболее реально составить список наиболее вероятных опечаток и прогонять их через regex.


Да, эта же идея пришла мне в голову первой.
Но только не regex, а предварительно составленное дерево разбора.
Причём, в тщательно выбранном представлении в памяти (обычно это два плоских массива, хранящих смещения — массив состояний и массив переходов, везде только числа, без указателей/ссылок)

Вот тут раскрыл примерную идею:
https://www.rsdn.org/forum/alg/9006963.1
Re[4]: Нечеткое сравнение слов.
Здравствуйте, pik, Вы писали:

pik>наиболее реально составить список наиболее вероятных опечаток и прогонять их через regex.


Да, эта же идея пришла мне в голову первой.
Но только не regex, а предварительно составленное дерево разбора.
Причём, в тщательно выбранном представлении в памяти (обычно это два плоских массива, хранящих смещения — массив состояний и массив переходов, везде только числа, без указателей/ссылок)

И не заранее составить список всех самых вероятных опечаток (там всё равно получается приличный комбинаторный взрыв вариантов, память слишком отожрет), а прогонять одновременно варианты с дистанцией до 2-х ошибок, т.е. выстраивать эти варианты динамически. Ну или же перебирать эти варианты у исходного слова и сравнивать со словарём все эти варианты поочерёдно — суть та же, но другая реализация. Тут только сравнительное тестирование покажет. ))

Вот тут раскрыл примерную идею:
https://www.rsdn.org/forum/alg/9006963.1