Re[6]: найти нечеткие совпадения строки в массиве строк
От: deng  
Дата: 16.06.11 11:44
Оценка:
Здравствуйте, __kot2, Вы писали:

__>подойдет-подойдет. не в лоб конечно


N-граммы? С ними тоже возникает проблема: должны быть общие участки размером в N-грамму, если общие участки нужного размера не попадаются, будут пропускаються правильные варианты совпадений, это очень не желательно.

типа:
слово для поиска: маха, набор триграм: мах, аха

слова базы : маша, мыха, миха

в результате ничего не отыщется, хотя при точном поиске должо быть

МАхА
МАшА

МаХА
МыХА

МаХА
МиХА


Как вариант можно составлять N-граммы с пропусками позиций,причем в разных вариантах,(типа маха (м-ха)) но все равно пропусков правильных результатов не избежать, все сочетания все равно не учтешь.

Хотелось бы найти решение для точного поиска общих частей, прежде чем приступать к реализации поиска N-грамм, или хотя бы убедиться что такого нет )
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.