Re: Ссылка на фрагмент меняющегося текста
От: Аноним  
Дата: 03.02.08 16:22
Оценка:
Здравствуйте, Аноним, Вы писали:

А>Есть текст, есть цитата из него.


я бы сделал так: в цитате поотбрасывал окончания (вполне достаточно взять стемер типа snowball), для каждого слова посчитал хеш и хранил бы вектор этих хешей как ключ цитаты. при поиске максимального совпадения исходный текст также прогоняется через стемер и хеш-функцию. после чего с помошью левенштейна и какойто матери вполне можно найти фрагмент текста совпадающий с цитатой с точностью до расстояния редактирования. поиск можно оптимизировать учитывая что тебя наврядли будут интересовать фрагменты _сильно_ отличающиеся от цитаты (т.е. расстояние редактирования большое).
единственное что этот метод не учитывает ошибки/корректуру в словах. в принципе можно и это учесть но процесс усложняется.
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.