Re: Ссылка на фрагмент меняющегося текста

Здравствуйте, Аноним, Вы писали:

А>Есть текст, есть цитата из него.

я бы сделал так: в цитате поотбрасывал окончания (вполне достаточно взять стемер типа snowball), для каждого слова посчитал хеш и хранил бы вектор этих хешей как ключ цитаты. при поиске максимального совпадения исходный текст также прогоняется через стемер и хеш-функцию. после чего с помошью левенштейна и какойто матери вполне можно найти фрагмент текста совпадающий с цитатой с точностью до расстояния редактирования. поиск можно оптимизировать учитывая что тебя наврядли будут интересовать фрагменты _сильно_ отличающиеся от цитаты (т.е. расстояние редактирования большое).
единственное что этот метод не учитывает ошибки/корректуру в словах. в принципе можно и это учесть но процесс усложняется.

	От:	Аноним
	Дата:	03.02.08 16:22
	Оценка: