Здравствуйте, Аноним, Вы писали:
А>Есть текст, есть цитата из него.
я бы сделал так: в цитате поотбрасывал окончания (вполне достаточно взять стемер типа snowball), для каждого слова посчитал хеш и хранил бы вектор этих хешей как ключ цитаты. при поиске максимального совпадения исходный текст также прогоняется через стемер и хеш-функцию. после чего с помошью левенштейна и какойто матери вполне можно найти фрагмент текста совпадающий с цитатой с точностью до расстояния редактирования. поиск можно оптимизировать учитывая что тебя наврядли будут интересовать фрагменты _сильно_ отличающиеся от цитаты (т.е. расстояние редактирования большое).
единственное что этот метод не учитывает ошибки/корректуру в словах. в принципе можно и это учесть но процесс усложняется.