I>Дык в этом и весь фокус, что заранее словаря нет. Нужно составить список терминов, характеризующих документ. Делается это так: считаем количество слов и отбрасываем самые часто и редко употребляемые. То есть производится индексирование документа. После этого с ним можно работать: осуществлять поиск, классификацию и т.д.
Насколдько мне известно, до конца эта задача на данный момент не решена. В смысле автоматического выделения понятий (учет окончаний, разных частей речи на одном корне и т.д.) без тезауруса.
I>Кстати, в общеизвестных поисковых системах индексирование осуществляют роботы, которые обычно слова вообще не преобразуют. Вот и получается: в запросе падеж слова изменил, и результат запроса изменился. Грустно!
Знаю, у меня про это диплом был

... << RSDN@Home 1.1.0 stable >>