Здравствуйте, shurik13, Вы писали:
А>>Пожалуйста помогите! А>>Для решения задач индексирования, классификации и т.д. необходимо проанализировать текстовый документ А>>и посчитать количество слов с учетом разных форм одного и того же слова, получаемых при изменении падежа, числа, рода... Возникла проблема с получением общей формы слова. В русском языке есть чередование гласных в корне слова, согласных на конце корня, множество наслаиваемых суффиксов. Некоторые приставки и суффиксы совпадают с началом и концом корней соответственно. А>>Для английского языка проблем нет. Все описано у Солтона. Но что делать с русским??
S>Запрос, я тебе скажу, нехилый. Как правило, подобные задачи решаются с использованием созданного экспертами словаря, так как русский язык очень тяжело формализуем. Много наработок есть, например, у RCO (адрес их не помню точно, в гугле найдешь без труда). S>На самом деле, мне эта тема тоже очень интересна (в институте этим занимаюсь). Пиши, будет интересно пообщаться.
Дык в этом и весь фокус, что заранее словаря нет. Нужно составить список терминов, характеризующих документ. Делается это так: считаем количество слов и отбрасываем самые часто и редко употребляемые. То есть производится индексирование документа. После этого с ним можно работать: осуществлять поиск, классификацию и т.д.
Кстати, в общеизвестных поисковых системах индексирование осуществляют роботы, которые обычно слова вообще не преобразуют. Вот и получается: в запросе падеж слова изменил, и результат запроса изменился. Грустно!
P.S. Самый первый вопрос мой — просто без логина.