Re[2]: Великий и могучий Русский язык
От: Intenter  
Дата: 02.12.03 10:15
Оценка:
Здравствуйте, shurik13, Вы писали:

А>>Пожалуйста помогите!

А>>Для решения задач индексирования, классификации и т.д. необходимо проанализировать текстовый документ
А>>и посчитать количество слов с учетом разных форм одного и того же слова, получаемых при изменении падежа, числа, рода... Возникла проблема с получением общей формы слова. В русском языке есть чередование гласных в корне слова, согласных на конце корня, множество наслаиваемых суффиксов. Некоторые приставки и суффиксы совпадают с началом и концом корней соответственно.
А>>Для английского языка проблем нет. Все описано у Солтона. Но что делать с русским??

S>Запрос, я тебе скажу, нехилый. Как правило, подобные задачи решаются с использованием созданного экспертами словаря, так как русский язык очень тяжело формализуем. Много наработок есть, например, у RCO (адрес их не помню точно, в гугле найдешь без труда).

S>На самом деле, мне эта тема тоже очень интересна (в институте этим занимаюсь). Пиши, будет интересно пообщаться.

Дык в этом и весь фокус, что заранее словаря нет. Нужно составить список терминов, характеризующих документ. Делается это так: считаем количество слов и отбрасываем самые часто и редко употребляемые. То есть производится индексирование документа. После этого с ним можно работать: осуществлять поиск, классификацию и т.д.
Кстати, в общеизвестных поисковых системах индексирование осуществляют роботы, которые обычно слова вообще не преобразуют. Вот и получается: в запросе падеж слова изменил, и результат запроса изменился. Грустно!
P.S. Самый первый вопрос мой — просто без логина.
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.