Пожалуйста помогите!
Для решения задач индексирования, классификации и т.д. необходимо проанализировать текстовый документ
и посчитать количество слов с учетом разных форм одного и того же слова, получаемых при изменении падежа, числа, рода... Возникла проблема с получением общей формы слова. В русском языке есть чередование гласных в корне слова, согласных на конце корня, множество наслаиваемых суффиксов. Некоторые приставки и суффиксы совпадают с началом и концом корней соответственно.
Для английского языка проблем нет. Все описано у Солтона. Но что делать с русским??
Здравствуйте, <Аноним>, Вы писали:
А>Но что делать с русским??
ну не знаю. насколько мне известно русский пока еще формализовать не удалось.
... << RSDN@Home 1.1 beta 2 >>
— сколько программистов надо чтобы заменить сгоревшую лампочку?
— сколько не бери, а лампочку не поменять — проблема аппаратная, программным путем не решается...
Здравствуйте, Аноним, Вы писали:
А>Пожалуйста помогите! А>Для решения задач индексирования, классификации и т.д. необходимо проанализировать текстовый документ А>и посчитать количество слов с учетом разных форм одного и того же слова, получаемых при изменении падежа, числа, рода... Возникла проблема с получением общей формы слова. В русском языке есть чередование гласных в корне слова, согласных на конце корня, множество наслаиваемых суффиксов. Некоторые приставки и суффиксы совпадают с началом и концом корней соответственно. А>Для английского языка проблем нет. Все описано у Солтона. Но что делать с русским??
Насколько я знаю, существует несколько групп слов, склоняемых/спрягаемых одинаково. А общих правил нет.
Где-то слышал что кто-то захотел собрать статистику слов в песнях бардов. Написал грамотную программу, которая приводит слово к исходной форме (существительные — в именительный падеж единственное число, глаголы — к неопределенной форма, и т.д., а всякие там предлоги и местоимения вообще не учитывались) Когда программа была отлажена, ей скормили большое количество реальных текстов. Программа сказала что в песнях бардов самое частое слово, простите, "какать" . Причина быстро нашлась — программа принимала слово "какАя" за деепричастие "кАкая"
А>Пожалуйста помогите! А>Для решения задач индексирования, классификации и т.д. необходимо проанализировать текстовый документ А>и посчитать количество слов с учетом разных форм одного и того же слова, получаемых при изменении падежа, числа, рода... Возникла проблема с получением общей формы слова. В русском языке есть чередование гласных в корне слова, согласных на конце корня, множество наслаиваемых суффиксов. Некоторые приставки и суффиксы совпадают с началом и концом корней соответственно. А>Для английского языка проблем нет. Все описано у Солтона. Но что делать с русским??
Запрос, я тебе скажу, нехилый. Как правило, подобные задачи решаются с использованием созданного экспертами словаря, так как русский язык очень тяжело формализуем. Много наработок есть, например, у RCO (адрес их не помню точно, в гугле найдешь без труда).
На самом деле, мне эта тема тоже очень интересна (в институте этим занимаюсь). Пиши, будет интересно пообщаться.
Здравствуйте, shurik13, Вы писали:
А>>Пожалуйста помогите! А>>Для решения задач индексирования, классификации и т.д. необходимо проанализировать текстовый документ А>>и посчитать количество слов с учетом разных форм одного и того же слова, получаемых при изменении падежа, числа, рода... Возникла проблема с получением общей формы слова. В русском языке есть чередование гласных в корне слова, согласных на конце корня, множество наслаиваемых суффиксов. Некоторые приставки и суффиксы совпадают с началом и концом корней соответственно. А>>Для английского языка проблем нет. Все описано у Солтона. Но что делать с русским??
S>Запрос, я тебе скажу, нехилый. Как правило, подобные задачи решаются с использованием созданного экспертами словаря, так как русский язык очень тяжело формализуем. Много наработок есть, например, у RCO (адрес их не помню точно, в гугле найдешь без труда). S>На самом деле, мне эта тема тоже очень интересна (в институте этим занимаюсь). Пиши, будет интересно пообщаться.
Дык в этом и весь фокус, что заранее словаря нет. Нужно составить список терминов, характеризующих документ. Делается это так: считаем количество слов и отбрасываем самые часто и редко употребляемые. То есть производится индексирование документа. После этого с ним можно работать: осуществлять поиск, классификацию и т.д.
Кстати, в общеизвестных поисковых системах индексирование осуществляют роботы, которые обычно слова вообще не преобразуют. Вот и получается: в запросе падеж слова изменил, и результат запроса изменился. Грустно!
P.S. Самый первый вопрос мой — просто без логина.
Здравствуйте, Аноним, Вы писали:
А>Пожалуйста помогите! А>Для решения задач индексирования, классификации и т.д. необходимо проанализировать текстовый документ А>и посчитать количество слов с учетом разных форм одного и того же слова, получаемых при изменении падежа, числа, рода... Возникла проблема с получением общей формы слова. В русском языке есть чередование гласных в корне слова, согласных на конце корня, множество наслаиваемых суффиксов. Некоторые приставки и суффиксы совпадают с началом и концом корней соответственно. А>Для английского языка проблем нет. Все описано у Солтона. Но что делать с русским??
Здравствуйте, Аноним, Вы писали:
А>Для английского языка проблем нет. Все описано у Солтона. Но что делать с русским??
Хорошая статья про эту проблему здесь.
Ссылка на программу с исходниками в конце.
I>Дык в этом и весь фокус, что заранее словаря нет. Нужно составить список терминов, характеризующих документ. Делается это так: считаем количество слов и отбрасываем самые часто и редко употребляемые. То есть производится индексирование документа. После этого с ним можно работать: осуществлять поиск, классификацию и т.д.
Насколдько мне известно, до конца эта задача на данный момент не решена. В смысле автоматического выделения понятий (учет окончаний, разных частей речи на одном корне и т.д.) без тезауруса.
I>Кстати, в общеизвестных поисковых системах индексирование осуществляют роботы, которые обычно слова вообще не преобразуют. Вот и получается: в запросе падеж слова изменил, и результат запроса изменился. Грустно!
Знаю, у меня про это диплом был
... << RSDN@Home 1.1.0 stable >>
---
Александр Ющенко
Re: Великий и могучий Русский язык
От:
Аноним
Дата:
03.12.03 10:18
Оценка:
Здравствуйте, Аноним, Вы писали:
А>ПА>Для английского языка проблем нет. Все описано у Солтона. Но что делать с русским??
А русский у Зализняка описан, там что-то около 700 типов морфообразования, вот на его основе можно забацать мофроанализатор, месяца за 3-4
А>ПА>>Для английского языка проблем нет. Все описано у Солтона. Но что делать с русским??
А>А русский у Зализняка описан, там что-то около 700 типов морфообразования, вот на его основе можно забацать мофроанализатор, месяца за 3-4
А можно подробности? Как книжка называется, или ссылку в сети?
Здравствуйте, shurik13, Вы писали:
S>А можно подробности? Как книжка называется, или ссылку в сети?
Тебе, наверное, будет интересен такой топик. Там много ссылок на литературу есть. И на онлайн.
А как же Яндекс? Они себя позиционируют таким образом, что там все с русским чик-пык...
Да и запросы действительно умно обрабатывают.
А словарь можно иметь заранее, что по нему потом определять принадлежность слов.
Все будет Украина!
Re[5]: Великий и могучий Русский язык
От:
Аноним
Дата:
06.12.03 07:57
Оценка:
Здравствуйте, КАА, Вы писали:
КАА>А как же Яндекс? Они себя позиционируют таким образом, что там все с русским чик-пык... КАА>Да и запросы действительно умно обрабатывают.
Ага. Щаз. слово 'секс' может быть. А вот проверка : есть такая организация ИГРАН.
Ссылок на нее немало. А попробуйте найти их в Яндексе....здесь
NB : это слово не является НИКАКОЙ формой слова "игра"
Вывод : Яндекс вообще не занимается разбором слов, а использует что-то
вроде SOUNDEX адаптированного к особенностям грамматики русского языка.
КАА>А словарь можно иметь заранее, что по нему потом определять принадлежность слов.
Для русского языка эта задача не является контекстно-независимой. Точка.
Можно, правда, выделить некое подмножество языка, на котором задача
разрешима в отрыве от контекста.
Из известных мне языков задача разбора слова всегда контекстно-независима
только в Эсперанто. Что наводит на размышления....
Здравствуйте, <Аноним>, Вы писали:
А>Ага. Щаз. слово 'секс' может быть. А вот проверка : есть такая организация ИГРАН. А>Ссылок на нее немало. А попробуйте найти их в Яндексе....здесь
Плохой и ничего не доказывающий пример.
А>NB : это слово не является НИКАКОЙ формой слова "игра"
Ну и что? А причем тут слово "игра". "Игран" является формой глагола "играть", что мы и видим на первой странице выдачи: в результатах присутствует формы глагола и деепричастия, но форм существительных — нет и в помине. Так-что, уже посылка к сформированному выводу неверна.
А>Вывод : Яндекс вообще не занимается разбором слов, а использует что-то А>вроде SOUNDEX адаптированного к особенностям грамматики русского языка.
Это неправда. Словарные морфологии у Яндекса есть, и они ими пользуются. Однако, не только ими. Данный вывод неверен и не соответствует действительности.
Кстати, о SOUNDEX: его можно рассматривать в контекста нечетких морфологий, т.е. несловарных модулей лингвистической поддержки. Вот еще один пример работы одной такой морфологии. Она — бессловарная, но при этом также единогласна в том с обвиняемым Яндексом, что "Игран" к "игра" никакого отношения не имеет.
Здравствуйте, shurik13, Вы писали:
А>ПА>>>Для английского языка проблем нет. Все описано у Солтона. Но что делать с русским??
А>>А русский у Зализняка описан, там что-то около 700 типов морфообразования, вот на его основе можно забацать мофроанализатор, месяца за 3-4
S>А можно подробности? Как книжка называется, или ссылку в сети?