Великий и могучий Русский язык
От: Аноним  
Дата: 01.12.03 08:17
Оценка:
Пожалуйста помогите!
Для решения задач индексирования, классификации и т.д. необходимо проанализировать текстовый документ
и посчитать количество слов с учетом разных форм одного и того же слова, получаемых при изменении падежа, числа, рода... Возникла проблема с получением общей формы слова. В русском языке есть чередование гласных в корне слова, согласных на конце корня, множество наслаиваемых суффиксов. Некоторые приставки и суффиксы совпадают с началом и концом корней соответственно.
Для английского языка проблем нет. Все описано у Солтона. Но что делать с русским??
Re: Великий и могучий Русский язык
От: _MarlboroMan_ Россия  
Дата: 01.12.03 08:23
Оценка:
Здравствуйте, <Аноним>, Вы писали:

А>Но что делать с русским??


ну не знаю. насколько мне известно русский пока еще формализовать не удалось.
... << RSDN@Home 1.1 beta 2 >>

— сколько программистов надо чтобы заменить сгоревшую лампочку?
— сколько не бери, а лампочку не поменять — проблема аппаратная, программным путем не решается...
Re: Великий и могучий Русский язык
От: Socrat Россия  
Дата: 01.12.03 09:08
Оценка:
Здравствуйте, Аноним, Вы писали:

А>Пожалуйста помогите!

А>Для решения задач индексирования, классификации и т.д. необходимо проанализировать текстовый документ
А>и посчитать количество слов с учетом разных форм одного и того же слова, получаемых при изменении падежа, числа, рода... Возникла проблема с получением общей формы слова. В русском языке есть чередование гласных в корне слова, согласных на конце корня, множество наслаиваемых суффиксов. Некоторые приставки и суффиксы совпадают с началом и концом корней соответственно.
А>Для английского языка проблем нет. Все описано у Солтона. Но что делать с русским??

Насколько я знаю, существует несколько групп слов, склоняемых/спрягаемых одинаково. А общих правил нет.
Re: Великий и могучий Русский язык
От: rgl  
Дата: 01.12.03 14:38
Оценка: 3 (1) :))) :))) :)))
Одни уже написал

Где-то слышал что кто-то захотел собрать статистику слов в песнях бардов. Написал грамотную программу, которая приводит слово к исходной форме (существительные — в именительный падеж единственное число, глаголы — к неопределенной форма, и т.д., а всякие там предлоги и местоимения вообще не учитывались) Когда программа была отлажена, ей скормили большое количество реальных текстов. Программа сказала что в песнях бардов самое частое слово, простите, "какать" . Причина быстро нашлась — программа принимала слово "какАя" за деепричастие "кАкая"
Re: Великий и могучий Русский язык
От: shurik13 Россия  
Дата: 01.12.03 17:33
Оценка:
А>Пожалуйста помогите!
А>Для решения задач индексирования, классификации и т.д. необходимо проанализировать текстовый документ
А>и посчитать количество слов с учетом разных форм одного и того же слова, получаемых при изменении падежа, числа, рода... Возникла проблема с получением общей формы слова. В русском языке есть чередование гласных в корне слова, согласных на конце корня, множество наслаиваемых суффиксов. Некоторые приставки и суффиксы совпадают с началом и концом корней соответственно.
А>Для английского языка проблем нет. Все описано у Солтона. Но что делать с русским??

Запрос, я тебе скажу, нехилый. Как правило, подобные задачи решаются с использованием созданного экспертами словаря, так как русский язык очень тяжело формализуем. Много наработок есть, например, у RCO (адрес их не помню точно, в гугле найдешь без труда).
На самом деле, мне эта тема тоже очень интересна (в институте этим занимаюсь). Пиши, будет интересно пообщаться.
... << RSDN@Home 1.1.0 stable >>
---
Александр Ющенко
Re[2]: Великий и могучий Русский язык
От: Intenter  
Дата: 02.12.03 10:15
Оценка:
Здравствуйте, shurik13, Вы писали:

А>>Пожалуйста помогите!

А>>Для решения задач индексирования, классификации и т.д. необходимо проанализировать текстовый документ
А>>и посчитать количество слов с учетом разных форм одного и того же слова, получаемых при изменении падежа, числа, рода... Возникла проблема с получением общей формы слова. В русском языке есть чередование гласных в корне слова, согласных на конце корня, множество наслаиваемых суффиксов. Некоторые приставки и суффиксы совпадают с началом и концом корней соответственно.
А>>Для английского языка проблем нет. Все описано у Солтона. Но что делать с русским??

S>Запрос, я тебе скажу, нехилый. Как правило, подобные задачи решаются с использованием созданного экспертами словаря, так как русский язык очень тяжело формализуем. Много наработок есть, например, у RCO (адрес их не помню точно, в гугле найдешь без труда).

S>На самом деле, мне эта тема тоже очень интересна (в институте этим занимаюсь). Пиши, будет интересно пообщаться.

Дык в этом и весь фокус, что заранее словаря нет. Нужно составить список терминов, характеризующих документ. Делается это так: считаем количество слов и отбрасываем самые часто и редко употребляемые. То есть производится индексирование документа. После этого с ним можно работать: осуществлять поиск, классификацию и т.д.
Кстати, в общеизвестных поисковых системах индексирование осуществляют роботы, которые обычно слова вообще не преобразуют. Вот и получается: в запросе падеж слова изменил, и результат запроса изменился. Грустно!
P.S. Самый первый вопрос мой — просто без логина.
Re: Великий и могучий Русский язык
От: Зверёк Харьковский  
Дата: 02.12.03 11:30
Оценка: 18 (1)
Здравствуйте, Аноним, Вы писали:

А>Пожалуйста помогите!

А>Для решения задач индексирования, классификации и т.д. необходимо проанализировать текстовый документ
А>и посчитать количество слов с учетом разных форм одного и того же слова, получаемых при изменении падежа, числа, рода... Возникла проблема с получением общей формы слова. В русском языке есть чередование гласных в корне слова, согласных на конце корня, множество наслаиваемых суффиксов. Некоторые приставки и суффиксы совпадают с началом и концом корней соответственно.
А>Для английского языка проблем нет. Все описано у Солтона. Но что делать с русским??

вот здесь посмотри — довольно интересно.
FAQ — це мiй ай-кью!
Re: Великий и могучий Русский язык
От: Аноним  
Дата: 02.12.03 14:18
Оценка:
Здравствуйте, Аноним, Вы писали:

А>Для английского языка проблем нет. Все описано у Солтона. Но что делать с русским??

Хорошая статья про эту проблему здесь.
Ссылка на программу с исходниками в конце.

Всего хорошего.
Виктор.
Re[3]: Великий и могучий Русский язык
От: shurik13 Россия  
Дата: 02.12.03 21:25
Оценка:
I>Дык в этом и весь фокус, что заранее словаря нет. Нужно составить список терминов, характеризующих документ. Делается это так: считаем количество слов и отбрасываем самые часто и редко употребляемые. То есть производится индексирование документа. После этого с ним можно работать: осуществлять поиск, классификацию и т.д.

Насколдько мне известно, до конца эта задача на данный момент не решена. В смысле автоматического выделения понятий (учет окончаний, разных частей речи на одном корне и т.д.) без тезауруса.

I>Кстати, в общеизвестных поисковых системах индексирование осуществляют роботы, которые обычно слова вообще не преобразуют. Вот и получается: в запросе падеж слова изменил, и результат запроса изменился. Грустно!


Знаю, у меня про это диплом был
... << RSDN@Home 1.1.0 stable >>
---
Александр Ющенко
Re: Великий и могучий Русский язык
От: Аноним  
Дата: 03.12.03 10:18
Оценка:
Здравствуйте, Аноним, Вы писали:

А>ПА>Для английского языка проблем нет. Все описано у Солтона. Но что делать с русским??


А русский у Зализняка описан, там что-то около 700 типов морфообразования, вот на его основе можно забацать мофроанализатор, месяца за 3-4
Re[2]: Великий и могучий Русский язык
От: shurik13 Россия  
Дата: 03.12.03 10:25
Оценка:
А>ПА>>Для английского языка проблем нет. Все описано у Солтона. Но что делать с русским??

А>А русский у Зализняка описан, там что-то около 700 типов морфообразования, вот на его основе можно забацать мофроанализатор, месяца за 3-4


А можно подробности? Как книжка называется, или ссылку в сети?
---
Александр Ющенко
Re[3]: Великий и могучий Русский язык
От: Kaa Украина http://blog.meta.ua/users/kaa/
Дата: 03.12.03 11:12
Оценка:
Здравствуйте, shurik13, Вы писали:

S>А можно подробности? Как книжка называется, или ссылку в сети?

Тебе, наверное, будет интересен такой топик. Там много ссылок на литературу есть. И на онлайн.
Алексей Кирдин
Re[4]: Великий и могучий Русский язык
От: КАА Россия  
Дата: 05.12.03 16:16
Оценка:
А как же Яндекс? Они себя позиционируют таким образом, что там все с русским чик-пык...
Да и запросы действительно умно обрабатывают.

А словарь можно иметь заранее, что по нему потом определять принадлежность слов.
Все будет Украина!
Re[5]: Великий и могучий Русский язык
От: Аноним  
Дата: 06.12.03 07:57
Оценка:
Здравствуйте, КАА, Вы писали:

КАА>А как же Яндекс? Они себя позиционируют таким образом, что там все с русским чик-пык...

КАА>Да и запросы действительно умно обрабатывают.

Ага. Щаз. слово 'секс' может быть. А вот проверка : есть такая организация ИГРАН.
Ссылок на нее немало. А попробуйте найти их в Яндексе....здесь

NB : это слово не является НИКАКОЙ формой слова "игра"
Вывод : Яндекс вообще не занимается разбором слов, а использует что-то
вроде SOUNDEX адаптированного к особенностям грамматики русского языка.

КАА>А словарь можно иметь заранее, что по нему потом определять принадлежность слов.


Для русского языка эта задача не является контекстно-независимой. Точка.
Можно, правда, выделить некое подмножество языка, на котором задача
разрешима в отрыве от контекста.

Из известных мне языков задача разбора слова всегда контекстно-независима
только в Эсперанто. Что наводит на размышления....
Re[6]: Великий и могучий Русский язык
От: Kaa Украина http://blog.meta.ua/users/kaa/
Дата: 06.12.03 13:17
Оценка:
Здравствуйте, <Аноним>, Вы писали:

А>Ага. Щаз. слово 'секс' может быть. А вот проверка : есть такая организация ИГРАН.

А>Ссылок на нее немало. А попробуйте найти их в Яндексе....здесь
Плохой и ничего не доказывающий пример.

А>NB : это слово не является НИКАКОЙ формой слова "игра"

Ну и что? А причем тут слово "игра". "Игран" является формой глагола "играть", что мы и видим на первой странице выдачи: в результатах присутствует формы глагола и деепричастия, но форм существительных — нет и в помине. Так-что, уже посылка к сформированному выводу неверна.

А>Вывод : Яндекс вообще не занимается разбором слов, а использует что-то

А>вроде SOUNDEX адаптированного к особенностям грамматики русского языка.
Это неправда. Словарные морфологии у Яндекса есть, и они ими пользуются. Однако, не только ими. Данный вывод неверен и не соответствует действительности.

Кстати, о SOUNDEX: его можно рассматривать в контекста нечетких морфологий, т.е. несловарных модулей лингвистической поддержки. Вот еще один пример работы одной такой морфологии. Она — бессловарная, но при этом также единогласна в том с обвиняемым Яндексом, что "Игран" к "игра" никакого отношения не имеет.
Алексей Кирдин
Re[3]: Великий и могучий Русский язык
От: KP  
Дата: 06.12.03 14:37
Оценка:
Здравствуйте, shurik13, Вы писали:

А>ПА>>>Для английского языка проблем нет. Все описано у Солтона. Но что делать с русским??


А>>А русский у Зализняка описан, там что-то около 700 типов морфообразования, вот на его основе можно забацать мофроанализатор, месяца за 3-4


S>А можно подробности? Как книжка называется, или ссылку в сети?


Словарь Зализняка
http://www.artint.ru/packin/abrial/download.htm#ariadna2
в каталоге в когторый распакуешь архивеariadna2setup.exe есть файл ZZZ — это и есть словарь после запуска run.bat появится еще кое что полезное, в овновном промежуточные результаты работы. Еще хорошая ссылка здесь[url=]http://www.rvb.ru/soft/catalogue/catalogue.html, свой первый словарь скачивал откуда-то из перечисленных там ресурсов.
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.