Re[4]: Великий и могучий Русский язык - Алгоритмы

Пожалуйста помогите!
Для решения задач индексирования, классификации и т.д. необходимо проанализировать текстовый документ
и посчитать количество слов с учетом разных форм одного и того же слова, получаемых при изменении падежа, числа, рода... Возникла проблема с получением общей формы слова. В русском языке есть чередование гласных в корне слова, согласных на конце корня, множество наслаиваемых суффиксов. Некоторые приставки и суффиксы совпадают с началом и концом корней соответственно.
Для английского языка проблем нет. Все описано у Солтона. Но что делать с русским??

Здравствуйте, <Аноним>, Вы писали:

А>Но что делать с русским??

ну не знаю. насколько мне известно русский пока еще формализовать не удалось.

... << RSDN@Home 1.1 beta 2 >>

Здравствуйте, Аноним, Вы писали:

А>Пожалуйста помогите!
А>Для решения задач индексирования, классификации и т.д. необходимо проанализировать текстовый документ
А>и посчитать количество слов с учетом разных форм одного и того же слова, получаемых при изменении падежа, числа, рода... Возникла проблема с получением общей формы слова. В русском языке есть чередование гласных в корне слова, согласных на конце корня, множество наслаиваемых суффиксов. Некоторые приставки и суффиксы совпадают с началом и концом корней соответственно.
А>Для английского языка проблем нет. Все описано у Солтона. Но что делать с русским??

Насколько я знаю, существует несколько групп слов, склоняемых/спрягаемых одинаково. А общих правил нет.

Одни уже написал

Где-то слышал что кто-то захотел собрать статистику слов в песнях бардов. Написал грамотную программу, которая приводит слово к исходной форме (существительные — в именительный падеж единственное число, глаголы — к неопределенной форма, и т.д., а всякие там предлоги и местоимения вообще не учитывались) Когда программа была отлажена, ей скормили большое количество реальных текстов. Программа сказала что в песнях бардов самое частое слово, простите, "какать"

. Причина быстро нашлась — программа принимала слово "какАя" за деепричастие "кАкая"

А>Пожалуйста помогите!
А>Для решения задач индексирования, классификации и т.д. необходимо проанализировать текстовый документ
А>и посчитать количество слов с учетом разных форм одного и того же слова, получаемых при изменении падежа, числа, рода... Возникла проблема с получением общей формы слова. В русском языке есть чередование гласных в корне слова, согласных на конце корня, множество наслаиваемых суффиксов. Некоторые приставки и суффиксы совпадают с началом и концом корней соответственно.
А>Для английского языка проблем нет. Все описано у Солтона. Но что делать с русским??

Запрос, я тебе скажу, нехилый. Как правило, подобные задачи решаются с использованием созданного экспертами словаря, так как русский язык очень тяжело формализуем. Много наработок есть, например, у RCO (адрес их не помню точно, в гугле найдешь без труда).
На самом деле, мне эта тема тоже очень интересна (в институте этим занимаюсь). Пиши, будет интересно пообщаться.

... << RSDN@Home 1.1.0 stable >>

Здравствуйте, shurik13, Вы писали:

А>>Пожалуйста помогите!
А>>Для решения задач индексирования, классификации и т.д. необходимо проанализировать текстовый документ
А>>и посчитать количество слов с учетом разных форм одного и того же слова, получаемых при изменении падежа, числа, рода... Возникла проблема с получением общей формы слова. В русском языке есть чередование гласных в корне слова, согласных на конце корня, множество наслаиваемых суффиксов. Некоторые приставки и суффиксы совпадают с началом и концом корней соответственно.
А>>Для английского языка проблем нет. Все описано у Солтона. Но что делать с русским??

S>Запрос, я тебе скажу, нехилый. Как правило, подобные задачи решаются с использованием созданного экспертами словаря, так как русский язык очень тяжело формализуем. Много наработок есть, например, у RCO (адрес их не помню точно, в гугле найдешь без труда).
S>На самом деле, мне эта тема тоже очень интересна (в институте этим занимаюсь). Пиши, будет интересно пообщаться.

Дык в этом и весь фокус, что заранее словаря нет. Нужно составить список терминов, характеризующих документ. Делается это так: считаем количество слов и отбрасываем самые часто и редко употребляемые. То есть производится индексирование документа. После этого с ним можно работать: осуществлять поиск, классификацию и т.д.
Кстати, в общеизвестных поисковых системах индексирование осуществляют роботы, которые обычно слова вообще не преобразуют. Вот и получается: в запросе падеж слова изменил, и результат запроса изменился. Грустно!
P.S. Самый первый вопрос мой — просто без логина.

Здравствуйте, Аноним, Вы писали:

А>Пожалуйста помогите!
А>Для решения задач индексирования, классификации и т.д. необходимо проанализировать текстовый документ
А>и посчитать количество слов с учетом разных форм одного и того же слова, получаемых при изменении падежа, числа, рода... Возникла проблема с получением общей формы слова. В русском языке есть чередование гласных в корне слова, согласных на конце корня, множество наслаиваемых суффиксов. Некоторые приставки и суффиксы совпадают с началом и концом корней соответственно.
А>Для английского языка проблем нет. Все описано у Солтона. Но что делать с русским??

вот здесь посмотри — довольно интересно.

Здравствуйте, Аноним, Вы писали:

А>Для английского языка проблем нет. Все описано у Солтона. Но что делать с русским??
Хорошая статья про эту проблему здесь.
Ссылка на программу с исходниками в конце.

Всего хорошего.
Виктор.

I>Дык в этом и весь фокус, что заранее словаря нет. Нужно составить список терминов, характеризующих документ. Делается это так: считаем количество слов и отбрасываем самые часто и редко употребляемые. То есть производится индексирование документа. После этого с ним можно работать: осуществлять поиск, классификацию и т.д.

Насколдько мне известно, до конца эта задача на данный момент не решена. В смысле автоматического выделения понятий (учет окончаний, разных частей речи на одном корне и т.д.) без тезауруса.

I>Кстати, в общеизвестных поисковых системах индексирование осуществляют роботы, которые обычно слова вообще не преобразуют. Вот и получается: в запросе падеж слова изменил, и результат запроса изменился. Грустно!

Знаю, у меня про это диплом был

... << RSDN@Home 1.1.0 stable >>

Здравствуйте, Аноним, Вы писали:

А>ПА>Для английского языка проблем нет. Все описано у Солтона. Но что делать с русским??

А русский у Зализняка описан, там что-то около 700 типов морфообразования, вот на его основе можно забацать мофроанализатор, месяца за 3-4

А>ПА>>Для английского языка проблем нет. Все описано у Солтона. Но что делать с русским??

А>А русский у Зализняка описан, там что-то около 700 типов морфообразования, вот на его основе можно забацать мофроанализатор, месяца за 3-4

А можно подробности? Как книжка называется, или ссылку в сети?

Здравствуйте, shurik13, Вы писали:

S>А можно подробности? Как книжка называется, или ссылку в сети?
Тебе, наверное, будет интересен такой топик. Там много ссылок на литературу есть. И на онлайн.

А как же Яндекс? Они себя позиционируют таким образом, что там все с русским чик-пык...
Да и запросы действительно умно обрабатывают.

А словарь можно иметь заранее, что по нему потом определять принадлежность слов.

Здравствуйте, КАА, Вы писали:

КАА>А как же Яндекс? Они себя позиционируют таким образом, что там все с русским чик-пык...
КАА>Да и запросы действительно умно обрабатывают.

Ага. Щаз. слово 'секс' может быть. А вот проверка : есть такая организация ИГРАН.
Ссылок на нее немало. А попробуйте найти их в Яндексе....здесь

NB : это слово не является НИКАКОЙ формой слова "игра"
Вывод : Яндекс вообще не занимается разбором слов, а использует что-то
вроде SOUNDEX адаптированного к особенностям грамматики русского языка.

КАА>А словарь можно иметь заранее, что по нему потом определять принадлежность слов.

Для русского языка эта задача не является контекстно-независимой. Точка.
Можно, правда, выделить некое подмножество языка, на котором задача
разрешима в отрыве от контекста.

Из известных мне языков задача разбора слова всегда контекстно-независима
только в Эсперанто. Что наводит на размышления....

Здравствуйте, <Аноним>, Вы писали:

А>Ага. Щаз. слово 'секс' может быть. А вот проверка : есть такая организация ИГРАН.
А>Ссылок на нее немало. А попробуйте найти их в Яндексе....здесь
Плохой и ничего не доказывающий пример.

А>NB : это слово не является НИКАКОЙ формой слова "игра"
Ну и что? А причем тут слово "игра". "Игран" является формой глагола "играть", что мы и видим на первой странице выдачи: в результатах присутствует формы глагола и деепричастия, но форм существительных — нет и в помине. Так-что, уже посылка к сформированному выводу неверна.

А>Вывод : Яндекс вообще не занимается разбором слов, а использует что-то
А>вроде SOUNDEX адаптированного к особенностям грамматики русского языка.
Это неправда. Словарные морфологии у Яндекса есть, и они ими пользуются. Однако, не только ими. Данный вывод неверен и не соответствует действительности.

Кстати, о SOUNDEX: его можно рассматривать в контекста нечетких морфологий, т.е. несловарных модулей лингвистической поддержки. Вот еще один пример работы одной такой морфологии. Она — бессловарная, но при этом также единогласна в том с обвиняемым Яндексом, что "Игран" к "игра" никакого отношения не имеет.

Здравствуйте, shurik13, Вы писали:

А>ПА>>>Для английского языка проблем нет. Все описано у Солтона. Но что делать с русским??

А>>А русский у Зализняка описан, там что-то около 700 типов морфообразования, вот на его основе можно забацать мофроанализатор, месяца за 3-4

S>А можно подробности? Как книжка называется, или ссылку в сети?

Словарь Зализняка
http://www.artint.ru/packin/abrial/download.htm#ariadna2
в каталоге в когторый распакуешь архивеariadna2setup.exe есть файл ZZZ — это и есть словарь после запуска run.bat появится еще кое что полезное, в овновном промежуточные результаты работы. Еще хорошая ссылка здесь[url=]http://www.rvb.ru/soft/catalogue/catalogue.html, свой первый словарь скачивал откуда-то из перечисленных там ресурсов.

	От:	Аноним
	Дата:	01.12.03 08:17
	Оценка:

	От:	_MarlboroMan_
	Дата:	01.12.03 08:23
	Оценка:

	От:	Socrat
	Дата:	01.12.03 09:08
	Оценка:

	От:	rgl
	Дата:	01.12.03 14:38
	Оценка:	3 (1)

	От:	shurik13
	Дата:	01.12.03 17:33
	Оценка:

	От:	Зверёк Харьковский
	Дата:	02.12.03 11:30
	Оценка:	18 (1)

От:	Kaa	http://blog.meta.ua/users/kaa/
Дата:	03.12.03 11:12
Оценка:

	От:	КАА
	Дата:	05.12.03 16:16
	Оценка: