лемматизатор русского и других (европейской группы) языков
От: pianozoid  
Дата: 14.10.07 19:53
Оценка:
Уважаемые коллеги!

Мы открыли новый проект по обработке текстов. В первую очередь, мы решили переписать многим известный лемматизатор Алексея Сокирко (проект aot.ru).

Сейчас проект находится в следующем состоянии: реализован лемматизатор и компиляторы словарей для руского и английского языков. Начаты работы по написанию словарей для прибалтийских языков (литовский, рлатышский, эстонский).

Сайт проекта: http://lemmatizer.org/

Очень нужны люди, которые заинтересованы в развитии проекта. прежде всего те, кто будет использовать, нужно писать документацию и руководства. И много, много всего.

Да, лематизатор уже работает под нагрузкой в рабочих проектах (пол миллиона слов в секунду на средней тачке). Т. е. развивать его скорее нужно в сторону расширения функционала.

Всех желающих приглашаем к участию!

А.
Re: лемматизатор русского и других (европейской группы) язык
От: jhng Россия  
Дата: 15.10.07 12:31
Оценка:
У меня такой вопрос. Можно ли использовать вашу библиотеку для построения синтаксических и, возможно, семантических анализаторов ЕЯ применительно к задаче автоматического распознавания речи?
Re[2]: лемматизатор русского и других (европейской группы) я
От: pianozoid  
Дата: 15.10.07 13:45
Оценка:
Здравствуйте, jhng, Вы писали:

>У меня такой вопрос. Можно ли использовать вашу библиотеку для построения синтаксических и, возможно, семантических анализаторов ЕЯ применительно к задаче автоматического распознавания речи?


Прежде всего, наша библиотека -- лингвистическое ядро для текстовых процессоров. Распознавание речи сюда не относится.

Если у вас уже есть текст, то лемматизатор выполняет первичную обработку слов, находит грамматические признаки и пр.

Если у вас будут вопросы по проекту -- пишите на мыло.

А.
Re[3]: лемматизатор русского и других (европейской группы) я
От: jhng Россия  
Дата: 15.10.07 19:18
Оценка:
Здравствуйте, pianozoid, Вы писали:

P>Прежде всего, наша библиотека -- лингвистическое ядро для текстовых процессоров. Распознавание речи сюда не относится.


P>Если у вас уже есть текст, то лемматизатор выполняет первичную обработку слов, находит грамматические признаки и пр.


P>Если у вас будут вопросы по проекту -- пишите на мыло.


Вашего мыла в профиле не нашел, поэтому пишу сюда.
Хочу оговорится, распознавание речи — комплексная задача. Ее невозможно решить, придумав какой-нибудь супер-пупер алгоритм, который все делает. Я сейчас не буду вдаваться в детали — это много раз описано в соответсвующей литературе. Мне кажется, что ваша система может быть использована на определенном этапе распознавания.

Конкретный вопрос такой. Вот допустим у меня есть некий текст (возможно с ошибками). Лемматизатор позволить определить какое слово существительное, какое прилагательное, какое глагол и т.д. И на основе этих данных можно определить насколько правильно построено предложение. Я правильно понимаю?
Re[4]: лемматизатор русского и других (европейской группы) я
От: pianozoid  
Дата: 16.10.07 09:02
Оценка:
>Вашего мыла в профиле не нашел, поэтому пишу сюда.

Мыло на сайте есть -- lemmatizer@mail.ru

> Лемматизатор позволить определить какое слово существительное, какое прилагательное, какое глагол и т.д. И на основе этих данных можно определить насколько правильно построено предложение. Я правильно понимаю?


Ну как бы именно для этого он и предназначен, только задача более комплексная. Но вообще, направление правильное.
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.