Мы открыли новый проект по обработке текстов. В первую очередь, мы решили переписать многим известный лемматизатор Алексея Сокирко (проект aot.ru).
Сейчас проект находится в следующем состоянии: реализован лемматизатор и компиляторы словарей для руского и английского языков. Начаты работы по написанию словарей для прибалтийских языков (литовский, рлатышский, эстонский).
Очень нужны люди, которые заинтересованы в развитии проекта. прежде всего те, кто будет использовать, нужно писать документацию и руководства. И много, много всего.
Да, лематизатор уже работает под нагрузкой в рабочих проектах (пол миллиона слов в секунду на средней тачке). Т. е. развивать его скорее нужно в сторону расширения функционала.
Всех желающих приглашаем к участию!
А.
Re: лемматизатор русского и других (европейской группы) язык
У меня такой вопрос. Можно ли использовать вашу библиотеку для построения синтаксических и, возможно, семантических анализаторов ЕЯ применительно к задаче автоматического распознавания речи?
Re[2]: лемматизатор русского и других (европейской группы) я
Здравствуйте, jhng, Вы писали:
>У меня такой вопрос. Можно ли использовать вашу библиотеку для построения синтаксических и, возможно, семантических анализаторов ЕЯ применительно к задаче автоматического распознавания речи?
Прежде всего, наша библиотека -- лингвистическое ядро для текстовых процессоров. Распознавание речи сюда не относится.
Если у вас уже есть текст, то лемматизатор выполняет первичную обработку слов, находит грамматические признаки и пр.
Если у вас будут вопросы по проекту -- пишите на мыло.
А.
Re[3]: лемматизатор русского и других (европейской группы) я
Здравствуйте, pianozoid, Вы писали:
P>Прежде всего, наша библиотека -- лингвистическое ядро для текстовых процессоров. Распознавание речи сюда не относится.
P>Если у вас уже есть текст, то лемматизатор выполняет первичную обработку слов, находит грамматические признаки и пр.
P>Если у вас будут вопросы по проекту -- пишите на мыло.
Вашего мыла в профиле не нашел, поэтому пишу сюда.
Хочу оговорится, распознавание речи — комплексная задача. Ее невозможно решить, придумав какой-нибудь супер-пупер алгоритм, который все делает. Я сейчас не буду вдаваться в детали — это много раз описано в соответсвующей литературе. Мне кажется, что ваша система может быть использована на определенном этапе распознавания.
Конкретный вопрос такой. Вот допустим у меня есть некий текст (возможно с ошибками). Лемматизатор позволить определить какое слово существительное, какое прилагательное, какое глагол и т.д. И на основе этих данных можно определить насколько правильно построено предложение. Я правильно понимаю?
Re[4]: лемматизатор русского и других (европейской группы) я
>Вашего мыла в профиле не нашел, поэтому пишу сюда.
Мыло на сайте есть -- lemmatizer@mail.ru
> Лемматизатор позволить определить какое слово существительное, какое прилагательное, какое глагол и т.д. И на основе этих данных можно определить насколько правильно построено предложение. Я правильно понимаю?
Ну как бы именно для этого он и предназначен, только задача более комплексная. Но вообще, направление правильное.