Re[3]: Поиск словосочетаний в тестке
От: мыщъх США http://nezumi-lab.org
Дата: 14.03.10 10:22
Оценка:
Здравствуйте, pomidor4ik, Вы писали:

P>>>Знает ли кто-то библиотеку или реализацию алгоритма поиска словосочетаний в тексте. Полная формулировка звучит следующим образом

М>>не понял, что у нас есть и что мы ищем. пример можно? например, текст: she is gone, найти: go.

P>Прошк прошения вот более подробно:

P>1). язык поиска русский
сурово. русский это жопа.

P>2). есть большой файл с тестом — я ввожу след. входные данные: "купить сыра", "написать классную программу" ... и т.д.

P>3). На выходе получаем следующее: "Вчера мама купила сыра", "Поев вчерашего купленного сыра(сыра, купленного вчера) у меня нифига не получилось написать изумительную программу на с++ или .net".
на счет "купить сыра" -> "сыра, купленного" это уже сложно получается. пример: "надыбал я украденного сыра, купленного повидла и заточил ништяков". тут нужно уже "парсить" все предложение, что в общем виде никто делать не умеет и навряд ли скоро научиться.

ну а как достаточно скачать любой морфологический словарь и уже искать по нему. как именно искать — тут зависит все от постановки задачи. например, нам нужно быстро искать сотни тысяч словоформ в сетевых пакетах размеров в сотни байт. и потому тут юзается multi-pattern search. а если вам нужно искать несколько словоформ в гигабайте текста — тут совсем другие алгоритмы нужны. и те, и другие, впрочем, реализованы уже давно и не нами. нам главное выбрать правильный.

P>Словосочетания необязательно будут означать какие-либо действия — это могут быть просто имена, названия, которые просто по тексту встречаются в разных падежах.

а еще словарь синонимов вам будет нужен. словарь омонимов так же не помешает. а если учесть, что слова могут быть написаны с ошибками, а искать их все равно надо... тут совсем другие алгоритмы юзаются. о них хорошо написано в книгах по телекоммуникацонным протоколам.
americans fought a war for a freedom. another one to end slavery. so, what do some of them choose to do with their freedom? become slaves.
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.