Здравствуйте, pomidor4ik, Вы писали:
P>>>Знает ли кто-то библиотеку или реализацию алгоритма поиска словосочетаний в тексте. Полная формулировка звучит следующим образом М>>не понял, что у нас есть и что мы ищем. пример можно? например, текст: she is gone, найти: go.
P>Прошк прошения вот более подробно: P>1). язык поиска русский
сурово. русский это жопа.
P>2). есть большой файл с тестом — я ввожу след. входные данные: "купить сыра", "написать классную программу" ... и т.д. P>3). На выходе получаем следующее: "Вчера мама купила сыра", "Поев вчерашего купленного сыра(сыра, купленного вчера) у меня нифига не получилось написать изумительную программу на с++ или .net".
на счет "купить сыра" -> "сыра, купленного" это уже сложно получается. пример: "надыбал я украденного сыра, купленного повидла и заточил ништяков". тут нужно уже "парсить" все предложение, что в общем виде никто делать не умеет и навряд ли скоро научиться.
ну а как достаточно скачать любой морфологический словарь и уже искать по нему. как именно искать — тут зависит все от постановки задачи. например, нам нужно быстро искать сотни тысяч словоформ в сетевых пакетах размеров в сотни байт. и потому тут юзается multi-pattern search. а если вам нужно искать несколько словоформ в гигабайте текста — тут совсем другие алгоритмы нужны. и те, и другие, впрочем, реализованы уже давно и не нами. нам главное выбрать правильный.
P>Словосочетания необязательно будут означать какие-либо действия — это могут быть просто имена, названия, которые просто по тексту встречаются в разных падежах.
а еще словарь синонимов вам будет нужен. словарь омонимов так же не помешает. а если учесть, что слова могут быть написаны с ошибками, а искать их все равно надо... тут совсем другие алгоритмы юзаются. о них хорошо написано в книгах по телекоммуникацонным протоколам.
americans fought a war for a freedom. another one to end slavery. so, what do some of them choose to do with their freedom? become slaves.