Знает ли кто-то библиотеку или реализацию алгоритма поиска словосочетаний в тексте. Полная формулировка звучит следующим образом:
на вход подается набор словосочетаний(словосочетание — 2 и больше слов), текст по которому будет производиться поиск.(поиск словосочетания — это не только простое совпадение слов, но учет окончаний приставок и т.д. может еще совпадение по смыслу).
На выходе: можно кастомизировать: только слова, которые совпали, или предложения, в которых встретились данные словосочетания.
Здравствуйте, pomidor4ik, Вы писали:
P>Добрый день.
P>Знает ли кто-то библиотеку или реализацию алгоритма поиска словосочетаний в тексте. Полная формулировка звучит следующим образом
не понял, что у нас есть и что мы ищем. пример можно? например, текст: she is gone, найти: go.
что за язык? что считать совпадением, а что нет? текст: "уж ты, какая жопа!", найти: какать. а, что?! очень даже совпадает
americans fought a war for a freedom. another one to end slavery. so, what do some of them choose to do with their freedom? become slaves.
Здравствуйте, мыщъх, Вы писали:
М>Здравствуйте, pomidor4ik, Вы писали:
P>>Добрый день.
P>>Знает ли кто-то библиотеку или реализацию алгоритма поиска словосочетаний в тексте. Полная формулировка звучит следующим образом М>не понял, что у нас есть и что мы ищем. пример можно? например, текст: she is gone, найти: go.
М>что за язык? что считать совпадением, а что нет? текст: "уж ты, какая жопа!", найти: какать. а, что?! очень даже совпадает
Прошк прошения вот более подробно:
1). язык поиска русский
2). есть большой файл с тестом — я ввожу след. входные данные: "купить сыра", "написать классную программу" ... и т.д.
3). На выходе получаем следующее: "Вчера мама купила сыра", "Поев вчерашего купленного сыра(сыра, купленного вчера) у меня нифига не получилось написать изумительную программу на с++ или .net".
Словосочетания необязательно будут означать какие-либо действия — это могут быть просто имена, названия, которые просто по тексту встречаются в разных падежах.
Здравствуйте, pomidor4ik, Вы писали:
P>>>Знает ли кто-то библиотеку или реализацию алгоритма поиска словосочетаний в тексте. Полная формулировка звучит следующим образом М>>не понял, что у нас есть и что мы ищем. пример можно? например, текст: she is gone, найти: go.
P>Прошк прошения вот более подробно: P>1). язык поиска русский
сурово. русский это жопа.
P>2). есть большой файл с тестом — я ввожу след. входные данные: "купить сыра", "написать классную программу" ... и т.д. P>3). На выходе получаем следующее: "Вчера мама купила сыра", "Поев вчерашего купленного сыра(сыра, купленного вчера) у меня нифига не получилось написать изумительную программу на с++ или .net".
на счет "купить сыра" -> "сыра, купленного" это уже сложно получается. пример: "надыбал я украденного сыра, купленного повидла и заточил ништяков". тут нужно уже "парсить" все предложение, что в общем виде никто делать не умеет и навряд ли скоро научиться.
ну а как достаточно скачать любой морфологический словарь и уже искать по нему. как именно искать — тут зависит все от постановки задачи. например, нам нужно быстро искать сотни тысяч словоформ в сетевых пакетах размеров в сотни байт. и потому тут юзается multi-pattern search. а если вам нужно искать несколько словоформ в гигабайте текста — тут совсем другие алгоритмы нужны. и те, и другие, впрочем, реализованы уже давно и не нами. нам главное выбрать правильный.
P>Словосочетания необязательно будут означать какие-либо действия — это могут быть просто имена, названия, которые просто по тексту встречаются в разных падежах.
а еще словарь синонимов вам будет нужен. словарь омонимов так же не помешает. а если учесть, что слова могут быть написаны с ошибками, а искать их все равно надо... тут совсем другие алгоритмы юзаются. о них хорошо написано в книгах по телекоммуникацонным протоколам.
americans fought a war for a freedom. another one to end slavery. so, what do some of them choose to do with their freedom? become slaves.