На самом деле я не знаю как это правильно называется — но думаю "text mining/meaning extraction" достаточно близко.
В общем ищу программулину к-й можно подсовывать текст на входе а на выходе получать смысловую "выжимку" этого текста.
Как представлять эту выжимку — делое десятое, но идеально чтобы смысл текста просто подсвечивался на фоне остального.
Самое близкое что я видел по теме это поиск powerset-a по википедии.
Ясно что задача трудно формализуемая и сложно разрешимая — но новерняка ведь энтузиасткие потуги решить были — в открытом доступе даже был браузер от Xerox Research к-й мог вытягивать смысл из веб страниц — но его спрятали уже как пару лет.
Идеального тула на данный момент наверно пока нет — но что-то рабочее думаю можно найти (я пересмотрел кучу ссылок по data/text mining но найденное или не работало или было монстрообразно (200Mb архивы для natural language processing-a).
Т.е. мне бы не библиотеку — а уже готовое приложение в которое можно сделать paste текста и смотреть на результат.
по мне так эта задача вообще не решаема в общем случае. не все люди способны понять смысл текста, при всем их абстрактоном мышлении и проч. Если речь идет о поиске хинтов типа "смысл заключается...", то это можно и без них
Здравствуйте, baranovda, Вы писали:
B>Здравствуйте, Igor Sukhov, Вы писали:
B>http://analyst.ru/
Скачал демку, открыл тектс из примеров, выбрал Analyse — программа что-то проанализировала.
Подсле этого подсказывает "To summarize the text select "Analysis\Summarize" — дальше куда ни кликал
summary не появляется =(
Видно что программу не обновляли года 2 или 3 — видимо интерес у разработчиков пропал или технологию продали.
Здравствуйте, Константин Л., Вы писали:
КЛ>по мне так эта задача вообще не решаема в общем случае. не все люди способны понять смысл текста, при всем их абстрактоном мышлении и проч. Если речь идет о поиске хинтов типа "смысл заключается...", то это можно и без них
Здравствуйте, Igor Sukhov, Вы писали:
IS>Т.е. мне бы не библиотеку — а уже готовое приложение в которое можно сделать paste текста и смотреть на результат.
Ежели бюджет позволяет, можно просто нанять студента соответствующей специальности...
Правда есть одна проблема: для текста из другой предметной области придется искать другого студента...
что-то вообще запустить не удалось, что-то глюкавое, что-то не скачать а денег я без просмотра не дам. Остальное ,в частности open source, я просто не успел понять — так как , еще раз заострю внимание на open source, много програм требуют сложной настройки (например перед анализом текста надо создать базу из похожих данных) и не утруждаются показать это на "пальцах". Поэтому и спрашиваю тех кто уже чем-то пользуется. Ежу понятно, что каких то огромных успехов ожидать пока не приходится — но превзойти мой мега-алгоритм, выделяющий в качестве смысловых — первое и последнее предложения в параграфе, я думаю удалось всем.
BG>Ежели бюджет позволяет, можно просто нанять студента соответствующей специальности...
а лучше студентку, можно без специальности...