text mining / meaning extraction
От: Igor Sukhov  
Дата: 12.06.08 13:34
Оценка:
На самом деле я не знаю как это правильно называется — но думаю "text mining/meaning extraction" достаточно близко.

В общем ищу программулину к-й можно подсовывать текст на входе а на выходе получать смысловую "выжимку" этого текста.

Как представлять эту выжимку — делое десятое, но идеально чтобы смысл текста просто подсвечивался на фоне остального.

Самое близкое что я видел по теме это поиск powerset-a по википедии.

Ясно что задача трудно формализуемая и сложно разрешимая — но новерняка ведь энтузиасткие потуги решить были — в открытом доступе даже был браузер от Xerox Research к-й мог вытягивать смысл из веб страниц — но его спрятали уже как пару лет.

Идеального тула на данный момент наверно пока нет — но что-то рабочее думаю можно найти (я пересмотрел кучу ссылок по data/text mining но найденное или не работало или было монстрообразно (200Mb архивы для natural language processing-a).

Т.е. мне бы не библиотеку — а уже готовое приложение в которое можно сделать paste текста и смотреть на результат.

Спасибо.
* thriving in a production environment *
Re: text mining / meaning extraction
От: baranovda Российская Империя  
Дата: 12.06.08 13:43
Оценка: 2 (1)
Здравствуйте, Igor Sukhov, Вы писали:

http://analyst.ru/
Re: text mining / meaning extraction
От: Константин Л. Франция  
Дата: 12.06.08 15:00
Оценка:
Здравствуйте, Igor Sukhov, Вы писали:

по мне так эта задача вообще не решаема в общем случае. не все люди способны понять смысл текста, при всем их абстрактоном мышлении и проч. Если речь идет о поиске хинтов типа "смысл заключается...", то это можно и без них
Re[2]: text mining / meaning extraction
От: Igor Sukhov  
Дата: 12.06.08 23:54
Оценка:
Здравствуйте, baranovda, Вы писали:

B>Здравствуйте, Igor Sukhov, Вы писали:


B>http://analyst.ru/

Скачал демку, открыл тектс из примеров, выбрал Analyse — программа что-то проанализировала.
Подсле этого подсказывает "To summarize the text select "Analysis\Summarize" — дальше куда ни кликал
summary не появляется =(

Видно что программу не обновляли года 2 или 3 — видимо интерес у разработчиков пропал или технологию продали.
* thriving in a production environment *
Re[2]: text mining / meaning extraction
От: Igor Sukhov  
Дата: 12.06.08 23:56
Оценка:
Здравствуйте, Константин Л., Вы писали:

КЛ>по мне так эта задача вообще не решаема в общем случае. не все люди способны понять смысл текста, при всем их абстрактоном мышлении и проч. Если речь идет о поиске хинтов типа "смысл заключается...", то это можно и без них


дарю идею: CTRL + F "смысл заключается" ENTER
* thriving in a production environment *
Re: text mining / meaning extraction
От: B0rG  
Дата: 13.06.08 08:29
Оценка:
Здравствуйте, Igor Sukhov, Вы писали:

IS>Т.е. мне бы не библиотеку — а уже готовое приложение в которое можно сделать paste текста и смотреть на результат.


Ежели бюджет позволяет, можно просто нанять студента соответствующей специальности...

Правда есть одна проблема: для текста из другой предметной области придется искать другого студента...
Re[2]: text mining / meaning extraction
От: Igor Sukhov  
Дата: 13.06.08 10:24
Оценка:
Здравствуйте, B0rG, Вы писали:

IS>>Т.е. мне бы не библиотеку — а уже готовое приложение в которое можно сделать paste текста и смотреть на результат.


К делу:

Вот что я нашел в эти выходные:

http://www.tlab.it/default.php
http://www.textanalysis.info/
http://www.kdnuggets.com/software/text.html (очень много ссылок на софт)
http://www.powerset.com/explore/semhtml/Text_mining?query=text+mining

что-то вообще запустить не удалось, что-то глюкавое, что-то не скачать а денег я без просмотра не дам. Остальное ,в частности open source, я просто не успел понять — так как , еще раз заострю внимание на open source, много програм требуют сложной настройки (например перед анализом текста надо создать базу из похожих данных) и не утруждаются показать это на "пальцах". Поэтому и спрашиваю тех кто уже чем-то пользуется. Ежу понятно, что каких то огромных успехов ожидать пока не приходится — но превзойти мой мега-алгоритм, выделяющий в качестве смысловых — первое и последнее предложения в параграфе, я думаю удалось всем.

BG>Ежели бюджет позволяет, можно просто нанять студента соответствующей специальности...

а лучше студентку, можно без специальности...
* thriving in a production environment *
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.