Машинная обработка текста
От: igor-shikarev  
Дата: 14.05.11 19:28
Оценка:
Добрый день всем профессионалам!

Встала задача по анализу текста статей. Заказчик пока неточно очертил
задачу, но ему уже точно нужно чтобы результатом анализа была число
встречающейся фразы в тексте. Определить, что если речь идет о
человеке, то положительно или отрицательно говорится в статье о нем.
Кто-нибудь занимался такой задачей или тыкнете носом где можно
почитать об этом. Со стемингом уже разобрался и разобрался со стоп-словами, а вот дальше тупик, не хватает математических знаний
Re: Машинная обработка текста
От: Michael7 Россия  
Дата: 14.05.11 19:52
Оценка:
Здравствуйте, igor-shikarev, Вы писали:

IS>Добрый день всем профессионалам!


IS>Встала задача по анализу текста статей. Заказчик пока неточно очертил

IS>задачу, но ему уже точно нужно чтобы результатом анализа была число
IS>встречающейся фразы в тексте.

Ну это более-менее элементарно.

IS Определить, что если речь идет о
IS>человеке, то положительно или отрицательно говорится в статье о нем.

Я что-то не слышал, чтобы эту задачу полностью успешно кто-то решил. Фактически, дальше анализа положительных или отрицательных слов рядом с именем человека далеко не ушли. При этом даже обработка частицы "не" уже представляет сложности.

IS>Кто-нибудь занимался такой задачей или тыкнете носом где можно

IS>почитать об этом. Со стемингом уже разобрался и разобрался со стоп-словами, а вот дальше тупик, не хватает математических знаний

Если нужно делать морфологический поиск лучше использовать что-то готовое, если конечно задача не стоит задача именно его и реализовать самому.
Re: Машинная обработка текста
От: andy1618 Россия  
Дата: 15.05.11 03:48
Оценка: +1
Здравствуйте, igor-shikarev, Вы писали:

IS>...Заказчик пока неточно очертил задачу


Это плохо. Учитывая сложность данной предметной области, в ваших
интересах максимально чётко прописать все нюансы в ТЗ.


IS>но ему уже точно нужно чтобы результатом анализа была число

IS>встречающейся фразы в тексте.

Уже лучше


IS>Определить, что если речь идет о

IS>человеке, то положительно или отрицательно говорится в статье о нем.

Это нереально. В том смысле, что сделать то можно, но, как в анекдоте
про быстропечатающую секретаршу, будет очень много ошибок
Ведь порою даже человеку сложно разобраться, комплимент про него
написали или изящно наехали


IS>Кто-нибудь занимался такой задачей


Этим уже лет дцать занимаются большие коллективы умных людей


IS>или тыкнете носом где можно почитать об этом.


Вот тут посмотрите (демо, бинарники, исходники):
http://aot.ru/onlinedemo.html
Re: Машинная обработка текста
От: igor-shikarev  
Дата: 15.05.11 06:38
Оценка:
Здравствуйте, igor-shikarev, Вы писали:

Спасибо за ответы! Жаль что никто не занимался вплотую этой темой, буду бороздить просторы инета.
Re[2]: Машинная обработка текста
От: sgenie  
Дата: 15.05.11 21:41
Оценка:
Здравствуйте, igor-shikarev, Вы писали:

IS>Здравствуйте, igor-shikarev, Вы писали:


IS>Спасибо за ответы! Жаль что никто не занимался вплотую этой темой, буду бороздить просторы инета.



Можно попробовать Байесом анализировать — назначить вероятности разным словам, плохим, хорошим и т.д. и посчитать.
Re[2]: Машинная обработка текста
От: b099ard  
Дата: 16.05.11 08:23
Оценка:
Здравствуйте, igor-shikarev, Вы писали:

IS>Здравствуйте, igor-shikarev, Вы писали:


IS>Спасибо за ответы! Жаль что никто не занимался вплотую этой темой, буду бороздить просторы инета.


Я занимался, но пока только свой парсер написал, патентую сейчас
Re[3]: Машинная обработка текста
От: igor-shikarev  
Дата: 16.05.11 08:38
Оценка:
Здравствуйте, b099ard, Вы писали:

b> Я занимался, но пока только свой парсер написал, патентую сейчас

Поздравляю! А что этот парсер может делать?
avalon 1.0rc3 rev 419, zlib 1.2.3
Re[4]: Машинная обработка текста
От: b099ard  
Дата: 16.05.11 08:46
Оценка:
Здравствуйте, igor-shikarev, Вы писали:

IS>Здравствуйте, b099ard, Вы писали:


b>> Я занимался, но пока только свой парсер написал, патентую сейчас

IS>Поздравляю! А что этот парсер может делать?

Парсить
Re[4]: Машинная обработка текста
От: b099ard  
Дата: 16.05.11 08:51
Оценка:
Здравствуйте, igor-shikarev, Вы писали:

IS>Здравствуйте, b099ard, Вы писали:


b>> Я занимался, но пока только свой парсер написал, патентую сейчас

IS>Поздравляю! А что этот парсер может делать?

Вообще планировалось сделать анализатор текста. Разбивать текст на предложения.
Предложения классифицировать по склонению: повествовательное, винительное и т.д.
По временам, содержанию деепричастных оборотов и всему остальному что есть в учебнике
русского языка школьной программы. Соответсвенно вычислить предложения характерезующие
объект действа не составит труда.

А по этим характеристикам можно уже делать оценку объекта.
Ессно свою, субъективную.
Re[5]: Машинная обработка текста
От: igor-shikarev  
Дата: 16.05.11 10:48
Оценка:
Здравствуйте, b099ard, Вы писали:

b> А по этим характеристикам можно уже делать оценку объекта.

b> Ессно свою, субъективную.

А какую вы литературу читали, при написании парсера? Можете привести ссылки?
avalon 1.0rc3 rev 419, zlib 1.2.3
Re[6]: Машинная обработка текста
От: b099ard  
Дата: 16.05.11 14:33
Оценка:
Здравствуйте, igor-shikarev, Вы писали:

IS>Здравствуйте, b099ard, Вы писали:


b>> А по этим характеристикам можно уже делать оценку объекта.

b>> Ессно свою, субъективную.

IS>А какую вы литературу читали, при написании парсера? Можете привести ссылки?


Учебник русского языка для 1-3,5,6,7,8,9,10,11 классов.
И еще один учебник положительные отзывы о котором были найдены в интеренете, автора забыл.
Re: Машинная обработка текста
От: omnomnom  
Дата: 16.05.11 17:19
Оценка:
Здравствуйте, igor-shikarev, Вы писали:

IS>Добрый день всем профессионалам!


IS>Встала задача по анализу текста статей. Заказчик пока неточно очертил

IS>задачу, но ему уже точно нужно чтобы результатом анализа была число
IS>встречающейся фразы в тексте. Определить, что если речь идет о
IS>человеке, то положительно или отрицательно говорится в статье о нем.
IS>Кто-нибудь занимался такой задачей или тыкнете носом где можно
IS>почитать об этом. Со стемингом уже разобрался и разобрался со стоп-словами, а вот дальше тупик, не хватает математических знаний

Я могу ошибаться, но думаю Вам стоит ознакомится с этой работой:

http://nlp.stanford.edu/courses/cs224n/2009/fp/7.pdf

Вкраце — авторы на основе текста/речи делают вывод, республиканец или демократ тот или иной политик.
Мне кажется, задача в целом схожая, хотя конечно могут возникнуть проблемы с адаптацией под русский язык.
Re[2]: Машинная обработка текста
От: igor-shikarev  
Дата: 16.05.11 18:38
Оценка:
Здравствуйте, omnomnom, Вы писали:

o> http://nlp.stanford.edu/courses/cs224n/2009/fp/7.pdf


o> Вкраце — авторы на основе текста/речи делают вывод, республиканец или демократ тот или иной политик.

o> Мне кажется, задача в целом схожая, хотя конечно могут возникнуть проблемы с адаптацией под русский язык.

Спасибо большое, обязательно почитаю!
avalon 1.0rc3 rev 419, zlib 1.2.3
Re: Машинная обработка текста
От: Baudolino  
Дата: 18.05.11 18:53
Оценка:
IS>встречающейся фразы в тексте. Определить, что если речь идет о
IS>человеке, то положительно или отрицательно говорится в статье о нем.
Попробуйте алгоритмы с обучением. Нейросети, N-граммы. Тональность текста (критическая, положительна) в целом ими определяется довольно неплохо (скажем, 80% точность определения вполне реальна). Из библиотек могу порекомендовать Lingpipe (Java).
Re[2]: Машинная обработка текста
От: Baudolino  
Дата: 18.05.11 18:54
Оценка:
M>Фактически, дальше анализа положительных или отрицательных слов рядом с именем человека далеко не ушли.
Если забыть про лексический анализ, и тупо считать вероятности, можно добиться очень хороших результатов.
Re: Машинная обработка текста
От: ettcat США  
Дата: 19.05.11 05:47
Оценка:
> встречающейся фразы в тексте. Определить, что если речь идет о
> человеке, то положительно или отрицательно говорится в статье о нем.

Вот тут есть немного об Opinion Extraction:
http://www.amazon.com/Web-Data-Mining-Data-Centric-Applications/dp/3540378812
Posted via RSDN NNTP Server 2.1 beta
Re[2]: Машинная обработка текста
От: igor-shikarev  
Дата: 19.05.11 13:04
Оценка:
Здравствуйте, Baudolino, Вы писали:

B> Попробуйте алгоритмы с обучением. Нейросети, N-граммы. Тональность текста (критическая, положительна) в целом ими определяется довольно неплохо (скажем, 80% точность определения вполне реальна). Из библиотек могу порекомендовать Lingpipe (Java).


Спасибо большое за конкретную библиотеку, как раз копаюсь в Java, мне для практики очень пригодится.
avalon 1.0rc3 rev 419, zlib 1.2.3
Re[3]: Машинная обработка текста
От: igor-shikarev  
Дата: 19.05.11 13:04
Оценка:
Здравствуйте, Baudolino, Вы писали:

B> Если забыть про лексический анализ, и тупо считать вероятности, можно добиться очень хороших результатов.

Я тоже склоняюсь к мысли, если "тупо" посчитать количество отрицательных словооборотов и количество положительных словооборотов, то можно с некоторой вероятностью сказать, какой оттенок носит текст.
avalon 1.0rc3 rev 419, zlib 1.2.3
Re: Машинная обработка текста
От: Аноним  
Дата: 20.05.11 08:31
Оценка:
Здравствуйте, igor-shikarev, Вы писали:

IS>Добрый день всем профессионалам!


IS>Встала задача по анализу текста статей. Заказчик пока неточно очертил

IS>задачу, но ему уже точно нужно чтобы результатом анализа была число
IS>встречающейся фразы в тексте. Определить, что если речь идет о
IS>человеке, то положительно или отрицательно говорится в статье о нем.
IS>Кто-нибудь занимался такой задачей или тыкнете носом где можно
IS>почитать об этом. Со стемингом уже разобрался и разобрался со стоп-словами, а вот дальше тупик, не хватает математических знаний


))))))))))
Определить, что если речь идет о человеке — это называется "объект высказывания"
то положительно или отрицательно говорится в статье о нем — это называется "тональность по отношению к объекту высказывания"
— вообще подобные топики сильно улыбають — не поймите меня неправильно, igor-shikarev, я это темой немного занимаюсь — там за простым её названием "анализ текста статей" такой айсберг скырт ой-ёй-ёй, уверен что с кандачка даже близко приемлемого результата не будет ))))))))
Re: Машинная обработка текста
От: Аноним  
Дата: 20.05.11 08:38
Оценка:
Здравствуйте, igor-shikarev, Вы писали:

да, вот если интересно — посмотри тестовые ресурсы, что мы делаем, выставленные наружу:
(подчеркиваю — тестовые)
http://tm.i-teco.ru/tm/
http://tm.i-teco.ru/ds/
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.