Re: Машинная обработка текста - Алгоритмы

Добрый день всем профессионалам!

Встала задача по анализу текста статей. Заказчик пока неточно очертил
задачу, но ему уже точно нужно чтобы результатом анализа была число
встречающейся фразы в тексте. Определить, что если речь идет о
человеке, то положительно или отрицательно говорится в статье о нем.
Кто-нибудь занимался такой задачей или тыкнете носом где можно
почитать об этом. Со стемингом уже разобрался и разобрался со стоп-словами, а вот дальше тупик, не хватает математических знаний

Здравствуйте, igor-shikarev, Вы писали:

IS>Добрый день всем профессионалам!

IS>Встала задача по анализу текста статей. Заказчик пока неточно очертил
IS>задачу, но ему уже точно нужно чтобы результатом анализа была число
IS>встречающейся фразы в тексте.

Ну это более-менее элементарно.

IS Определить, что если речь идет о
IS>человеке, то положительно или отрицательно говорится в статье о нем.

Я что-то не слышал, чтобы эту задачу полностью успешно кто-то решил. Фактически, дальше анализа положительных или отрицательных слов рядом с именем человека далеко не ушли. При этом даже обработка частицы "не" уже представляет сложности.

IS>Кто-нибудь занимался такой задачей или тыкнете носом где можно
IS>почитать об этом. Со стемингом уже разобрался и разобрался со стоп-словами, а вот дальше тупик, не хватает математических знаний

Если нужно делать морфологический поиск лучше использовать что-то готовое, если конечно задача не стоит задача именно его и реализовать самому.

Здравствуйте, igor-shikarev, Вы писали:

IS>...Заказчик пока неточно очертил задачу

Это плохо. Учитывая сложность данной предметной области, в ваших
интересах максимально чётко прописать все нюансы в ТЗ.

IS>но ему уже точно нужно чтобы результатом анализа была число
IS>встречающейся фразы в тексте.

Уже лучше

IS>Определить, что если речь идет о
IS>человеке, то положительно или отрицательно говорится в статье о нем.

Это нереально. В том смысле, что сделать то можно, но, как в анекдоте
про быстропечатающую секретаршу, будет очень много ошибок

Ведь порою даже человеку сложно разобраться, комплимент про него
написали или изящно наехали

IS>Кто-нибудь занимался такой задачей

Этим уже лет дцать занимаются большие коллективы умных людей

IS>или тыкнете носом где можно почитать об этом.

Вот тут посмотрите (демо, бинарники, исходники):
http://aot.ru/onlinedemo.html

Здравствуйте, igor-shikarev, Вы писали:

Спасибо за ответы! Жаль что никто не занимался вплотую этой темой, буду бороздить просторы инета.

Здравствуйте, igor-shikarev, Вы писали:

IS>Здравствуйте, igor-shikarev, Вы писали:

IS>Спасибо за ответы! Жаль что никто не занимался вплотую этой темой, буду бороздить просторы инета.

Можно попробовать Байесом анализировать — назначить вероятности разным словам, плохим, хорошим и т.д. и посчитать.

Здравствуйте, igor-shikarev, Вы писали:

IS>Здравствуйте, igor-shikarev, Вы писали:

IS>Спасибо за ответы! Жаль что никто не занимался вплотую этой темой, буду бороздить просторы инета.

Я занимался, но пока только свой парсер написал, патентую сейчас

Здравствуйте, b099ard, Вы писали:

b> Я занимался, но пока только свой парсер написал, патентую сейчас

Поздравляю! А что этот парсер может делать?

avalon 1.0rc3 rev 419, zlib 1.2.3

Здравствуйте, igor-shikarev, Вы писали:

IS>Здравствуйте, b099ard, Вы писали:

b>> Я занимался, но пока только свой парсер написал, патентую сейчас

IS>Поздравляю! А что этот парсер может делать?

Парсить

Здравствуйте, igor-shikarev, Вы писали:

IS>Здравствуйте, b099ard, Вы писали:

b>> Я занимался, но пока только свой парсер написал, патентую сейчас

IS>Поздравляю! А что этот парсер может делать?

Вообще планировалось сделать анализатор текста. Разбивать текст на предложения.
Предложения классифицировать по склонению: повествовательное, винительное и т.д.
По временам, содержанию деепричастных оборотов и всему остальному что есть в учебнике
русского языка школьной программы. Соответсвенно вычислить предложения характерезующие
объект действа не составит труда.

А по этим характеристикам можно уже делать оценку объекта.
Ессно свою, субъективную.

Здравствуйте, b099ard, Вы писали:

b> А по этим характеристикам можно уже делать оценку объекта.
b> Ессно свою, субъективную.

А какую вы литературу читали, при написании парсера? Можете привести ссылки?

avalon 1.0rc3 rev 419, zlib 1.2.3

Здравствуйте, igor-shikarev, Вы писали:

IS>Здравствуйте, b099ard, Вы писали:

b>> А по этим характеристикам можно уже делать оценку объекта.
b>> Ессно свою, субъективную.

IS>А какую вы литературу читали, при написании парсера? Можете привести ссылки?

Учебник русского языка для 1-3,5,6,7,8,9,10,11 классов.
И еще один учебник положительные отзывы о котором были найдены в интеренете, автора забыл.

Здравствуйте, igor-shikarev, Вы писали:

IS>Добрый день всем профессионалам!

IS>Встала задача по анализу текста статей. Заказчик пока неточно очертил
IS>задачу, но ему уже точно нужно чтобы результатом анализа была число
IS>встречающейся фразы в тексте. Определить, что если речь идет о
IS>человеке, то положительно или отрицательно говорится в статье о нем.
IS>Кто-нибудь занимался такой задачей или тыкнете носом где можно
IS>почитать об этом. Со стемингом уже разобрался и разобрался со стоп-словами, а вот дальше тупик, не хватает математических знаний

Я могу ошибаться, но думаю Вам стоит ознакомится с этой работой:

http://nlp.stanford.edu/courses/cs224n/2009/fp/7.pdf

Вкраце — авторы на основе текста/речи делают вывод, республиканец или демократ тот или иной политик.
Мне кажется, задача в целом схожая, хотя конечно могут возникнуть проблемы с адаптацией под русский язык.

Здравствуйте, omnomnom, Вы писали:

o> http://nlp.stanford.edu/courses/cs224n/2009/fp/7.pdf

o> Вкраце — авторы на основе текста/речи делают вывод, республиканец или демократ тот или иной политик.
o> Мне кажется, задача в целом схожая, хотя конечно могут возникнуть проблемы с адаптацией под русский язык.

Спасибо большое, обязательно почитаю!

avalon 1.0rc3 rev 419, zlib 1.2.3

IS>встречающейся фразы в тексте. Определить, что если речь идет о
IS>человеке, то положительно или отрицательно говорится в статье о нем.
Попробуйте алгоритмы с обучением. Нейросети, N-граммы. Тональность текста (критическая, положительна) в целом ими определяется довольно неплохо (скажем, 80% точность определения вполне реальна). Из библиотек могу порекомендовать Lingpipe (Java).

M>Фактически, дальше анализа положительных или отрицательных слов рядом с именем человека далеко не ушли.
Если забыть про лексический анализ, и тупо считать вероятности, можно добиться очень хороших результатов.

> встречающейся фразы в тексте. Определить, что если речь идет о
> человеке, то положительно или отрицательно говорится в статье о нем.

Вот тут есть немного об Opinion Extraction:
http://www.amazon.com/Web-Data-Mining-Data-Centric-Applications/dp/3540378812

Posted via RSDN NNTP Server 2.1 beta

Здравствуйте, Baudolino, Вы писали:

B> Попробуйте алгоритмы с обучением. Нейросети, N-граммы. Тональность текста (критическая, положительна) в целом ими определяется довольно неплохо (скажем, 80% точность определения вполне реальна). Из библиотек могу порекомендовать Lingpipe (Java).

Спасибо большое за конкретную библиотеку, как раз копаюсь в Java, мне для практики очень пригодится.

avalon 1.0rc3 rev 419, zlib 1.2.3

Здравствуйте, Baudolino, Вы писали:

B> Если забыть про лексический анализ, и тупо считать вероятности, можно добиться очень хороших результатов.
Я тоже склоняюсь к мысли, если "тупо" посчитать количество отрицательных словооборотов и количество положительных словооборотов, то можно с некоторой вероятностью сказать, какой оттенок носит текст.

avalon 1.0rc3 rev 419, zlib 1.2.3

Здравствуйте, igor-shikarev, Вы писали:

IS>Добрый день всем профессионалам!

IS>Встала задача по анализу текста статей. Заказчик пока неточно очертил
IS>задачу, но ему уже точно нужно чтобы результатом анализа была число
IS>встречающейся фразы в тексте. Определить, что если речь идет о
IS>человеке, то положительно или отрицательно говорится в статье о нем.
IS>Кто-нибудь занимался такой задачей или тыкнете носом где можно
IS>почитать об этом. Со стемингом уже разобрался и разобрался со стоп-словами, а вот дальше тупик, не хватает математических знаний

))))))))))

Определить, что если речь идет о человеке — это называется "объект высказывания"
то положительно или отрицательно говорится в статье о нем — это называется "тональность по отношению к объекту высказывания"
— вообще подобные топики сильно улыбають — не поймите меня неправильно, igor-shikarev, я это темой немного занимаюсь — там за простым её названием "анализ текста статей" такой айсберг скырт ой-ёй-ёй, уверен что с кандачка даже близко приемлемого результата не будет ))))))))

Здравствуйте, igor-shikarev, Вы писали:

да, вот если интересно — посмотри тестовые ресурсы, что мы делаем, выставленные наружу:
(подчеркиваю — тестовые)
http://tm.i-teco.ru/tm/
http://tm.i-teco.ru/ds/

	От:	igor-shikarev
	Дата:	14.05.11 19:28
	Оценка:

	От:	Michael7
	Дата:	14.05.11 19:52
	Оценка:

	От:	andy1618
	Дата:	15.05.11 03:48
	Оценка:	+1

	От:	igor-shikarev
	Дата:	15.05.11 06:38
	Оценка:

	От:	sgenie
	Дата:	15.05.11 21:41
	Оценка:

	От:	b099ard
	Дата:	16.05.11 08:23
	Оценка:

	От:	b099ard
	Дата:	16.05.11 08:46
	Оценка:

	От:	b099ard
	Дата:	16.05.11 08:51
	Оценка:

	От:	b099ard
	Дата:	16.05.11 14:33
	Оценка: