Встала задача по анализу текста статей. Заказчик пока неточно очертил
задачу, но ему уже точно нужно чтобы результатом анализа была число
встречающейся фразы в тексте. Определить, что если речь идет о
человеке, то положительно или отрицательно говорится в статье о нем.
Кто-нибудь занимался такой задачей или тыкнете носом где можно
почитать об этом. Со стемингом уже разобрался и разобрался со стоп-словами, а вот дальше тупик, не хватает математических знаний
Здравствуйте, igor-shikarev, Вы писали:
IS>Добрый день всем профессионалам!
IS>Встала задача по анализу текста статей. Заказчик пока неточно очертил IS>задачу, но ему уже точно нужно чтобы результатом анализа была число IS>встречающейся фразы в тексте.
Ну это более-менее элементарно.
IS Определить, что если речь идет о IS>человеке, то положительно или отрицательно говорится в статье о нем.
Я что-то не слышал, чтобы эту задачу полностью успешно кто-то решил. Фактически, дальше анализа положительных или отрицательных слов рядом с именем человека далеко не ушли. При этом даже обработка частицы "не" уже представляет сложности.
IS>Кто-нибудь занимался такой задачей или тыкнете носом где можно IS>почитать об этом. Со стемингом уже разобрался и разобрался со стоп-словами, а вот дальше тупик, не хватает математических знаний
Если нужно делать морфологический поиск лучше использовать что-то готовое, если конечно задача не стоит задача именно его и реализовать самому.
Здравствуйте, igor-shikarev, Вы писали:
IS>...Заказчик пока неточно очертил задачу
Это плохо. Учитывая сложность данной предметной области, в ваших
интересах максимально чётко прописать все нюансы в ТЗ.
IS>но ему уже точно нужно чтобы результатом анализа была число IS>встречающейся фразы в тексте.
Уже лучше
IS>Определить, что если речь идет о IS>человеке, то положительно или отрицательно говорится в статье о нем.
Это нереально. В том смысле, что сделать то можно, но, как в анекдоте
про быстропечатающую секретаршу, будет очень много ошибок
Ведь порою даже человеку сложно разобраться, комплимент про него
написали или изящно наехали
IS>Кто-нибудь занимался такой задачей
Этим уже лет дцать занимаются большие коллективы умных людей
Здравствуйте, igor-shikarev, Вы писали:
IS>Здравствуйте, igor-shikarev, Вы писали:
IS>Спасибо за ответы! Жаль что никто не занимался вплотую этой темой, буду бороздить просторы инета.
Можно попробовать Байесом анализировать — назначить вероятности разным словам, плохим, хорошим и т.д. и посчитать.
Здравствуйте, igor-shikarev, Вы писали:
IS>Здравствуйте, igor-shikarev, Вы писали:
IS>Спасибо за ответы! Жаль что никто не занимался вплотую этой темой, буду бороздить просторы инета.
Я занимался, но пока только свой парсер написал, патентую сейчас
Здравствуйте, igor-shikarev, Вы писали:
IS>Здравствуйте, b099ard, Вы писали:
b>> Я занимался, но пока только свой парсер написал, патентую сейчас IS>Поздравляю! А что этот парсер может делать?
Здравствуйте, igor-shikarev, Вы писали:
IS>Здравствуйте, b099ard, Вы писали:
b>> Я занимался, но пока только свой парсер написал, патентую сейчас IS>Поздравляю! А что этот парсер может делать?
Вообще планировалось сделать анализатор текста. Разбивать текст на предложения.
Предложения классифицировать по склонению: повествовательное, винительное и т.д.
По временам, содержанию деепричастных оборотов и всему остальному что есть в учебнике
русского языка школьной программы. Соответсвенно вычислить предложения характерезующие
объект действа не составит труда.
А по этим характеристикам можно уже делать оценку объекта.
Ессно свою, субъективную.
Здравствуйте, igor-shikarev, Вы писали:
IS>Здравствуйте, b099ard, Вы писали:
b>> А по этим характеристикам можно уже делать оценку объекта. b>> Ессно свою, субъективную.
IS>А какую вы литературу читали, при написании парсера? Можете привести ссылки?
Учебник русского языка для 1-3,5,6,7,8,9,10,11 классов.
И еще один учебник положительные отзывы о котором были найдены в интеренете, автора забыл.
Здравствуйте, igor-shikarev, Вы писали:
IS>Добрый день всем профессионалам!
IS>Встала задача по анализу текста статей. Заказчик пока неточно очертил IS>задачу, но ему уже точно нужно чтобы результатом анализа была число IS>встречающейся фразы в тексте. Определить, что если речь идет о IS>человеке, то положительно или отрицательно говорится в статье о нем. IS>Кто-нибудь занимался такой задачей или тыкнете носом где можно IS>почитать об этом. Со стемингом уже разобрался и разобрался со стоп-словами, а вот дальше тупик, не хватает математических знаний
Я могу ошибаться, но думаю Вам стоит ознакомится с этой работой:
Вкраце — авторы на основе текста/речи делают вывод, республиканец или демократ тот или иной политик.
Мне кажется, задача в целом схожая, хотя конечно могут возникнуть проблемы с адаптацией под русский язык.
Здравствуйте, omnomnom, Вы писали:
o> http://nlp.stanford.edu/courses/cs224n/2009/fp/7.pdf
o> Вкраце — авторы на основе текста/речи делают вывод, республиканец или демократ тот или иной политик. o> Мне кажется, задача в целом схожая, хотя конечно могут возникнуть проблемы с адаптацией под русский язык.
IS>встречающейся фразы в тексте. Определить, что если речь идет о IS>человеке, то положительно или отрицательно говорится в статье о нем.
Попробуйте алгоритмы с обучением. Нейросети, N-граммы. Тональность текста (критическая, положительна) в целом ими определяется довольно неплохо (скажем, 80% точность определения вполне реальна). Из библиотек могу порекомендовать Lingpipe (Java).
M>Фактически, дальше анализа положительных или отрицательных слов рядом с именем человека далеко не ушли.
Если забыть про лексический анализ, и тупо считать вероятности, можно добиться очень хороших результатов.
Здравствуйте, Baudolino, Вы писали:
B> Попробуйте алгоритмы с обучением. Нейросети, N-граммы. Тональность текста (критическая, положительна) в целом ими определяется довольно неплохо (скажем, 80% точность определения вполне реальна). Из библиотек могу порекомендовать Lingpipe (Java).
Спасибо большое за конкретную библиотеку, как раз копаюсь в Java, мне для практики очень пригодится.
Здравствуйте, Baudolino, Вы писали:
B> Если забыть про лексический анализ, и тупо считать вероятности, можно добиться очень хороших результатов.
Я тоже склоняюсь к мысли, если "тупо" посчитать количество отрицательных словооборотов и количество положительных словооборотов, то можно с некоторой вероятностью сказать, какой оттенок носит текст.
Здравствуйте, igor-shikarev, Вы писали:
IS>Добрый день всем профессионалам!
IS>Встала задача по анализу текста статей. Заказчик пока неточно очертил IS>задачу, но ему уже точно нужно чтобы результатом анализа была число IS>встречающейся фразы в тексте. Определить, что если речь идет о IS>человеке, то положительно или отрицательно говорится в статье о нем. IS>Кто-нибудь занимался такой задачей или тыкнете носом где можно IS>почитать об этом. Со стемингом уже разобрался и разобрался со стоп-словами, а вот дальше тупик, не хватает математических знаний
))))))))))
Определить, что если речь идет о человеке — это называется "объект высказывания"
то положительно или отрицательно говорится в статье о нем — это называется "тональность по отношению к объекту высказывания"
— вообще подобные топики сильно улыбають — не поймите меня неправильно, igor-shikarev, я это темой немного занимаюсь — там за простым её названием "анализ текста статей" такой айсберг скырт ой-ёй-ёй, уверен что с кандачка даже близко приемлемого результата не будет ))))))))