Здравствуйте, igor-shikarev, Вы писали:
IS>...Заказчик пока неточно очертил задачу
Это плохо. Учитывая сложность данной предметной области, в ваших
интересах максимально чётко прописать все нюансы в ТЗ.
IS>но ему уже точно нужно чтобы результатом анализа была число IS>встречающейся фразы в тексте.
Уже лучше
IS>Определить, что если речь идет о IS>человеке, то положительно или отрицательно говорится в статье о нем.
Это нереально. В том смысле, что сделать то можно, но, как в анекдоте
про быстропечатающую секретаршу, будет очень много ошибок
Ведь порою даже человеку сложно разобраться, комплимент про него
написали или изящно наехали
IS>Кто-нибудь занимался такой задачей
Этим уже лет дцать занимаются большие коллективы умных людей
Встала задача по анализу текста статей. Заказчик пока неточно очертил
задачу, но ему уже точно нужно чтобы результатом анализа была число
встречающейся фразы в тексте. Определить, что если речь идет о
человеке, то положительно или отрицательно говорится в статье о нем.
Кто-нибудь занимался такой задачей или тыкнете носом где можно
почитать об этом. Со стемингом уже разобрался и разобрался со стоп-словами, а вот дальше тупик, не хватает математических знаний
Здравствуйте, igor-shikarev, Вы писали:
IS>Добрый день всем профессионалам!
IS>Встала задача по анализу текста статей. Заказчик пока неточно очертил IS>задачу, но ему уже точно нужно чтобы результатом анализа была число IS>встречающейся фразы в тексте.
Ну это более-менее элементарно.
IS Определить, что если речь идет о IS>человеке, то положительно или отрицательно говорится в статье о нем.
Я что-то не слышал, чтобы эту задачу полностью успешно кто-то решил. Фактически, дальше анализа положительных или отрицательных слов рядом с именем человека далеко не ушли. При этом даже обработка частицы "не" уже представляет сложности.
IS>Кто-нибудь занимался такой задачей или тыкнете носом где можно IS>почитать об этом. Со стемингом уже разобрался и разобрался со стоп-словами, а вот дальше тупик, не хватает математических знаний
Если нужно делать морфологический поиск лучше использовать что-то готовое, если конечно задача не стоит задача именно его и реализовать самому.
Здравствуйте, igor-shikarev, Вы писали:
IS>Здравствуйте, igor-shikarev, Вы писали:
IS>Спасибо за ответы! Жаль что никто не занимался вплотую этой темой, буду бороздить просторы инета.
Можно попробовать Байесом анализировать — назначить вероятности разным словам, плохим, хорошим и т.д. и посчитать.
Здравствуйте, igor-shikarev, Вы писали:
IS>Здравствуйте, igor-shikarev, Вы писали:
IS>Спасибо за ответы! Жаль что никто не занимался вплотую этой темой, буду бороздить просторы инета.
Я занимался, но пока только свой парсер написал, патентую сейчас
Здравствуйте, igor-shikarev, Вы писали:
IS>Здравствуйте, b099ard, Вы писали:
b>> Я занимался, но пока только свой парсер написал, патентую сейчас IS>Поздравляю! А что этот парсер может делать?
Здравствуйте, igor-shikarev, Вы писали:
IS>Здравствуйте, b099ard, Вы писали:
b>> Я занимался, но пока только свой парсер написал, патентую сейчас IS>Поздравляю! А что этот парсер может делать?
Вообще планировалось сделать анализатор текста. Разбивать текст на предложения.
Предложения классифицировать по склонению: повествовательное, винительное и т.д.
По временам, содержанию деепричастных оборотов и всему остальному что есть в учебнике
русского языка школьной программы. Соответсвенно вычислить предложения характерезующие
объект действа не составит труда.
А по этим характеристикам можно уже делать оценку объекта.
Ессно свою, субъективную.
Здравствуйте, igor-shikarev, Вы писали:
IS>Здравствуйте, b099ard, Вы писали:
b>> А по этим характеристикам можно уже делать оценку объекта. b>> Ессно свою, субъективную.
IS>А какую вы литературу читали, при написании парсера? Можете привести ссылки?
Учебник русского языка для 1-3,5,6,7,8,9,10,11 классов.
И еще один учебник положительные отзывы о котором были найдены в интеренете, автора забыл.
Здравствуйте, igor-shikarev, Вы писали:
IS>Добрый день всем профессионалам!
IS>Встала задача по анализу текста статей. Заказчик пока неточно очертил IS>задачу, но ему уже точно нужно чтобы результатом анализа была число IS>встречающейся фразы в тексте. Определить, что если речь идет о IS>человеке, то положительно или отрицательно говорится в статье о нем. IS>Кто-нибудь занимался такой задачей или тыкнете носом где можно IS>почитать об этом. Со стемингом уже разобрался и разобрался со стоп-словами, а вот дальше тупик, не хватает математических знаний
Я могу ошибаться, но думаю Вам стоит ознакомится с этой работой:
Вкраце — авторы на основе текста/речи делают вывод, республиканец или демократ тот или иной политик.
Мне кажется, задача в целом схожая, хотя конечно могут возникнуть проблемы с адаптацией под русский язык.
Здравствуйте, omnomnom, Вы писали:
o> http://nlp.stanford.edu/courses/cs224n/2009/fp/7.pdf
o> Вкраце — авторы на основе текста/речи делают вывод, республиканец или демократ тот или иной политик. o> Мне кажется, задача в целом схожая, хотя конечно могут возникнуть проблемы с адаптацией под русский язык.
IS>встречающейся фразы в тексте. Определить, что если речь идет о IS>человеке, то положительно или отрицательно говорится в статье о нем.
Попробуйте алгоритмы с обучением. Нейросети, N-граммы. Тональность текста (критическая, положительна) в целом ими определяется довольно неплохо (скажем, 80% точность определения вполне реальна). Из библиотек могу порекомендовать Lingpipe (Java).
M>Фактически, дальше анализа положительных или отрицательных слов рядом с именем человека далеко не ушли.
Если забыть про лексический анализ, и тупо считать вероятности, можно добиться очень хороших результатов.
Здравствуйте, Baudolino, Вы писали:
B> Попробуйте алгоритмы с обучением. Нейросети, N-граммы. Тональность текста (критическая, положительна) в целом ими определяется довольно неплохо (скажем, 80% точность определения вполне реальна). Из библиотек могу порекомендовать Lingpipe (Java).
Спасибо большое за конкретную библиотеку, как раз копаюсь в Java, мне для практики очень пригодится.
Здравствуйте, Baudolino, Вы писали:
B> Если забыть про лексический анализ, и тупо считать вероятности, можно добиться очень хороших результатов.
Я тоже склоняюсь к мысли, если "тупо" посчитать количество отрицательных словооборотов и количество положительных словооборотов, то можно с некоторой вероятностью сказать, какой оттенок носит текст.
Здравствуйте, igor-shikarev, Вы писали:
IS>Добрый день всем профессионалам!
IS>Встала задача по анализу текста статей. Заказчик пока неточно очертил IS>задачу, но ему уже точно нужно чтобы результатом анализа была число IS>встречающейся фразы в тексте. Определить, что если речь идет о IS>человеке, то положительно или отрицательно говорится в статье о нем. IS>Кто-нибудь занимался такой задачей или тыкнете носом где можно IS>почитать об этом. Со стемингом уже разобрался и разобрался со стоп-словами, а вот дальше тупик, не хватает математических знаний
))))))))))
Определить, что если речь идет о человеке — это называется "объект высказывания"
то положительно или отрицательно говорится в статье о нем — это называется "тональность по отношению к объекту высказывания"
— вообще подобные топики сильно улыбають — не поймите меня неправильно, igor-shikarev, я это темой немного занимаюсь — там за простым её названием "анализ текста статей" такой айсберг скырт ой-ёй-ёй, уверен что с кандачка даже близко приемлемого результата не будет ))))))))
Здравствуйте, Аноним, Вы писали:
> )))))))))) > Определить, что если речь идет о человеке — это называется "объект высказывания" > то положительно или отрицательно говорится в статье о нем — это называется "тональность по отношению к объекту высказывания" > — вообще подобные топики сильно улыбають — не поймите меня неправильно, igor-shikarev, я это темой немного занимаюсь — там за простым её названием "анализ текста статей" такой айсберг скырт ой-ёй-ёй, уверен что с кандачка даже близко приемлемого результата не будет ))))))))
Да я уже начал убеждаться, что айсберг, тем более я этим никогда не занимался, поэтому плаваю в терминах, да и большинство библиотек написано на Java, т.е. мне приходится и в этот язык погружаться (получается пока не так быстро, так как я законченный дельфист)
Здравствуйте, Аноним, Вы писали:
> да, вот если интересно — посмотри тестовые ресурсы, что мы делаем, выставленные наружу: > (подчеркиваю — тестовые) > http://tm.i-teco.ru/tm/ > http://tm.i-teco.ru/ds/
Здравствуйте, igor-shikarev, Вы писали:
IS>так как я законченный дельфист
Кстати, тогда можете посмотреть старую добрую библиотечку склонения имён — ей уже 10 лет в обед: http://delphikingdom.com/asp/viewitem.asp?catalogid=412
Авось да пригодится (особенно если требуется быстрый старт, чтобы что-то показать заказчику).
Опять же, в Королевстве можно спросить и про вашу исходную задачу — может кто подскажет толковые мысли, там народ весьма грамотный есть.