Здравствуйте, RobinHood, Вы писали:
RH>распознание смысла текста
1. Плохие новости.
В общем случае задача нерешаемая, т.к. смысл не
содержится в тексте, а
вызывается текстом в голове данного конкретного читателя.
Вот пример из книги "Машинное понимание текстов с ошибками" (В.С.Файн, Л.И.Рубанов, М.:Наука, 1991):
... Так, вопрос, адресованный участнице курортного знакомства, "Ты помнишь июнь?", конечно же, имеет целью не напоминание о том, что между маем и июлем текущего года имелся июнь, а побуждение ее к формированию в мозгу сложнейшего комплекса, включающего и зрительные образы моря, луны и т.д., и слуховые, и обонятельные воспоминания, и определенное настроение, и чувство влечения к автору текста, и многое другое. Разумеется, всё это ни в коей мере не содержится в словосочетании "Ты помнишь июнь?". Последнее, очевидно, является лишь кодом, запускающим у слушательницы механизм формирования указанного комплекса. В свою очередь, ответ "Да" или "Нет", полученный автором вопроса, вызывает в его мозгу целый мир образов и переживаний, соответственно радостных или горестных. Разумеется, смысл, вызываемый в этой ситуации словом "Да", не имеет ничего общего со смыслом, вызываемым тем же ответом при выяснении, например, готовности яичницы.
2. Хорошие новости.
Если жёстко ограничить предметную область, и, самое главное,
стиль анализируемых текстов, то кое-что сделать можно. Вот несколько уровней подхода, от простого к сложному:
1) анализ статистики отдельных словоформ без учёта морфологии (слова "иду", "идёт", "шёл" будут считаться разными)
2) +анализ словосочетаний (пары/тройки/... соседних слов)
3) +учёт морфологии (для слов "иду", "идёт", "шёл" будет выявлена их начальная форма — "идти")
4) +снятие омонимии ("Закрой замок на замок, чтобы замок не замок.")
5) и т.д. и т.п. (анализ синтаксиса, семантики, прагматики, расширенная графематика, интернет-сленг, ...)
К вопросу о сложности: в современных крутых поисковых системах (Яндекс, Гугл, ...) уже давно на приемлемом уровне решена проблема морфологического анализа, но вот с омонимами пока беда!
Для разминки, наверное, стоит поискать существующие онлайн-системы анализа текстов (например,
Семантическое зеркало) — как минимум, это будет полезно для осознания масштаба проблемы