Abbyy технология Compreno
От: Michael7 Россия  
Дата: 14.03.11 12:15
Оценка: 3 (3) +2
По этому поводу в соседнем топике было много чего сказано, но конкретно о том чем занимается или планирует заниматься Abbyy в Сколково в основном были одни только догадки и предположения.

Кое-что об этом гендиректор Abbyy рассказал на хабре

Вопросы или скорее обсуждение на хабре (можно не читать, там флуд в основном)

Мы давно разрабатываем этот проект и не хотели делать его публичным до момента выпуска готовых продуктов. Однако приход этого проекта в Сколково очевидно требует понятного рассказа об истории проекта, его текущем статусе и перспективах. Мы хотим рассказать много интересного о том, чем компания ABBYY занималась последние 10 лет в закрытом режиме и какое взаимодействие с проектом Сколково мы планируем.


Ответы Андреева. Часть 1 — есть вода, но кое-чего сказано любопытного. Процитирую кусками.

Центральным ядром создаваемой технологии служит универсальная иерархия понятий и модель отношений между этими понятиями (для специалистов: иерархия универсальных семантических значений и отношений между ними). Хотя все люди на земле говорят разными словами, но используют они очень похожую систему понятий. Люди в разных странах ходят на работу, сидят дома, работают на компьютерах, составляют договоры, летают на самолётах, ведут переговоры. Для них строятся похожие бизнес-центры. Они находятся в похожих помещениях и пользуются похожей мебелью. Все эти понятия и их взаимоотношения в разных развитых цивилизациях имеют гораздо больше общего, чем различного. В дальнейшем это семантическое дерево понятий я буду назвать английской аббревиатурой USH (Universal Sematic Hierarchy).

...

Второй, но не менее важной частью технологии является полный синтаксический разбор текста. Синтаксис – это способ «кодирования» смысла (для специалистов: семантических отношений) в конкретном языке. Сами семантические отношения универсальны, а способы их реализации в каждом языке – свои. В каких-то языках установлен линейный порядок, в других используются падежи, предлоги, специальные служебные слова, где-то используется всё сразу. Для каждого языка синтаксическое описание делается заново, но сами средства, которые разные языки используют для кодирования смысла, перечислимы. При описывании нового языка используется разные элементы конструктора (тот же линейный порядок, различные типы синтаксических преобразований, грамматические значения, предлоги, специальные конструкции).

Технология Compreno также успешно определяет и более сложные синтаксические связи, такие как замена слова «мальчик» на слово «он» в предложении (для специалистов: анафора): «Хоть мальчик и хотел поиграть, но он понимал, что у него мало времени». Или целые пропуски в сложносочиненных предложениях (для специалистов: эллипсис), например «он любит красное вино, а она – белое». Выделяемые системой связи между понятиями также выражаются в древесной структуре, фактически передают смысл написанного, и несут важную информацию для поиска или перевода. Таким образом, система стремится к определению смысла текста, написанного на обычном языке, позволяя машине «понять» этот текст и трансформировать его в универсальное представление, не зависящее от языка.

Используя USH, синтаксическое описание языка, а также статистику взаимоотношений между словами, технология Compreno производит полный анализ текста и при переводе его на другой язык использует слова, соответствующие правильным ветвям дерева USH и отношениям, выявленным при разборе исходного предложения.

...

Технология Compreno – это универсальная лингвистическая платформа для приложений, решающих множество прикладных задач по обработке текстов на естественном языке, таких как:

1. Письменный и устный перевод с одного языка на другой;
2. Интеллектуальный поиск, в частности:
* Поиск по смыслу, а не по ключевым словам;
* Извлечение фактов и связей между объектами поиска (в т.ч. для конкурентной разведки);
* Мониторинг компаний и персоналий и построение аналитических отчетов на основе параметров разного типа. Например, при подготовке отчета на тему «Какой тариф сотовых операторов является самым популярным?» важно не только верно идентифицировать все тарифы, обсуждаемые в СМИ, но и сравнить частотность.
* Возможность получить ответы на запросы, заданные обычным языком (например, «Чем владеет Иван Иванович Бобров?»).
3. Многоязычный поиск, т.е. когда на вопрос на одном языке находятся ответы на всех языках, поддерживаемых системой;
4. Классификация и фильтрация документов;
5. Защита от несанкционированного использования информации;
6. Автоматическое реферирование и аннотирование документов;
7. Распознавание речи;


В мире сейчас не существует настолько универсальной технологии, позволяющей решить так много прикладных задач, требующих качественного лингвистического анализа текстов. И речь идет не только о традиционных задачах, таких как перевод, но и задачах, решение которых на качественно новом уровне было невозможно в прошлом (например, автоматический поиск фактов и связей в массивах информации).

Революционность ABBYY Compreno состоит в фундаментальности подхода. Над универсальной системой понятий и технологиями полного синтаксического и семантического анализа задумывались многие. В своей работе мы опираемся на труды ведущих российских учёных в этой области и классическое лингвистическое образование. Однако многие специалисты отступали перед колоссальной инженерной и лингвистической сложностью реализации этой идеи для реальных практических задач. Передовое российское лингвистическое образование и наука дали нам очень хороший фундамент для начала и развития этой большой работы.

...

Работа над созданием технологии Compreno ведется уже 15 лет (на людей, которые занимаются этим и другими нашими проектами вы можете посмотреть здесь). Дело в том, что этот проект требует серьезного научного фундамента, без которого невозможно создать работающую технологию действительно высокого качества. Фундаментальная наука, как известно, требует денег и времени. 15 лет назад началось продумывание основных концепций новой технологии. Примерно 10 лет назад – работы по построению архитектуры, около 6 лет назад – серьезные работы по программированию базовых модулей, а около 2 лет назад были пройдены самые серьезные технологические риски. Проект вошел в ту фазу, которая позволяет нам с высокой степенью уверенности говорить о достижимости поставленных целей.

Результат, к которому мы стремимся, я описал в одном из предыдущих ответов.

Мы ожидаем, что коммерческие продукты для широкого применения на базе платформы Compreno появятся в течение 2-3-х лет. Но уже сегодня мы демонстрируем технологию Compreno крупным заказчикам, Специалисты, которые видят, как работает технология уже сегодня, обсуждают с нами пилотные проекты. Кроме того, мы готовим еще один наш продукт – библиотеку функций, доступную для других разработчиков приложений. То есть любой разработчик сможет лицензировать ядро системы и встроить эти функции в свои программные продукты.

...

Немногие знают, что продажа библиотек функций ABBYY FineReader для разработчиков приносит нам больше доходов, чем продажа коробок ABBYY FineReader.

...


То есть, похоже, что они уже сумели сделать дерево как минимум для русского и китайского языка (В ответах был пример про перевод с китайского)

В общем, если это, все-таки взлетит — будет очень круто.
abbyy compreno
Re: Abbyy технология Compreno
От: Michael7 Россия  
Дата: 14.03.11 13:35
Оценка: :))
Нашел любопытный комментарий в обсуждении этой статьи , не знаю насколько он точен, просто чье-то мнение

По-моему, есть очень простое объяснение, про которое никогда не скажет ни Андреев, ни государство: это нужно силовым и просто государственным структурам для вывода на новый уровень систем (промышленного) шпионажа.

Россия уже всерьез собирается в ВТО. Это означает, что нашим госслужбам/разведчикам надо будет всерьез браться (не на том уровне, как это реализуется сейчас, а с объемом информации на порядки больше – от странового анализа тематики надо переходить к глобальному) за мониторинг и анализ того, что пишут в интернете. Соответственно, нужно новое мониторинговое аналитическое агентство, позволяющее автоматически работать и сводить воедино мультиязычные клипинги – ни Интeгpум, ни Пaблик, ни Meдиалoгия, ни CКAH с этим справиться не смогут. А вот Compreno, судя по тому, что о проекте рассказывают, вполне это сделать в состоянии

Re[2]: Abbyy технология Compreno
От: Erop Россия  
Дата: 15.03.11 05:00
Оценка:
Здравствуйте, Michael7, Вы писали:

M>Нашел любопытный комментарий в обсуждении этой статьи , не знаю насколько он точен, просто чье-то мнение


M>

M>По-моему, есть очень простое объяснение, про которое никогда не скажет ни Андреев, ни государство: это нужно силовым и просто государственным структурам для вывода на новый уровень систем (промышленного) шпионажа.


А разве это:

* Мониторинг компаний и персоналий и построение аналитических отчетов на основе параметров разного типа.

не тоже самое, другими словами?

Другое дело, что сама статья не особо содержательная. Самопёрок много, а свежих мыслей как-то и нет вроде...
Все эмоциональные формулировки не соотвествуют действительному положению вещей и приведены мной исключительно "ради красного словца". За корректными формулировками и неискажённым изложением идей, следует обращаться к их автором или воспользоваться поиском
Re[2]: Abbyy технология Compreno
От: Mazay Россия  
Дата: 16.03.11 06:06
Оценка:
Здравствуйте, Michael7, Вы писали:

M>Нашел любопытный комментарий в обсуждении этой статьи , не знаю насколько он точен, просто чье-то мнение


M>

M>По-моему, есть очень простое объяснение, про которое никогда не скажет ни Андреев, ни государство: это нужно силовым и просто государственным структурам для вывода на новый уровень систем (промышленного) шпионажа.

M>Россия уже всерьез собирается в ВТО. Это означает, что нашим госслужбам/разведчикам надо будет всерьез браться (не на том уровне, как это реализуется сейчас, а с объемом информации на порядки больше – от странового анализа тематики надо переходить к глобальному) за мониторинг и анализ того, что пишут в интернете. Соответственно, нужно новое мониторинговое аналитическое агентство, позволяющее автоматически работать и сводить воедино мультиязычные клипинги – ни Интeгpум, ни Пaблик, ни Meдиалoгия, ни CКAH с этим справиться не смогут. А вот Compreno, судя по тому, что о проекте рассказывают, вполне это сделать в состоянии


Так появилось движение Обнажённого пурпура.
Главное гармония ...
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.