насколько широко сейчас применяется распознавание речи в реальных задачах (или развлекательных, но не поигрался и отключил)?
Точне даже так будет: кто-то знает удачные примеры применения технологий распознавания речи? Насколько эти технологии применяются у нас и на Западе? В каких случаях применение SR себя оправдывает?
есть идея создания инструментария (в том числе визуального) для создания голосовых интерфейсов на основе Speech API, быстро, удобно и минимумом работы с кодом.
В целом хотел бы воплотить следующие идеи:
— обработка малоинформативных команд (эмоции, маты и др.)
— возможность использования различных языковых конструкций для описаний действий (например, что бы пользователь мог сказать "я бы хотел" и программа выдала бы список возможностей)
— встроенные элементы управления. Например что-то наподобие tag cloud, intellisense, специфический OpenFileDialog и др., чтобы пользователь всегда видел возможные варианты работы, также аналоги стандартных диалогов
— стандартизация обработки простых команд типа "отмена", "хорошо", "назад" (как DialogResult, где есть стандартные возращаемые значения)
— построение машин состояния и словарей(цепочек) "команда-параметры-действие" в визуальном режиме
— подражание структуре или интеграция с существующими классами winforms (menustrip, toolstrip) для упрощения синхронизации с обычным интерфейсом
Цель:
упрощение процесса добавления голосового интерфейса в настольные приложения
Составные части:
— библиотека классов и элементов управления
— плагины к VS
Применене:
в настольных приложениях развлекательного характера, а также специфика которых не позволяет работать с клавиатурой с небольшим количеством управляющих команд в словаре (для повышения точности распознавания): например программы для планшетов, видеоплееры (правда надо еще не реагировать на свой же звук )
Открытые вопросы: 1. Насколько активно сейчас используются подобные интерфейсы (сам таким не пользуюсь например)? Как с этим обстоит ситуация в англоязычных странах?
Нашел похожий продукт, но чуть смущает что там копирайт 2005 года стоит. Наверное загнулись.
2. Как обстоят дела с самим Speech SDK? Такое впечатление что microsoft его активно продвигает, но им мало кто пользуется. На это косвенно указывают убогие результаты поиска гуглом в этом направлении.
p.s. Попинайте пожалуйста, ибо шаг вперед — это часто результат пинка под зад.
p.p.s. Модераторам: этот пост наверное в шаровару надо.
Аноним 680 однажды (26 января 2008 22:10) писал:
> — обработка малоинформативных команд (эмоции, маты и др.)
Угу... Чтобы по команде "бл...ь!!!" тут-же отменялось последнее выполненное действие.
--
...belive in the matrix...
Posted via RSDN NNTP Server 2.1 beta
Matrix has you...
Re[4]: Применение
От:
Аноним
Дата:
26.01.08 21:35
Оценка:
Здравствуйте, Sheridan, Вы писали:
S>Аноним 680 однажды (26 января 2008 22:10) писал:
>> — обработка малоинформативных команд (эмоции, маты и др.) S>Угу... Чтобы по команде "бл...ь!!!" тут-же отменялось последнее выполненное действие.
В принципе это и имелось в виду. Не обязательно отмена, но как минимум игнор. Из личного опыта: после 2й неудачной попытки исправить текст шел поток "малоинформативных команд".
Хех, немного офтопично, но... Я вот сижу в комнате один с компом. Если я с ним начну еще и разговаривать... А если в офисе все сотрудники (или часть) начнут общаться вслух со своими кремниевыми друзьями, то будет попорчено очень-очень много нервов.
Мне кажется, что основные потенциальные пользователи таких штук — люди с ограниченными возможностями: плохое зрение, проблемы с руками, координацией. Есть слепые программисты, например. Какие-то решения в этой области уже существуют. Я бы советовал порыться в этом направлении, поискать материал.
Здравствуйте, Аноним, Вы писали:
А>насколько широко сейчас применяется распознавание речи в реальных задачах (или развлекательных, но не поигрался и отключил)? А>Точне даже так будет: кто-то знает удачные примеры применения технологий распознавания речи? Насколько эти технологии применяются у нас и на Западе? В каких случаях применение SR себя оправдывает?
Кроме каких-то узкоспециальных областей типа интерфейсов для слепых, сейчас стали популярны IVR-системы (Interactive voice response). Т.е. телефонные системы, где вместо стандартного "нажмите 1 для соединения с отделом продаж, нажмите 2 для соединения с саппортом..." — система пытается распознавать голосовые команды.
Это очень помогает, например, если нужно спросить есть ли билеты на нужную дату — с клавиатуры телефона вводить ее затруднительно.
Здравствуйте, Аноним, Вы писали:
А>2. Как обстоят дела с самим Speech SDK? Такое впечатление что microsoft его активно продвигает, но им мало кто пользуется. На это косвенно указывают убогие результаты поиска гуглом в этом направлении.
А, выбрось его нафиг — это убогость. Я серьезно.
Здравствуйте, Cyberax, Вы писали:
C>Здравствуйте, Аноним, Вы писали:
А>>2. Как обстоят дела с самим Speech SDK? Такое впечатление что microsoft его активно продвигает, но им мало кто пользуется. На это косвенно указывают убогие результаты поиска гуглом в этом направлении. C>А, выбрось его нафиг — это убогость. Я серьезно.
C>Если интересно — то стоит посмотреть на http://www.nuance.com/ и http://www.speechpro.com/
у Вас есть опыт работы с этими компонентами? Самый интересный вопрос — сколько они стоят и как они распространяются? SDK в свободном виде не нашел (Dragon Natural speech), написал заявку менеджеру, но, честно говоря, сомневаюсь что они будут общаться с "self-employeed". Да и распространение продуктов Dragon будет затруднено (надо качать/устанавливать и т.д.). А MS пихнула свой движек прямо в висту, что очень облегчает его использование в "несерьезных" программах для неискушенных пользователей. Наверное есть смысл сделать поддержку нескольких движков.
Здравствуйте, Аноним, Вы писали:
C>>А, выбрось его нафиг — это убогость. Я серьезно. C>>Если интересно — то стоит посмотреть на http://www.nuance.com/ и http://www.speechpro.com/ А>у Вас есть опыт работы с этими компонентами?
Сейчас делаем их evaluation для нашего проекта. Могу сказать, что MS'овский API и рядом не стоял.
А>Самый интересный вопрос — сколько они стоят и как они распространяются? SDK в свободном виде не нашел (Dragon Natural speech), написал заявку менеджеру, но, честно говоря, сомневаюсь что они будут общаться с "self-employeed".
Дорого. Сколько точно сказать не могу — я под NDA.
С self-employed они вполне может и будут работать.
А>Да и распространение продуктов Dragon будет затруднено (надо качать/устанавливать и т.д.). А MS пихнула свой движек прямо в висту, что очень облегчает его использование в "несерьезных" программах для неискушенных пользователей. Наверное есть смысл сделать поддержку нескольких движков.
Естественно, нужно все интегрировать в один инсталлятор. Это вполне возможно.