Здравствуйте, Максим, Вы писали:
М>А кто-нибудь занимается вышеуказанными вещами? Интересно, что сейчас происходит в этой области, вытеснили нейорсетки остальные технологии?
М>Вспонилось просто как сосед по общаге устроился в Ectaco работать (они производили электронные словари), он делал распознавание речи с использованием скрытых марковский моделей. Плюс какая-то фильтрация сигналов у них была. Осталось интересно все это...
В "классическом" распознавании речи условно можно выделить четыре этапа: выделение признаков, распознавание фонем на основе признаков, построение оптимальных цепочек фонем, распознавание предложений на основе цепочек. Поскольку в речи фонема это очень нестабильная сущность, то для каждого окна данных размером 15-30мс всегда есть несколько примерно равновероятных вариантов. И вот у нас есть первое окно и N вариантов, второе окно и M вариантов, и так далее. Получается такой сосискообразный граф. Марковские модели использовались для нахождения наиболее оптимального пути в этом графе, и сетки вытеснили их окончательно где-то в 2015-2016. В 2014-ом я работал в стартапе, который делал тогда ещё не очень популярные умные колонки, и мы комбинировали облачное распознавание с распознаванием на устройстве. Тогда рекурентные сети только зарождались, и распознавание в облаке всё ещё использовало марковские модели для определения наилучшей результирующей цепочки фонем, а вот классификация самих фонем уже выполнялась нейросетью. Сейчас, конечно, в сеть загоняются сразу признаки, а на выходе уже предложения. Были попытки создать так называемую end-to-end сеть, которой бы скармливались сразу сырые аудиоданные без выделения признаков, но как-то оно не пошло. Хотя, возможно, сейчас это уже, что называется, state of the art — я давно выпал из темы, потому что вся работа свелась к поиску/покупке огромного набора размеченных данных и тренировке моделей. А раньше была романтика, да. Можно было, оптимизировав параметры модели, заставить работать распознавание на совсем скромном железе. Продавались даже какие-то платы расширения со встроенным распознаванием. А ещё можно было адаптировать модель под конкретный голос и нереально повысить качество. Я так работу в том стартапе и получил — просле собеседования дали тестовое, суть которого сводилась к повышению качества распознавания. Ещё была отдельная тема — распознавание заранее записанных команд для конкретного голоса. Не знаю почему, но в 2014-2016 был бум заказов на такие проекты.
В настоящее время при наличии огромной базы для тренировки моделей вопрос распознавания речи можно считать решённым на 80%: Гугл и Алиса прекрасно понимают мужские, женские и детские голоса, в любую погоду и при любом настроении. Но всё ещё тупят, если чуть изменить интонацию или сказать то, чего машина не ожидает услышать. Последнее как раз составляют остальные 20%, но без изменения подхода — добавления распознавания смысла, технология всё так же будет оставаться бездушной китайской комнатой. Зато вот для генерации речи есть, где развернуться. Это всё ещё интересная технология в плане поработать с ней, и всякие улучшения придумывают и по сей день.
Здравствуйте, Максим, Вы писали:
М>А кто-нибудь занимается вышеуказанными вещами? Интересно, что сейчас происходит в этой области, вытеснили нейорсетки остальные технологии?
М>Вспонилось просто как сосед по общаге устроился в Ectaco работать (они производили электронные словари), он делал распознавание речи с использованием скрытых марковский моделей. Плюс какая-то фильтрация сигналов у них была. Осталось интересно все это...
Сетки в основном. Занимается дохера где -- сбер (црт), тинькоф, мтс и прочая из нащих
Здравствуйте, Максим, Вы писали:
М>А кто-нибудь занимается вышеуказанными вещами? Интересно, что сейчас происходит в этой области, вытеснили нейорсетки остальные технологии?
М>Вспонилось просто как сосед по общаге устроился в Ectaco работать (они производили электронные словари), он делал распознавание речи с использованием скрытых марковский моделей. Плюс какая-то фильтрация сигналов у них была. Осталось интересно все это...
гугл занимается, даже AI аудио-кодеки в опенсорс выкладывает
А кто-нибудь занимается вышеуказанными вещами? Интересно, что сейчас происходит в этой области, вытеснили нейорсетки остальные технологии?
Вспонилось просто как сосед по общаге устроился в Ectaco работать (они производили электронные словари), он делал распознавание речи с использованием скрытых марковский моделей. Плюс какая-то фильтрация сигналов у них была. Осталось интересно все это...
C>Но всё ещё тупят, если чуть изменить интонацию или сказать то, чего машина не ожидает услышать.
У меня племянник-аутист, 10 лет, говорит невнятно. Люди его с некоторым напряжением понимают, где-то догадываются, Алиса напрочь нет, даже с некоторых повторов.