Речевые технологии, обработка звука - О работе

А кто-нибудь занимается вышеуказанными вещами? Интересно, что сейчас происходит в этой области, вытеснили нейорсетки остальные технологии?

Вспонилось просто как сосед по общаге устроился в Ectaco работать (они производили электронные словари), он делал распознавание речи с использованием скрытых марковский моделей. Плюс какая-то фильтрация сигналов у них была. Осталось интересно все это...

Здравствуйте, Максим, Вы писали:

М>А кто-нибудь занимается вышеуказанными вещами? Интересно, что сейчас происходит в этой области, вытеснили нейорсетки остальные технологии?

М>Вспонилось просто как сосед по общаге устроился в Ectaco работать (они производили электронные словари), он делал распознавание речи с использованием скрытых марковский моделей. Плюс какая-то фильтрация сигналов у них была. Осталось интересно все это...
Сетки в основном. Занимается дохера где -- сбер (црт), тинькоф, мтс и прочая из нащих

Здравствуйте, Максим, Вы писали:

М>А кто-нибудь занимается вышеуказанными вещами? Интересно, что сейчас происходит в этой области, вытеснили нейорсетки остальные технологии?

М>Вспонилось просто как сосед по общаге устроился в Ectaco работать (они производили электронные словари), он делал распознавание речи с использованием скрытых марковский моделей. Плюс какая-то фильтрация сигналов у них была. Осталось интересно все это...

гугл занимается, даже AI аудио-кодеки в опенсорс выкладывает

Здравствуйте, Максим, Вы писали:

М>А кто-нибудь занимается вышеуказанными вещами? Интересно, что сейчас происходит в этой области, вытеснили нейорсетки остальные технологии?

М>Вспонилось просто как сосед по общаге устроился в Ectaco работать (они производили электронные словари), он делал распознавание речи с использованием скрытых марковский моделей. Плюс какая-то фильтрация сигналов у них была. Осталось интересно все это...

В "классическом" распознавании речи условно можно выделить четыре этапа: выделение признаков, распознавание фонем на основе признаков, построение оптимальных цепочек фонем, распознавание предложений на основе цепочек. Поскольку в речи фонема это очень нестабильная сущность, то для каждого окна данных размером 15-30мс всегда есть несколько примерно равновероятных вариантов. И вот у нас есть первое окно и N вариантов, второе окно и M вариантов, и так далее. Получается такой сосискообразный граф. Марковские модели использовались для нахождения наиболее оптимального пути в этом графе, и сетки вытеснили их окончательно где-то в 2015-2016. В 2014-ом я работал в стартапе, который делал тогда ещё не очень популярные умные колонки, и мы комбинировали облачное распознавание с распознаванием на устройстве. Тогда рекурентные сети только зарождались, и распознавание в облаке всё ещё использовало марковские модели для определения наилучшей результирующей цепочки фонем, а вот классификация самих фонем уже выполнялась нейросетью. Сейчас, конечно, в сеть загоняются сразу признаки, а на выходе уже предложения. Были попытки создать так называемую end-to-end сеть, которой бы скармливались сразу сырые аудиоданные без выделения признаков, но как-то оно не пошло. Хотя, возможно, сейчас это уже, что называется, state of the art — я давно выпал из темы, потому что вся работа свелась к поиску/покупке огромного набора размеченных данных и тренировке моделей. А раньше была романтика, да. Можно было, оптимизировав параметры модели, заставить работать распознавание на совсем скромном железе. Продавались даже какие-то платы расширения со встроенным распознаванием. А ещё можно было адаптировать модель под конкретный голос и нереально повысить качество. Я так работу в том стартапе и получил — просле собеседования дали тестовое, суть которого сводилась к повышению качества распознавания. Ещё была отдельная тема — распознавание заранее записанных команд для конкретного голоса. Не знаю почему, но в 2014-2016 был бум заказов на такие проекты.

В настоящее время при наличии огромной базы для тренировки моделей вопрос распознавания речи можно считать решённым на 80%: Гугл и Алиса прекрасно понимают мужские, женские и детские голоса, в любую погоду и при любом настроении. Но всё ещё тупят, если чуть изменить интонацию или сказать то, чего машина не ожидает услышать. Последнее как раз составляют остальные 20%, но без изменения подхода — добавления распознавания смысла, технология всё так же будет оставаться бездушной китайской комнатой. Зато вот для генерации речи есть, где развернуться. Это всё ещё интересная технология в плане поработать с ней, и всякие улучшения придумывают и по сей день.

C>Но всё ещё тупят, если чуть изменить интонацию или сказать то, чего машина не ожидает услышать.
У меня племянник-аутист, 10 лет, говорит невнятно. Люди его с некоторым напряжением понимают, где-то догадываются, Алиса напрочь нет, даже с некоторых повторов.

	От:	Максим
	Дата:	01.12.22 12:09
	Оценка:

От:	denisko	http://sdeniskos.blogspot.com/
Дата:	01.12.22 17:52
Оценка:	3 (1) +1

	От:	AmSpb
	Дата:	01.12.22 18:30
	Оценка:	3 (1)

	От:	cppguard
	Дата:	01.12.22 23:57
	Оценка:	19 (3) +1

	От:	xcs
	Дата:	02.12.22 06:41
	Оценка: