Привет!
Вот увлёкся нейросетями.
Написал парочку OCR систем. Теперь хочется применить нейросети для
распознавания звука.
Как это делается? Т.е. я не совсем понимаю следующее.
Для распознавания звука как и для изображений я хочу применить
многослойный прецептрон. С БП алгоритмом обучения.
Понятно что сеть учиться распознавать по спектру. Т.е. над
аудиоданными производится FFT. Но с каким окном это лучше делать?
И как быть если длинна аудиоданны превысила м... число входов
нейросети. Что при этом делают? Выбрасывают отсчёты?
Во общем расскажите, может быть я вообще ошибаюсь в работе алгоритма?
Здравствуйте, nen777w, Вы писали:
N>Привет! N>Вот увлёкся нейросетями. N>Написал парочку OCR систем. Теперь хочется применить нейросети для N>распознавания звука. N>Как это делается? Т.е. я не совсем понимаю следующее. N>Для распознавания звука как и для изображений я хочу применить N>многослойный прецептрон. С БП алгоритмом обучения. N>Понятно что сеть учиться распознавать по спектру. Т.е. над N>аудиоданными производится FFT. Но с каким окном это лучше делать? N>И как быть если длинна аудиоданны превысила м... число входов N>нейросети. Что при этом делают? Выбрасывают отсчёты? N>Во общем расскажите, может быть я вообще ошибаюсь в работе алгоритма?
а может стоит попробовать на карточках мобильных операторов связи??
AlikGut, #337311300
Running da RSDN@Home v1.1.3; Winamp:Motherboard — Dead SoundBlaster
Будьте проще, и к Вам потянутся тысячи. (С) Монетный двор РФ.
Здравствуйте, nen777w, Вы писали:
N>Привет! N>Вот увлёкся нейросетями. N>Написал парочку OCR систем. Теперь хочется применить нейросети для N>распознавания звука. N>Как это делается? Т.е. я не совсем понимаю следующее. N>Для распознавания звука как и для изображений я хочу применить N>многослойный прецептрон. С БП алгоритмом обучения. N>Понятно что сеть учиться распознавать по спектру. Т.е. над N>аудиоданными производится FFT. Но с каким окном это лучше делать? N>И как быть если длинна аудиоданны превысила м... число входов N>нейросети. Что при этом делают? Выбрасывают отсчёты? N>Во общем расскажите, может быть я вообще ошибаюсь в работе алгоритма?
Что значит распознование звука, если ты имеешь ввиду речи, то боюсь, что со свуком так просто как с буквами не получится. Т.к люди улавливают смысл речи не по частоте...:
например понятно что у женьжины и у мужчины чв частотном представлении звук А будет очень сильно отличаться.
Потом когда мы говорим, некоторые звуки сливаются, некоторые маскируюся, некоторые вообще съедаются там, что можно понять только из контекста.....
Ито я не сам придумал, а спросил у специалиста в этой области...
Поэтому сначала тебе нужно будет изучить, что и как выделять из речи (собственно это и есть самое сложное), а уже потом сравнить не проблемма... может и сети никакие не понадобятся.
Да. Сори.
Звука = Речи. В моей карте это одно и то же совпало.
Как выделять полезный сигнал из шума это я сделаю.
Меня интересует работа самого алгоритма распознавания речи.
Уверено он основан на нейронных сетях.
Т.е. как сеть обучают. И как быть с фиксированным числом входов.
Здравствуйте, nen777w, Вы писали:
N>что ты имел ввиду умник?
ващета умник в этом посте не я а я хотел бы предложить попробовать научить сеть восстанавливать математические функции — применение данной темы находит отражение в том, что я писал выше.
AlikGut, #337311300
Running da RSDN@Home v1.1.3; Winamp:Motherboard — Dead SoundBlaster
Будьте проще, и к Вам потянутся тысячи. (С) Монетный двор РФ.
Здравствуйте, nen777w, Вы писали:
N>Да. Сори. N>Звука = Речи. В моей карте это одно и то же совпало. N>Как выделять полезный сигнал из шума это я сделаю. N>Меня интересует работа самого алгоритма распознавания речи. N>Уверено он основан на нейронных сетях. N>Т.е. как сеть обучают. И как быть с фиксированным числом входов.
С нейронными сетями я тебе боюсь не помогу.....
Да и до сетей,..... нужно проделать кучу анализа..... говорюж в чистом или частотном виде никто речь не распознает.
Выделяются некие УСТОЙЧИВЫЕ признаки, которые не от чего не зависят, и по ним уже сравнивается.
A> ващета умник в этом посте не я а я хотел бы предложить A> попробовать научить сеть восстанавливать математические функции - A> применение данной темы находит отражение в том, что я писал выше.
Извини. То что ты писал выше я ещё видимо не скачал с сервера. Т.к.
подписался на ньюсы только вчера.
Вообще то я когда то экспериментировал с сеткой, обучая её на
частичной таблице умножения. Далее обученная сетка уже умножала сама
(правда с ошибкой 0.01),но в пределах тех значений на которых обучалась.
Если ты это имел ввиду.
Но в топике темы я спрашивал не об этом.
nen777w wrote: > > Да. Сори. > Звука = Речи. В моей карте это одно и то же совпало. > Как выделять полезный сигнал из шума это я сделаю. > Меня интересует работа самого алгоритма распознавания речи. > Уверено он основан на нейронных сетях. > Т.е. как сеть обучают. И как быть с фиксированным числом входов.
Сразу скажу — с распознаванием речи не знаком и не пытаюсь разобраться.
Насчет вопроса — встречеый вопрос — а что мешает погуглить на предмет
наличия похожих разработок в разных университетах, исследовательских
групах при разных конторах, докладов по теме на разных научных конференциях?
Не поверю что такого никто не делал. Более того есть большое подозрение
что в течении 2 часов можно будет натаскать около 100 pdf-ов весьма
умного содержания и обложиться чтивом на недельку.
ЗЫ
А может эту сеть обучить по гуглю ходить? Пусть сама доку читает и
обучается, а то еще спрашивать что да как.. Непорядок..
Здравствуйте, nen777w, Вы писали:
N>Вообще то я когда то экспериментировал с сеткой, обучая её на N>частичной таблице умножения. Далее обученная сетка уже умножала сама N>(правда с ошибкой 0.01),но в пределах тех значений на которых обучалась. N>Если ты это имел ввиду. N>Но в топике темы я спрашивал не об этом.
да я понимаю что топик не про это интерес возник просто именно к сети — а по твоим оценкам вообще реально ли научить этому сеть — именно восстановлению хотябы простых функций — ну хоть
y = x*5 + 3
???
AlikGut, #337311300
Running da RSDN@Home v1.1.3; Winamp:Motherboard — Dead SoundBlaster
Будьте проще, и к Вам потянутся тысячи. (С) Монетный двор РФ.
A> да я понимаю что топик не про это интерес возник A> просто именно к сети — а по твоим оценкам вообще реально ли научить A> этому сеть — именно восстановлению хотябы простых функций — ну хоть A> y = x*5 + 3
т.е. при известном y получить x, гм... думаю что вполне возможно
обучив сетку на известных вычисленных y ках от x. Но вот только что бы
после обучения сетка давала более менее хорошие результаты y-ки не
должны выходить за границы использованных при обучении сетки.
Если не секрет, зачем это нужно вообще? Где это реально можно
применить?
Здравствуйте, nen777w, Вы писали:
N>т.е. при известном y получить x, гм... думаю что вполне возможно N>обучив сетку на известных вычисленных y ках от x. Но вот только что бы N>после обучения сетка давала более менее хорошие результаты y-ки не N>должны выходить за границы использованных при обучении сетки.
не — не совсем так — сунуть ей х, а она даст у. то есть, для упомянутой ф-ии,
y = x*5 + 3
х = 1, у = 8
х = 2, у = 13
х = 3, у = 18,
х = 4, у = 23
и т.д, потом допустим даём ей х = 100, а она немного подумав, говорит 503
N>Если не секрет, зачем это нужно вообще? Где это реально можно N>применить?
напрмер 6761 3789 5415 — код для зачисления например 100 руб на счет номер мабилки,
с которой этот код был введён — тоесть сим-карты отправителя. эти коды какимто образом
генерируются и есть вероятность того, что такой код можно попробовать подобрать, если только
оператор связи не хранит гдето у себя все выпущенные коды карточек для валидации кода при
получении оного. таким образом выяснив функцию, по которой эти коды рождаются на свет, можно
попробовать сэкономить немного денех на сотовой связи. но это к сожалению чисто теория
AlikGut, #337311300
Running da RSDN@Home v1.1.3; Winamp:Motherboard — Dead SoundBlaster
Будьте проще, и к Вам потянутся тысячи. (С) Монетный двор РФ.
A> и т.д, потом допустим даём ей х = 100, а она немного подумав, говорит 503
Думаю можно и так.
N>>Если не секрет, зачем это нужно вообще? Где это реально можно N>>применить?
A> напрмер 6761 3789 5415 — код для зачисления например 100 руб на счет номер мабилки, A> с которой этот код был введён — тоесть сим-карты отправителя. эти коды какимто образом A> генерируются и есть вероятность того, что такой код можно A> попробовать подобрать, если только A> оператор связи не хранит гдето у себя все выпущенные коды A> карточек для валидации кода при A> получении оного. таким образом выяснив функцию, по которой эти коды рождаются на свет, можно A> попробовать сэкономить немного денех на сотовой связи. но это A> к сожалению чисто теория
Идея мне очень нравится! Я сам когда то собирал номера от карточек
пополнения счёта у Jeans.
Давай обсуждение дальше переносится в ICQ. Я что то не пойму каким
образом ты хочешь сделать это.
мой UIN 82558456
Здравствуйте, AlikGut, Вы писали:
AG> напрмер 6761 3789 5415 — код для зачисления например 100 руб на счет номер мабилки, AG> с которой этот код был введён — тоесть сим-карты отправителя. эти коды какимто образом AG> генерируются и есть вероятность того, что такой код можно попробовать подобрать, если только AG> оператор связи не хранит гдето у себя все выпущенные коды карточек для валидации кода при AG> получении оного. таким образом выяснив функцию, по которой эти коды рождаются на свет, можно AG> попробовать сэкономить немного денех на сотовой связи. но это к сожалению чисто теория
Ты думаешь, там такие идиоты сидят?
Коды карточек должны храниться — хотя бы чтобы их не вводили по нескольку раз.
Также существует масса способов генерации случайных чисел:
— с помощью шифровальной платы (предусмотрена аппаратная генерация СЧ)
— от случайных действий пользователя (беспорядочный долбеж по клаве, шевеление мышью и т.п.)
— шумы от звуковой карты, микрофона и т.п.
Я на 99% уверен, что используется какой-либо из вышеперечисленных способов.
То есть с таким же успехом можно обучать сеть выигрывать в лотерею.
...А отсюда наливаем, когда рецепт написан совсем неразборчиво...
Здравствуйте, Михаил, Вы писали:
М>Здравствуйте, AlikGut, Вы писали:
AG>> генерируются и есть вероятность того, что такой код можно попробовать подобрать, если только AG>> оператор связи не хранит гдето у себя все выпущенные коды карточек для валидации кода при AG>> получении оного. таким образом выяснив функцию, по которой эти коды рождаются на свет, можно AG>> попробовать сэкономить немного денех на сотовой связи. но это к сожалению чисто теория
там болдом выделено. попытка не пытка, как говорил товарищ Берия.
AlikGut, #337311300
Running da RSDN@Home v1.1.3; Winamp:Motherboard — Dead SoundBlaster
Будьте проще, и к Вам потянутся тысячи. (С) Монетный двор РФ.