Про text-to-speech
От: r0nd  
Дата: 19.02.24 21:00
Оценка:
Привет,

Есть Usenet-форум. Нужно озвучить разговор N-актеров для M-голосов. «Разговор» представляет древовидную структуру (usenet-форум) из темы дискуссии и сообщений (ответов) в рамках этой дискуссии. Каждое сообщение состоит из ответа актера и может содержать цитату предыдущего письма. Аналогично как на RSDN. Все методы уже написаны, вопрос как лучше все это организовать? Есть ли хорошие примеры, где это «удачно» реализовано? Пока есть идея такая:

На подготовительном этапе определяется язык дискуссии и подбираются актеры озвучки. Далее примерный сценарий:
(голос Актера 1): «Автор 1» спрашивает: «<текст сообщения 1>»
(если есть в наличии Актер 2 для языка сообщения, то берем Актер 2, 
  иначе делаем модуляцию голоса Актера 1 для изменения голоса и применяем измененный голос): «Автор 2» отвечает: «<текст сообщения 2>»… и т.д. чередуем


Но как быть с ветвлениями?
      (+) Автор 1
       +- Автор 2
       | +-  Автор 1  (← здесь)
       |   +-  Автор 3
       |   +-  Автор 2

Нюансы начинаются когда несколько ответов на сообщение, как обход делать? Вглубь или вширь? Кому приоритет отдавать Автору 2 (кто первый ему ответил) или, допустим Автору 3, который «вклинился» в чужой диалог? Это может плохо восприниматься на слух, если автор ответов будет меняться постоянно. Кроме того, когда диалог проще (и короче) опускать цитаты предыдущих сообщений. Оно идет как беседа.

Еще один вопрос, что делать с «подвешенными» ответами. Например как выше с Автор 3?

Короче если кто-то занимался посоветуйте литературу, ссылки…
...<< Dementor 1.6.1 ✪ Lets Play a Game ⚀⚂⚃⚄⚄>>
Re: Про text-to-speech
От: velkin Удмуртия https://kisa.biz
Дата: 19.02.24 21:21
Оценка:
Здравствуйте, r0nd, Вы писали:

R>Аналогично как на RSDN. Все методы уже написаны, вопрос как лучше все это организовать?


Большую часть текста я не читаю, а слушаю как раз синтезированным голосом. Мне хватает RHVoice Анна скорость 3.

Организовывается это так.
1. Нажимается Ctrl+A.
2. Копировать в буфер обмена.
3. Прочитать текст из буфера обмена.

А главный показатель здесь уровень раздражения от чужих голосов. Голос к которому привык и который меньше всего раздражал лучше, чем если будешь подставлять кого попало. Меня даже больше устраивает монотонность, чем если кто-то начнёт взвизгивать читая текст. Именно поэтому я не смотрю стримеров, которые сначала нормально играют и разговаривают, а потом неожиданно начинают орать.

Из топика про геймификацию это звучит вот так.
gamification_02.wav

И мой совет от того, кто много лет слушает синтезированный голос, а это книжки, статьи, форумы — не усложняй. Я читал разные форумы тупо копируя текст в синтезатор речи. Когда слушаешь важнее, чтобы поток шёл сам по себе и не прерывался, не нужно было ничего нажимать или как-то его "подбадривать". А для глубокого исследования используются совсем другие инструменты, вроде личных баз знаний и это другая тема.
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.