Здравствуйте, Shmj, Вы писали:
S>А вот сейчас появился ИИ, который по словесному поносу может генерить видео.
Были попытки похожим образом сжимать/кодировать человеческую речь — распознавали фонемы-токены и воспроизводили эти фонемы по номерам и таймингам на другой стороне.
Трафик ужимался что-то нап орядок, схема прекрасно работает, по всему миру защитили десятки диссеров...
Но не взлетело. ))
Никому оказалась не нужна механическая речь.
А при попытке закодировать еще интонировку получили трафик примерно как у хороших алгоритмов сжатия речи, только с намного большими вычислительными затратами при кодировании-раскодировании. И все-равно, на приёмной стороне получали другой голос, чем на стороне отправки.
Но зато ИИ неплохо показал себя в деле улучшения качества речи на приёмной стороне в условиях помех и пропажи UDP-пакетов.
Но да, всё еще требуются нехилые ресурсы.
Но схема выглядит простой и надёжной.
Т.е., изначально можно кодировать с невысоким качеством, экономя трафик, восстанавливая субъективное качество на приёмной стороне через ИИ.
S>А ведь с развитием качество будет лучше и лучше, возможно что каждое видео можно будет сжать до достаточно подробного словесного описания каждой из сцен?
Точное описание не будет меньше закодированных алгоритмами сжатия пикселей. ))
Хорошей идеей, как и в случае кодирования речи, является улучшение качества видео (upscaling) на приёмной стороне.