Информация об изменениях

Сообщение Re: Видеокодек на основе ИИ - будет ли? от 15.11.2025 21:51

Изменено 15.11.2025 21:53 vdimas

Старый текст
Новый текст
Разница

Re: Видеокодек на основе ИИ - будет ли?

Здравствуйте, Shmj, Вы писали:

S>А вот сейчас появился ИИ, который по словесному поносу может генерить видео.

Были попытки похожим образом сжимать/кодировать человеческую речь — распознавали фонемы-токены и воспроизводили эти фонемы по номерам и таймингам на другой стороне.
Трафик ужимался что-то напорядок раз, схема прекрасно работает, по всему миру защитили десятки диссеров...
Но не взлетело. ))
Никому оказалась не нужна механическая речь.

А при попытке закодировать еще интонировку получили трафик примерно как у хороших алгоритмов сжатия речи, только с намного большими вычислительными затратами при кодировании-раскодировании.

Но зато ИИ неплохо показал себя в деле улучшения качества речи на приёмной стороне в условиях помех и пропажи UDP-пакетов.
Но да, всё еще требуются нехилые ресурсы.
Но схема выглядит простой и надёжной.
Т.е., изначально можно кодировать с невысоким качеством, восстанавливая субъективное качество на приёмной стороне через ИИ.

S>А ведь с развитием качество будет лучше и лучше, возможно что каждое видео можно будет сжать до достаточно подробного словесного описания каждой из сцен?

Точное описание не будет меньше закодированных алгоритмами сжатия пикселей. ))

Хорошей идеей, как и в случае кодирования речи, является улучшение качества видео (upscaling) на приёмной стороне.

S>Тогда трафик сократится в тысячи раз.

Дудки. ))

Re: Видеокодек на основе ИИ - будет ли?

Здравствуйте, Shmj, Вы писали:

S>А вот сейчас появился ИИ, который по словесному поносу может генерить видео.

Были попытки похожим образом сжимать/кодировать человеческую речь — распознавали фонемы-токены и воспроизводили эти фонемы по номерам и таймингам на другой стороне.
Трафик ужимался что-то нап орядок, схема прекрасно работает, по всему миру защитили десятки диссеров...
Но не взлетело. ))
Никому оказалась не нужна механическая речь.

А при попытке закодировать еще интонировку получили трафик примерно как у хороших алгоритмов сжатия речи, только с намного большими вычислительными затратами при кодировании-раскодировании. И все-равно, на приёмной стороне получали другой голос, чем на стороне отправки.

Но зато ИИ неплохо показал себя в деле улучшения качества речи на приёмной стороне в условиях помех и пропажи UDP-пакетов.
Но да, всё еще требуются нехилые ресурсы.
Но схема выглядит простой и надёжной.
Т.е., изначально можно кодировать с невысоким качеством, экономя трафик, восстанавливая субъективное качество на приёмной стороне через ИИ.

S>А ведь с развитием качество будет лучше и лучше, возможно что каждое видео можно будет сжать до достаточно подробного словесного описания каждой из сцен?

Точное описание не будет меньше закодированных алгоритмами сжатия пикселей. ))

Хорошей идеей, как и в случае кодирования речи, является улучшение качества видео (upscaling) на приёмной стороне.

S>Тогда трафик сократится в тысячи раз.

Дудки. ))