Сообщение Re: Видеокодек на основе ИИ - будет ли? от 15.11.2025 21:51
Изменено 15.11.2025 21:53 vdimas
Re: Видеокодек на основе ИИ - будет ли?
Здравствуйте, Shmj, Вы писали:
S>А вот сейчас появился ИИ, который по словесному поносу может генерить видео.
Были попытки похожим образом сжимать/кодировать человеческую речь — распознавали фонемы-токены и воспроизводили эти фонемы по номерам и таймингам на другой стороне.
Трафик ужимался что-то напорядок раз, схема прекрасно работает, по всему миру защитили десятки диссеров...
Но не взлетело. ))
Никому оказалась не нужна механическая речь.
А при попытке закодировать еще интонировку получили трафик примерно как у хороших алгоритмов сжатия речи, только с намного большими вычислительными затратами при кодировании-раскодировании.
Но зато ИИ неплохо показал себя в деле улучшения качества речи на приёмной стороне в условиях помех и пропажи UDP-пакетов.
Но да, всё еще требуются нехилые ресурсы.
Но схема выглядит простой и надёжной.
Т.е., изначально можно кодировать с невысоким качеством, восстанавливая субъективное качество на приёмной стороне через ИИ.
S>А ведь с развитием качество будет лучше и лучше, возможно что каждое видео можно будет сжать до достаточно подробного словесного описания каждой из сцен?
Точное описание не будет меньше закодированных алгоритмами сжатия пикселей. ))
Хорошей идеей, как и в случае кодирования речи, является улучшение качества видео (upscaling) на приёмной стороне.
S>Тогда трафик сократится в тысячи раз.
Дудки. ))
S>А вот сейчас появился ИИ, который по словесному поносу может генерить видео.
Были попытки похожим образом сжимать/кодировать человеческую речь — распознавали фонемы-токены и воспроизводили эти фонемы по номерам и таймингам на другой стороне.
Трафик ужимался что-то напорядок раз, схема прекрасно работает, по всему миру защитили десятки диссеров...
Но не взлетело. ))
Никому оказалась не нужна механическая речь.
А при попытке закодировать еще интонировку получили трафик примерно как у хороших алгоритмов сжатия речи, только с намного большими вычислительными затратами при кодировании-раскодировании.
Но зато ИИ неплохо показал себя в деле улучшения качества речи на приёмной стороне в условиях помех и пропажи UDP-пакетов.
Но да, всё еще требуются нехилые ресурсы.
Но схема выглядит простой и надёжной.
Т.е., изначально можно кодировать с невысоким качеством, восстанавливая субъективное качество на приёмной стороне через ИИ.
S>А ведь с развитием качество будет лучше и лучше, возможно что каждое видео можно будет сжать до достаточно подробного словесного описания каждой из сцен?
Точное описание не будет меньше закодированных алгоритмами сжатия пикселей. ))
Хорошей идеей, как и в случае кодирования речи, является улучшение качества видео (upscaling) на приёмной стороне.
S>Тогда трафик сократится в тысячи раз.
Дудки. ))
Re: Видеокодек на основе ИИ - будет ли?
Здравствуйте, Shmj, Вы писали:
S>А вот сейчас появился ИИ, который по словесному поносу может генерить видео.
Были попытки похожим образом сжимать/кодировать человеческую речь — распознавали фонемы-токены и воспроизводили эти фонемы по номерам и таймингам на другой стороне.
Трафик ужимался что-то нап орядок, схема прекрасно работает, по всему миру защитили десятки диссеров...
Но не взлетело. ))
Никому оказалась не нужна механическая речь.
А при попытке закодировать еще интонировку получили трафик примерно как у хороших алгоритмов сжатия речи, только с намного большими вычислительными затратами при кодировании-раскодировании. И все-равно, на приёмной стороне получали другой голос, чем на стороне отправки.
Но зато ИИ неплохо показал себя в деле улучшения качества речи на приёмной стороне в условиях помех и пропажи UDP-пакетов.
Но да, всё еще требуются нехилые ресурсы.
Но схема выглядит простой и надёжной.
Т.е., изначально можно кодировать с невысоким качеством, экономя трафик, восстанавливая субъективное качество на приёмной стороне через ИИ.
S>А ведь с развитием качество будет лучше и лучше, возможно что каждое видео можно будет сжать до достаточно подробного словесного описания каждой из сцен?
Точное описание не будет меньше закодированных алгоритмами сжатия пикселей. ))
Хорошей идеей, как и в случае кодирования речи, является улучшение качества видео (upscaling) на приёмной стороне.
S>Тогда трафик сократится в тысячи раз.
Дудки. ))
S>А вот сейчас появился ИИ, который по словесному поносу может генерить видео.
Были попытки похожим образом сжимать/кодировать человеческую речь — распознавали фонемы-токены и воспроизводили эти фонемы по номерам и таймингам на другой стороне.
Трафик ужимался что-то нап орядок, схема прекрасно работает, по всему миру защитили десятки диссеров...
Но не взлетело. ))
Никому оказалась не нужна механическая речь.
А при попытке закодировать еще интонировку получили трафик примерно как у хороших алгоритмов сжатия речи, только с намного большими вычислительными затратами при кодировании-раскодировании. И все-равно, на приёмной стороне получали другой голос, чем на стороне отправки.
Но зато ИИ неплохо показал себя в деле улучшения качества речи на приёмной стороне в условиях помех и пропажи UDP-пакетов.
Но да, всё еще требуются нехилые ресурсы.
Но схема выглядит простой и надёжной.
Т.е., изначально можно кодировать с невысоким качеством, экономя трафик, восстанавливая субъективное качество на приёмной стороне через ИИ.
S>А ведь с развитием качество будет лучше и лучше, возможно что каждое видео можно будет сжать до достаточно подробного словесного описания каждой из сцен?
Точное описание не будет меньше закодированных алгоритмами сжатия пикселей. ))
Хорошей идеей, как и в случае кодирования речи, является улучшение качества видео (upscaling) на приёмной стороне.
S>Тогда трафик сократится в тысячи раз.
Дудки. ))