Сообщение Re[3]: Видеокодек на основе ИИ - будет ли? от 16.11.2025 17:26
Изменено 16.11.2025 17:33 vdimas
Re[3]: Видеокодек на основе ИИ - будет ли?
Здравствуйте, Shmj, Вы писали:
V>>Никому оказалась не нужна механическая речь.
S>Ну так речь же о временах, когда качество воссоздания будет достаточным — чтобы не было признака механичности. Чтобы и ударение и интонация...
Ты ж любишь спрашивать у ИИ, вот спросил бы "Какой объем параметров для описания голоса конкретного артиста у современных музыкальных ИИ, которые делают кавер песни разными голосами?" ))
А если описывать голос качественно, чтобы можно было узнать голос человека после такого кодирования-декодирования — то вот тебе прикидочные цифры.
V>>Точное описание не будет меньше закодированных алгоритмами сжатия пикселей. ))
S>Тут я бы поспорил...
Угу...
Ну вот опиши словами несколько пусть даже периодических узоров на народном платье, надетом на одного из персонажей киношки.
С указанием точного цвета, особенностей материалов и т.д.
В общем, современные алгоритмы motion detection всё еще развиваются и именно они дают хороший буст сжатию видео при сохранении качества.
Фишка в том, что этот алгоритм выделяет движущиеся объекты (области изображения) и превращает движущиеся эти области почти в статические, т.е. где разница содержимого областей м/у кадрами минимальна, в итоге эта разница сжимается на порядки.
Это выглядит более перспективно.
А вот для upscaling в дорогих телеках применяют ИИ уже относительно давно.
Правда, в этой области (а) идёт быстрое устаревание разработок прошлых лет и (б) вангую, что эта функциональность на нашей памяти переползёт прямо в стандарты, типа как когда-то в стандарты звука переползли алгоритмы управления динамическим диапазоном из семейства Dolby. ))
(Поначалу алгоритмы семейства Dolby были примерно на тех же правах, как частные решения "по месту" в современных дорогих телеках некоторых производителей)
V>>Никому оказалась не нужна механическая речь.
S>Ну так речь же о временах, когда качество воссоздания будет достаточным — чтобы не было признака механичности. Чтобы и ударение и интонация...
Ты ж любишь спрашивать у ИИ, вот спросил бы "Какой объем параметров для описания голоса конкретного артиста у современных музыкальных ИИ, которые делают кавер песни разными голосами?" ))
В общем, даже при ранних попытках описать особенности голоса для управления фонемами, быстро превзошли исходный сжатый речевой трафик, ради улучшения которого всё и затевалось.Короткий ответ: размер файла с параметрами голоса конкретного артиста обычно составляет от 40 до 200 мегабайт (МБ)
А если описывать голос качественно, чтобы можно было узнать голос человека после такого кодирования-декодирования — то вот тебе прикидочные цифры.
V>>Точное описание не будет меньше закодированных алгоритмами сжатия пикселей. ))
S>Тут я бы поспорил...
Угу...
Ну вот опиши словами несколько пусть даже периодических узоров на народном платье, надетом на одного из персонажей киношки.
С указанием точного цвета, особенностей материалов и т.д.
В общем, современные алгоритмы motion detection всё еще развиваются и именно они дают хороший буст сжатию видео при сохранении качества.
Фишка в том, что этот алгоритм выделяет движущиеся объекты (области изображения) и превращает движущиеся эти области почти в статические, т.е. где разница содержимого областей м/у кадрами минимальна, в итоге эта разница сжимается на порядки.
Это выглядит более перспективно.
А вот для upscaling в дорогих телеках применяют ИИ уже относительно давно.
Правда, в этой области (а) идёт быстрое устаревание разработок прошлых лет и (б) вангую, что эта функциональность на нашей памяти переползёт прямо в стандарты, типа как когда-то в стандарты звука переползли алгоритмы управления динамическим диапазоном из семейства Dolby. ))
(Поначалу алгоритмы семейства Dolby были примерно на тех же правах, как частные решения "по месту" в современных дорогих телеках некоторых производителей)
Re[3]: Видеокодек на основе ИИ - будет ли?
Здравствуйте, Shmj, Вы писали:
V>>Никому оказалась не нужна механическая речь.
S>Ну так речь же о временах, когда качество воссоздания будет достаточным — чтобы не было признака механичности. Чтобы и ударение и интонация...
Ты ж любишь спрашивать у ИИ, вот спросил бы "Какой объем параметров для описания голоса конкретного артиста у современных музыкальных ИИ, которые делают кавер песни разными голосами?" ))
А если описывать голос качественно, чтобы можно было узнать голос человека после такого кодирования-декодирования — то вот тебе прикидочные цифры.
V>>Точное описание не будет меньше закодированных алгоритмами сжатия пикселей. ))
S>Тут я бы поспорил...
Угу...
Ну вот опиши словами несколько пусть даже периодических узоров на народном платье, надетом на одного из персонажей киношки.
С указанием точного цвета, особенностей материалов и т.д.
В общем, современные алгоритмы motion detection всё еще развиваются и именно они дают хороший буст сжатию видео при сохранении качества.
Фишка в том, что этот алгоритм выделяет движущиеся объекты (области изображения) и превращает движущиеся эти области почти в статические, т.е. где разница содержимого областей м/у кадрами минимальна, в итоге эта разница сжимается на порядки.
Кстате, коль обычно при студийном сжатии ресурсы кодека не ограничены, то ИИ мог бы помочь лучше выделять движущиеся объекты на изображении.
Это выглядит более перспективно и технически реализуемо уже прямо сейчас.
А вот для upscaling в дорогих телеках применяют ИИ уже относительно давно.
Правда, в этой области (а) идёт быстрое устаревание разработок прошлых лет и (б) вангую, что эта функциональность на нашей памяти переползёт прямо в стандарты, типа как когда-то в стандарты звука переползли алгоритмы управления динамическим диапазоном из семейства Dolby. ))
(Поначалу алгоритмы семейства Dolby были примерно на тех же правах, как частные решения "по месту" в современных дорогих телеках некоторых производителей)
V>>Никому оказалась не нужна механическая речь.
S>Ну так речь же о временах, когда качество воссоздания будет достаточным — чтобы не было признака механичности. Чтобы и ударение и интонация...
Ты ж любишь спрашивать у ИИ, вот спросил бы "Какой объем параметров для описания голоса конкретного артиста у современных музыкальных ИИ, которые делают кавер песни разными голосами?" ))
В общем, даже при ранних попытках описать особенности голоса для управления фонемами, быстро превзошли исходный сжатый речевой трафик, ради улучшения которого всё и затевалось.Короткий ответ: размер файла с параметрами голоса конкретного артиста обычно составляет от 40 до 200 мегабайт (МБ)
А если описывать голос качественно, чтобы можно было узнать голос человека после такого кодирования-декодирования — то вот тебе прикидочные цифры.
V>>Точное описание не будет меньше закодированных алгоритмами сжатия пикселей. ))
S>Тут я бы поспорил...
Угу...
Ну вот опиши словами несколько пусть даже периодических узоров на народном платье, надетом на одного из персонажей киношки.
С указанием точного цвета, особенностей материалов и т.д.
В общем, современные алгоритмы motion detection всё еще развиваются и именно они дают хороший буст сжатию видео при сохранении качества.
Фишка в том, что этот алгоритм выделяет движущиеся объекты (области изображения) и превращает движущиеся эти области почти в статические, т.е. где разница содержимого областей м/у кадрами минимальна, в итоге эта разница сжимается на порядки.
Кстате, коль обычно при студийном сжатии ресурсы кодека не ограничены, то ИИ мог бы помочь лучше выделять движущиеся объекты на изображении.
Это выглядит более перспективно и технически реализуемо уже прямо сейчас.
А вот для upscaling в дорогих телеках применяют ИИ уже относительно давно.
Правда, в этой области (а) идёт быстрое устаревание разработок прошлых лет и (б) вангую, что эта функциональность на нашей памяти переползёт прямо в стандарты, типа как когда-то в стандарты звука переползли алгоритмы управления динамическим диапазоном из семейства Dolby. ))
(Поначалу алгоритмы семейства Dolby были примерно на тех же правах, как частные решения "по месту" в современных дорогих телеках некоторых производителей)