Вот сейчас кодирование видео — один из самых математически сложных алгоритмов. И понятно, ведь видео это львиная доля трафика и нагрузки на процессор — видео это самый предпочитаемый способ развлечения и восприятия инфы.
И лидером вроде является AV1, который разрабатывал целый консорциум — крупные компании-участники: Google, Netflix, Amazon, Microsoft и др. и затратили около $150 млн. долларов на этот злосчастный алгоритмик.
А вот сейчас появился ИИ, который по словесному поносу может генерить видео. Плохо, но генерит. А ведь с развитием качество будет лучше и лучше, возможно что каждое видео можно будет сжать до достаточно подробного словесного описания каждой из сцен? Или спец. язык придется придумывать? Смогут ли?
Здравствуйте, Shmj, Вы писали:
S>А вот сейчас появился ИИ, который по словесному поносу может генерить видео. Плохо, но генерит. А ведь с развитием качество будет лучше и лучше, возможно что каждое видео можно будет сжать до достаточно подробного словесного описания каждой из сцен? Или спец. язык придется придумывать? Смогут ли?
Рекомендую в качестве "Hello world" использовать "Война и Мир".
S>Тогда трафик сократится в тысячи раз.
Ага, так и вижу: детская сказка "винни пух" в исполнении локализованного ИИ будет узкоглазой для азии, чернокожей для африки, крупножопой для южной америки...
С бесплатной лицензией рендер "не больше двух персонажей одновременно" — по этому, в массовых сценах все персонажи (включая главных) в случайные моменты времени будут появляться из ниоткуда и исчезать в никуда. Или прорисовываться частично.
Здравствуйте, Stanislaw K, Вы писали:
SK>Рекомендую в качестве "Hello world" использовать "Война и Мир".
Там же будет детальное описание каждой из сцен: откуда падает свет, оттенки и т.д. И скорее всего не на человеческом языке уже а на спец. языке, который только для ИИ. Т.е. речь не о том чтобы человеческие тексты экранизировать — а чтобы по видео создать детальнейшее описание и потом по этому описанию на лету генерить картинку.
Вычислительные мощности будут нужны большие, но ведь сейчас уже добавляют аппаратную поддержку для нейросетей и возможно в будущем уже не покажется такой уж сильной нагрузкой — а каналы физически расширить сложнее, особенно беспроводные.
Здравствуйте, Shmj, Вы писали:
S>Там же будет детальное описание каждой из сцен: откуда падает свет, оттенки и т.д. И скорее всего не на человеческом языке уже а на спец. языке, который только для ИИ. Т.е. речь не о том чтобы человеческие тексты экранизировать — а чтобы по видео создать детальнейшее описание и потом по этому описанию на лету генерить картинку.
А потом обновил модель — и фильм заиграл новыми красками.
Здравствуйте, Shmj, Вы писали:
S>А вот сейчас появился ИИ, который по словесному поносу может генерить видео. Плохо, но генерит. А ведь с развитием качество будет лучше и лучше, возможно что каждое видео можно будет сжать до достаточно подробного словесного описания каждой из сцен? Или спец. язык придется придумывать? Смогут ли?
Я тебе всё таки рекомендую ну хоть что-нибудь почитать по нейросетям, что такое LLM/VLM, как они работают, что такое автоэнкодеры и т.д. Про то, что у них есть энкодеры, декодеры, своё внутреннее пространство для представления вектором-эмбеддингов. Тогда ты поймёшь, что если и делать такой кодек, то точно не на словах.
Так-то нейросетевые кодеки уже существуют, им много лет, картиночным уж точно. Для видео тоже есть, есть даже очень продвинутые. Но одно дело разработать алгоритм/метод/библиотеку, а другое — перейти на него всем, производителям железа в том числе.
Здравствуйте, Shmj, Вы писали:
SK>>Рекомендую в качестве "Hello world" использовать "Война и Мир".
S>Там же будет детальное описание каждой из сцен: откуда падает свет, оттенки и т.д. И скорее всего не на человеческом языке уже а на спец. языке, который только для ИИ. Т.е. речь не о том чтобы человеческие тексты экранизировать — а чтобы по видео создать детальнейшее описание и потом по этому описанию на лету генерить картинку.
"Война и Мир" полностью удовлетворяет этим условиям.
S>Вычислительные мощности будут нужны большие, но ведь сейчас уже добавляют аппаратную поддержку для нейросетей и возможно в будущем уже не покажется такой уж сильной нагрузкой — а каналы физически расширить сложнее, особенно беспроводные.
На самом деле (с) не такие и большие мощности нужны. Для литературы достаточно отрисовывать небольшую сцену с весьма умеренной детализацией.
Читал как-то юмористический фантастический рассказ, там герой попал в литературный мир, населенный персонажами книг. "в помещение вошел мужчина в очках и галстуке. другой одежды на нем не было (потому что автор забыл её описать)".
S>И лидером вроде является AV1
Нет, лидером до сих пор является старый добрый H.264/AVC.
S>А вот сейчас появился ИИ, который по словесному поносу может генерить видео. Плохо, но генерит. А ведь с развитием качество будет лучше и лучше, возможно что каждое видео можно будет сжать до достаточно подробного словесного описания каждой из сцен? Или спец. язык придется придумывать? Смогут ли?
Да, только есть один нюанс: потом это "сжатое до словесного описания" еще надо "разжать" Желательно в то же состояние, что было до.
Ах да, ну и теорему Шеннона (первую), думаю, ИИ тоже вряд ли смогут отменить либо обмануть
Здравствуйте, Nuzhny, Вы писали:
S>>А вот сейчас появился ИИ, который по словесному поносу может генерить видео. Плохо, но генерит. А ведь с развитием качество будет лучше и лучше, возможно что каждое видео можно будет сжать до достаточно подробного словесного описания каждой из сцен? Или спец. язык придется придумывать? Смогут ли?
N>Я тебе всё таки рекомендую ну хоть что-нибудь почитать по нейросетям,
Ты конкретно рекомендуй. А уже что-то я читал, много чего. Но у меня получается что-либо изучить только через задачу — т.е. нужно сделать задачу и я пытаюсь понять как.
Здравствуйте, DiPaolo, Вы писали:
DP>Да, только есть один нюанс: потом это "сжатое до словесного описания" еще надо "разжать" Желательно в то же состояние, что было до.
Зачем до того же? Это сжатие без потерь — а где вы видели для видео сжатие без потерь? И зачем? Смысл видео в том чтобы кожаный смотрел на него своими моргалами. Детали часто не имеют значения — вот держит чел. банку с пивом — не все-ли равно какую, если это не уточняется и надпись не читабельна? Ты запомнишь просто пиво и все, но другое тебе не нужно знать.
S>Зачем до того же? Это сжатие без потерь — а где вы видели для видео сжатие без потерь? И зачем? Смысл видео в том чтобы кожаный смотрел на него своими моргалами. Детали часто не имеют значения — вот держит чел. банку с пивом — не все-ли равно какую, если это не уточняется и надпись не читабельна? Ты запомнишь просто пиво и все, но другое тебе не нужно знать.
Есть как с потерями, так и без. Используется и то, и другое. Для разных целей. Это лишь будет влиять на качество. Декодировать тебе нужно до того же состояния, что и было до енкодирования. Вопрос качества определяется как раз на стороне енкодера.
Здравствуйте, DiPaolo, Вы писали:
DP>Есть как с потерями, так и без. Используется и то, и другое. Для разных целей. Это лишь будет влиять на качество. Декодировать тебе нужно до того же состояния, что и было до енкодирования. Вопрос качества определяется как раз на стороне енкодера.
Для практики это не нужно — человеку не нужно чтобы бит в бит. Главное суть — суть — посмотреть видео с неким смыслом.
S>Там же будет детальное описание каждой из сцен: откуда падает свет, оттенки и т.д. И скорее всего не на человеческом языке уже а на спец. языке, который только для ИИ.
Ты про рендеринг моделей и сцен в блендере/3д-максе/играх?
Так это уже давно реализовано.
Здравствуйте, Shmj, Вы писали:
S>Ты конкретно рекомендуй. А уже что-то я читал, много чего.
Любую, принцип работы везде один (по факту нет, но грубо — да).
Ты же знаешь, что в нейросети есть энкодер, внутреннее представление (embedding или latent space) и декодер. Энкодер может быть текстовым, может быть визуальным — для изображений. Они переводят вход (текст или картинку) в вектора внутреннего представления — эмбеддинги или как их ещё можно назвать. Далее, с ними уже там происходят манипуляции, в результате рождается результат — другой вектор(а) в этом же пространстве. Которые поступают на декодер и выдаются человеку.
Если мы будем что-то хранить в виде текста, то получим в результате непонятно что, а именно сочинение на заданную тему. Но нам же надо сжимать текст/картину/видео без потерь, то есть так, чтобы пользователи видели всё одинаково, при этом размер должен быть минимальным. Для этого надо, чтобы кодек состоял из энкодера-декодера одинаковой архитектуры и с одинаковыми весами (тут можно поспорить, но в целом так), во всех устройствах для просмотра был только декодер, для сжатия — только энкодер. А под видом архива будет распространяться набор векторов внутреннего представления нейросети (сжатых поверх любым архиватором без потерь).
Вот этот принцип нельзя было пропустить при прочтении ЛЮБОЙ современной книги или любой статьи про нейросети, автоэнкодеры, LLM.
Здравствуйте, Nuzhny, Вы писали:
N>Но нам же надо сжимать текст/картину/видео без потерь, то есть так, чтобы пользователи видели всё одинаково, при этом размер должен быть минимальным.
Не обязательно прямо чтобы одинаково — мелкие девиации не имеют особого значения, если не описаны. Мы же люди — вы не делайте из нас роботов то. Нам важна суть, а мелочи мы не помним, главное чтобы они были.
N>Для этого надо, чтобы кодек состоял из энкодера-декодера одинаковой архитектуры и с одинаковыми весами (тут можно поспорить, но в целом так)
Ну вот тут мы теряем универсальность и как бы привязываемся к модели. А хотелось бы универсальности.
Здравствуйте, Shmj, Вы писали:
S>Не обязательно прямо чтобы одинаково — мелкие девиации не имеют особого значения, если не описаны. Мы же люди — вы не делайте из нас роботов то. Нам важна суть, а мелочи мы не помним, главное чтобы они были.
Какая суть? Это же видео, а не книга. В книге можно написать: человек в галстуке и шляпе. В видео важна каждая деталь, мимика, цвет глаз и т.д. Игра актёров мимикой, глазами — это важно в кино. В том-то и дело, что мы люди и нам это важно.
S>Ну вот тут мы теряем универсальность и как бы привязываемся к модели. А хотелось бы универсальности.
Привязка к модели — это и есть та самая универсальность. Иначе ты получишь 1001 экранизацию книги близко к тексту.
Здравствуйте, Nuzhny, Вы писали:
N>Какая суть? Это же видео, а не книга. В книге можно написать: человек в галстуке и шляпе. В видео важна каждая деталь, мимика, цвет глаз и т.д. Игра актёров мимикой, глазами — это важно в кино. В том-то и дело, что мы люди и нам это важно.
Так пусть ИИ сначала распознает, опишет все что видит. А потом так же все воссоздаст.
S>>Ну вот тут мы теряем универсальность и как бы привязываемся к модели. А хотелось бы универсальности. N>Привязка к модели — это и есть та самая универсальность. Иначе ты получишь 1001 экранизацию книги близко к тексту.
Ну и пусть 1001 экранизация — так даже интереснее.
Здравствуйте, Shmj, Вы писали:
S>А вот сейчас появился ИИ, который по словесному поносу может генерить видео.
Были попытки похожим образом сжимать/кодировать человеческую речь — распознавали фонемы-токены и воспроизводили эти фонемы по номерам и таймингам на другой стороне.
Трафик ужимался что-то нап орядок, схема прекрасно работает, по всему миру защитили десятки диссеров...
Но не взлетело. ))
Никому оказалась не нужна механическая речь.
А при попытке закодировать еще интонировку получили трафик примерно как у хороших алгоритмов сжатия речи, только с намного большими вычислительными затратами при кодировании-раскодировании. И все-равно, на приёмной стороне получали другой голос, чем на стороне отправки.
Но зато ИИ неплохо показал себя в деле улучшения качества речи на приёмной стороне в условиях помех и пропажи UDP-пакетов.
Но да, всё еще требуются нехилые ресурсы.
Но схема выглядит простой и надёжной.
Т.е., изначально можно кодировать с невысоким качеством, экономя трафик, восстанавливая субъективное качество на приёмной стороне через ИИ.
S>А ведь с развитием качество будет лучше и лучше, возможно что каждое видео можно будет сжать до достаточно подробного словесного описания каждой из сцен?
Точное описание не будет меньше закодированных алгоритмами сжатия пикселей. ))
Хорошей идеей, как и в случае кодирования речи, является улучшение качества видео (upscaling) на приёмной стороне.