Здравствуйте, CreatorCray, Вы писали:
CC>Нет. CC>1. Ресурсов нейросетка требует очень сильно больше
Я бы не был столь однозначен.
Уже есть Imagine Flash — самая быстрая нейронка, которая работает на телефоне и генерирует картинки в процессе ввода текста. Это как контрпример.
Второе: та же Nvidia вполне может изменить архитектуру видеокарт так, чтобы типичные ьрансформенные операции (это уже есть), а также всё друго для генерации делалось максимально аппаратно. И получится так, что ресурсов, вроде, тратится и больше, но происходит всё это быстрее.
CC>2. Удачи заставить её сгенерить то, что надо, а не то, что её хочется
Тоже зависит от нейронки. Можно вполне добиться не bit exact, но вполне точной генерации контента. Как-то Sora умудряется генерировать связанное видео, даже с сюжетом? Если бы было так плохо, как ты говоришь, то между соседними кадрами был бы большой рассинхрон. Уменьшаем такой рассинхрон между текстом и картинкой и всё. Потихоньку учится индустрия, то что было 2 года назад и сейчас — небо и земля. Только за последний год тренд с агентами внутри сети опять всё поменял.
Короче, пока тренд в нейросетях, скорее, опровергает твою позицию, чем подкрепляет.