Здравствуйте, _ilya_, Вы писали:
__>Это скорости как на CPU, при этом на 12 канальном DDR5 будет с 2 раза быстрее, на DDR4 чуть медленнее(но сравнимо).
Давай подробности как ты завел 120b модель на CPU с указанной скоростью. Возьмем хотя бы qwen3.5-122b-a10b с контекстом 200к+
А то многие "обзорщики" смело заводят модель с контекстом 2к/4к пишут "Хелло, ворлд" и тыкают как все летает (на самом деле нет). А делаешь шаг к реальной конфигурации и сразу становится понятно что нужно делить на 10 в лучшем случае.
__>Вместо DGX Spark — односокет на Epyc/Xeon, желательно DDR5 (при этом там не требуется топовый проц, т.е. 16 ядерного должно хватать если там все норм с каналами памяти, т.е. пропускная памяти не падает из-за огрызка проца) и вставить в такой имеющуюся rtx 4500 — PP будет космос, можно памяти вставлять сколько угодно и на проце даже будет быстрее чем на "игрушке DGX Spark".
Это чушь. У тебя узким горлышком будет обмен между картой и ОЗУ. И все скатится до 2-3 ток/сек. 4500 тянет нормально модели 30b в квантах Q4/Q5.
Повторюсь еще раз. Спарк — это дешевая версия для обучения/файнтюнинга небольших-средних размеров. Плюс он отлично масштабируется, позволяя играться даже с большими моделями. Он не предназначен для массового инференса. Даже для локального инференса он так себе по сравнению с существующими топами. При этом он мелкий сам и мало жрет и позволяет организовать использование без расшаривания приватных данных. Да, у него есть недостатки. Чего только стоит LDDR5, или то что выхлоп теплого воздуха идет в направлении кабелей, или что кнопка включения на тыльной панели.
Ну и я выше писал что используя предыдущее поколение железа или бу можно сэкономить. Но это уже личные предпочтения.