Re: Коробочка для локальных LLM - Железо

HP Z2 Mini G1a
https://www.hp.com/us-en/workstations/z2-mini-a.html

Наверное, будет стоить неприлично дорого как workstation.

Ryzen AI Max+ Pro 395 teamed with 128GB LPDDR5X

128, Карл, из которых 96 можно отдать под GPU, и гонять inference LLM-к, которые 4090 укакивается запихнуть в VRAM. В маленькой коробочке- клоне мак мини, но с любимым линухом вместо анально-плагной макоси.

Круто же?

Здравствуйте, Артём, Вы писали:

Аё>HP Z2 Mini G1a
Аё>https://www.hp.com/us-en/workstations/z2-mini-a.html

Аё>Наверное, будет стоить неприлично дорого как workstation.
Аё>

А размеры и вес где-то написаны? Это побольше тех коробочек которые ты собрался покупать.
Мы покупали лет 7 назад HP на Corei7 подобного размера несколько штук, примерно 28x28x12, хорошая вещь,
стоила в пределах $1000
Если это опять 15x15x5 то фтопку.
Судя по картинке где-то между этими размерами.
Засунуть в такой размер топовый процессор для длительной нагрузки плохая идея.
РАзве только чтобы был

Аё>Ryzen AI Max+ Pro 395 teamed with 128GB LPDDR5X
Аё>128, Карл, из которых 96 можно отдать под GPU, и гонять inference LLM-к, которые 4090 укакивается запихнуть в VRAM. В маленькой коробочке- клоне мак мини, но с любимым линухом вместо анально-плагной макоси.

Аё>Круто же?

Отредактировано 10.01.2025 9:51 swame . Предыдущая версия .

Отредактировано 10.01.2025 9:49 swame . Предыдущая версия .

Отредактировано 10.01.2025 9:35 swame . Предыдущая версия .

Отредактировано 10.01.2025 9:33 swame . Предыдущая версия .

Отредактировано 10.01.2025 9:31 swame . Предыдущая версия .

Здравствуйте, Артём, Вы писали:

Аё>Круто же?
Нет.
Вот тебе вопросик на подумать. Как ты в эту коробочку загонишь нейронку, что хочет Куду?

Здравствуйте, Vzhyk2, Вы писали:

V>Вот тебе вопросик на подумать. Как ты в эту коробочку загонишь нейронку, что хочет Куду?

А не хочет. Моделек много, куда опциональна. У 4090 24г рамы, а в этой колбочке 96 под vram. LLM нужно много-много рамы.

Здравствуйте, Артём, Вы писали:

Аё>А не хочет. Моделек много, куда опциональна. У 4090 24г рамы, а в этой колбочке 96 под vram. LLM нужно много-много рамы.
Для тех, которые могут без Куды должно быть неплохо. Хотя еще важно количество ядер на GPU на этой железке — это тебе определит, как долго считать будет.
Но по моему опыту пока 99% нейронок хотят Куду или TensorRT — это всё от Нвидии. АМД и Интел и Гугель эту область отдали Нвидии. У китайцев пока тоже ничего.

Здравствуйте, Vzhyk2, Вы писали:

V>Но по моему опыту пока 99% нейронок хотят Куду или TensorRT — это всё от Нвидии. АМД и Интел и Гугель эту область отдали Нвидии. У китайцев пока тоже ничего.

По моему опыту, нейронки 100% бегают на проце, особенно бодренько с avx512, а вот на cuda нюансы- какие то операторы отсутствуют и моделька не работает (на десктопе). Ещё такая тема webgpu, там запускается и бегает, но выхлоп неочень- весь экран вместе с видео лагает из-за нагрузки, в отличие от когда на проце в фоне грутит и видео на экране плавное.

Здравствуйте, Артём, Вы писали:

Аё>По моему опыту, нейронки 100% бегают на проце, особенно бодренько с avx512,
На openvino? Редкий зверь, но возможно, что те нейронки, что ты юзаешь на него портированы.
Ну и еще предупрежу, AVX512 еще тот обогреватель.

Здравствуйте, Vzhyk2, Вы писали:

Аё>>По моему опыту, нейронки 100% бегают на проце, особенно бодренько с avx512,
V>На openvino? Редкий зверь, но возможно, что те нейронки, что ты юзаешь на него портированы.
ONNX Runtime. Оно умеет под Node с CUDA, но конкретно с теми модельками, что мне нужны- там какие-то специфические операторы, задйствованные в модели, отсутствуют в имплементации под CUDA. Вообще, состояние опен-сорсных фреймворков с NPU и GPU достаточно печальное — имлементация отсутствует, или неполная.

https://www.npmjs.com/package/onnxruntime-node

WebAssembly backend
ONNX Runtime Web currently support all operators in ai.onnx and ai.onnx.ml.

WebGL backend
ONNX Runtime Web currently supports a subset of operators in ai.onnx operator set. See webgl-operators.md for a complete, detailed list of which ONNX operators are supported by WebGL backend.

WebGPU backend
WebGPU backend is still an experimental feature. See webgpu-operators.md for a detailed list of which ONNX operators are supported by WebGPU backend.

V>Ну и еще предупрежу, AVX512 еще тот обогреватель.
Ну это самое что хорошо ускоряет инференс.

Здравствуйте, Артём, Вы писали:

Аё>ONNX Runtime. Оно умеет под Node с CUDA, но конкретно с теми модельками, что мне нужны- там какие-то специфические операторы, задйствованные в модели, отсутствуют в имплементации под CUDA. Вообще, состояние опен-сорсных фреймворков с NPU и GPU достаточно печальное — имлементация отсутствует, или неполная.
ONNX всегда отставал и будет отставать от того же торча, tf и других. Ну и предупрежу, что перетаскивание модели с одного движка на другой обычно еще тот квест, если модель новая.

Аё>Ну это самое что хорошо ускоряет инференс.
В сравнении с GPU и подобным слабо и еще нужно мощное охлаждение CPU делать для юзания AVX512.
Это все легко сделать в большой башне и сложно в маленькой коробочке.

Аё>Ryzen AI Max+ Pro 395 teamed with 128GB LPDDR5X

Аё>128, Карл, из которых 96 можно отдать под GPU, и гонять inference LLM-к, которые 4090 укакивается запихнуть в VRAM. В маленькой коробочке- клоне мак мини, но с любимым линухом вместо анально-плагной макоси.

Аё>Круто же?

а кстати, как упомянутый макмини (макмини на м4 стоит $700) дружит с нейросетями и фреймворками (keras/tensorflow, pytorch), кто-нибудь изучал вопрос? Локальное обучение, inference. Ну да, ОЗУ не так много, но вроде проц неплохой и заточен под нейросети?

Здравствуйте, opfor, Вы писали:

O>а кстати, как упомянутый макмини (макмини на м4 стоит $700) . Ну да, ОЗУ не так много,

Предположу, что мини за 700 располагает 8 гигами рамы. Мини с 128г рамы конфигурится по хитрой цене Эппла и немножко дороже.

Здравствуйте, Артём, Вы писали:

Аё>Предположу, что мини за 700 располагает 8 гигами рамы. Мини с 128г рамы конфигурится по хитрой цене Эппла и немножко дороже.

ну не все же в озу упирается? Как насчет M4 vs Nvidia?

Здравствуйте, opfor, Вы писали:

O>ну не все же в озу упирается? Как насчет M4 vs Nvidia?

Всё упмрается в раму. Поэтому-то коробочка макмини с 128г рамы рвёт просторного ящика с 4090. Причём у мака, рама распаяна в чиплете- наиболее близко к процу.

Здравствуйте, Артём, Вы писали:

Аё>Круто же?

Nvidia Digits же. Туда можно будет засунуть LLM уже побольше и бегать она будет побыстрее.

Здравствуйте, Nuzhny, Вы писали:

N>Nvidia Digits же. Туда можно будет засунуть LLM уже побольше и бегать она будет побыстрее.

Project DIGITS will be available in May from NVIDIA and top partners, starting at $3,000

Немальнькие аппетиты у Хуанга за коробочку. Спасибо за сслылку. Как удмаешь- Project DIGITS сможет конкурировать ркшениями от Apple и AMD в роли универсального компа для разработчика/нёрда?

Здравствуйте, opfor, Вы писали:

O>а кстати, как упомянутый макмини (макмини на м4 стоит $700) дружит с нейросетями и фреймворками (keras/tensorflow, pytorch), кто-нибудь изучал вопрос? Локальное обучение, inference. Ну да, ОЗУ не так много, но вроде проц неплохой и заточен под нейросети?

С pytorch всё чудесно. Если модели свои или что-то очень типовое — то m4 очень даже хорошо заменяет компьютер с видеокартой.
Но, размеры памяти ограничивают размеры моделей (особенно на обучение), поэтому вариант за 700 скорей для обучения, чем для работы.
И есть нюансы с тем, что почти всё заточено на CUDA + Nvidia, поэтому какие-то плюс-минус стандартные вещи запустить будет весьма специфическим квестом, иногда с толикой безисходности.

Для обучения и инференса части готового — всё отлично. Для реальной работы или специфических моделей — не вариант.

Здравствуйте, Артём, Вы писали:

Аё>Круто же?

Круто, но нужно понимать, что производительность будет в разы меньше, чем у дискретной видеокарты. Из-за разницы в количестве вычислительных блоков и пропускной способности памяти.

Здравствуйте, m2l, Вы писали:

Через BizonBox3 подключал 4090 к макмини и обучал там на питорч

Здравствуйте, Vzhyk2, Вы писали:

V>Здравствуйте, Артём, Вы писали:

Аё>>Круто же?
V>Нет.
V>Вот тебе вопросик на подумать. Как ты в эту коробочку загонишь нейронку, что хочет Куду?

У меня есть встречный вопрос — а с какого именно хера умножение векторов на векторных процессорах, single instruction multiple data стало требовать какого-то особого интерфейса? ~~Вы что там, с ума все посходили со своим vendor lock?~~

Здравствуйте, Артём, Вы писали:

Аё>128, Карл, из которых 96 можно отдать под GPU, и гонять inference LLM-к, которые 4090 укакивается запихнуть в VRAM. В маленькой коробочке- клоне мак мини, но с любимым линухом вместо анально-плагной макоси.

Небось, на полной нагрузке эта коробочка дует вентиляторами так, что её приходится к тяжелому монитору привинчивать, чтобы не улетела. Не зря там на сайте заодно и мониторы продают — специальные, тяжелые.

От:	Артём	жж
Дата:	09.01.25 21:06
Оценка:

	От:	swame
	Дата:	10.01.25 09:31
	Оценка:

	От:	Vzhyk2
	Дата:	10.01.25 09:42
	Оценка:

От:	Артём	жж
Дата:	10.01.25 13:21
Оценка:

	От:	Vzhyk2
	Дата:	10.01.25 14:17
	Оценка:

От:	Nuzhny	https://github.com/Nuzhny007
Дата:	13.01.25 09:52
Оценка:	2 (1)

От:	Pzz	https://github.com/alexpevzner
Дата:	04.05.25 21:58
Оценка:

	От:	opfor
	Дата:	12.01.25 23:28
	Оценка: