Коробочка для локальных LLM
От: Артём Австралия жж
Дата: 09.01.25 21:06
Оценка:
HP Z2 Mini G1a
https://www.hp.com/us-en/workstations/z2-mini-a.html

Наверное, будет стоить неприлично дорого как workstation.

Ryzen AI Max+ Pro 395 teamed with 128GB LPDDR5X

128, Карл, из которых 96 можно отдать под GPU, и гонять inference LLM-к, которые 4090 укакивается запихнуть в VRAM. В маленькой коробочке- клоне мак мини, но с любимым линухом вместо анально-плагной макоси.

Круто же?
Re: Коробочка для локальных LLM
От: swame  
Дата: 10.01.25 09:31
Оценка:
Здравствуйте, Артём, Вы писали:

Аё>HP Z2 Mini G1a

Аё>https://www.hp.com/us-en/workstations/z2-mini-a.html

Аё>Наверное, будет стоить неприлично дорого как workstation.

Аё>

А размеры и вес где-то написаны? Это побольше тех коробочек которые ты собрался покупать.
Мы покупали лет 7 назад HP на Corei7 подобного размера несколько штук, примерно 28x28x12, хорошая вещь,
стоила в пределах $1000
Если это опять 15x15x5 то фтопку.
Судя по картинке где-то между этими размерами.
Засунуть в такой размер топовый процессор для длительной нагрузки плохая идея.
РАзве только чтобы был

Аё>Ryzen AI Max+ Pro 395 teamed with 128GB LPDDR5X

Аё>128, Карл, из которых 96 можно отдать под GPU, и гонять inference LLM-к, которые 4090 укакивается запихнуть в VRAM. В маленькой коробочке- клоне мак мини, но с любимым линухом вместо анально-плагной макоси.

Аё>Круто же?
Отредактировано 10.01.2025 12:21 swame . Предыдущая версия . Еще …
Отредактировано 10.01.2025 9:51 swame . Предыдущая версия .
Отредактировано 10.01.2025 9:49 swame . Предыдущая версия .
Отредактировано 10.01.2025 9:35 swame . Предыдущая версия .
Отредактировано 10.01.2025 9:33 swame . Предыдущая версия .
Отредактировано 10.01.2025 9:31 swame . Предыдущая версия .
Re: Коробочка для локальных LLM
От: Vzhyk2  
Дата: 10.01.25 09:42
Оценка:
Здравствуйте, Артём, Вы писали:

Аё>Круто же?

Нет.
Вот тебе вопросик на подумать. Как ты в эту коробочку загонишь нейронку, что хочет Куду?
Re[2]: Коробочка для локальных LLM
От: Артём Австралия жж
Дата: 10.01.25 13:21
Оценка:
Здравствуйте, Vzhyk2, Вы писали:

V>Вот тебе вопросик на подумать. Как ты в эту коробочку загонишь нейронку, что хочет Куду?


А не хочет. Моделек много, куда опциональна. У 4090 24г рамы, а в этой колбочке 96 под vram. LLM нужно много-много рамы.
Re[3]: Коробочка для локальных LLM
От: Vzhyk2  
Дата: 10.01.25 14:17
Оценка:
Здравствуйте, Артём, Вы писали:

Аё>А не хочет. Моделек много, куда опциональна. У 4090 24г рамы, а в этой колбочке 96 под vram. LLM нужно много-много рамы.

Для тех, которые могут без Куды должно быть неплохо. Хотя еще важно количество ядер на GPU на этой железке — это тебе определит, как долго считать будет.
Но по моему опыту пока 99% нейронок хотят Куду или TensorRT — это всё от Нвидии. АМД и Интел и Гугель эту область отдали Нвидии. У китайцев пока тоже ничего.
Re[4]: Коробочка для локальных LLM
От: Артём Австралия жж
Дата: 11.01.25 00:35
Оценка:
Здравствуйте, Vzhyk2, Вы писали:

V>Но по моему опыту пока 99% нейронок хотят Куду или TensorRT — это всё от Нвидии. АМД и Интел и Гугель эту область отдали Нвидии. У китайцев пока тоже ничего.


По моему опыту, нейронки 100% бегают на проце, особенно бодренько с avx512, а вот на cuda нюансы- какие то операторы отсутствуют и моделька не работает (на десктопе). Ещё такая тема webgpu, там запускается и бегает, но выхлоп неочень- весь экран вместе с видео лагает из-за нагрузки, в отличие от когда на проце в фоне грутит и видео на экране плавное.
Re[5]: Коробочка для локальных LLM
От: Vzhyk2  
Дата: 11.01.25 06:23
Оценка:
Здравствуйте, Артём, Вы писали:

Аё>По моему опыту, нейронки 100% бегают на проце, особенно бодренько с avx512,

На openvino? Редкий зверь, но возможно, что те нейронки, что ты юзаешь на него портированы.
Ну и еще предупрежу, AVX512 еще тот обогреватель.
Re[6]: Коробочка для локальных LLM
От: Артём Австралия жж
Дата: 12.01.25 00:49
Оценка:
Здравствуйте, Vzhyk2, Вы писали:

Аё>>По моему опыту, нейронки 100% бегают на проце, особенно бодренько с avx512,

V>На openvino? Редкий зверь, но возможно, что те нейронки, что ты юзаешь на него портированы.
ONNX Runtime. Оно умеет под Node с CUDA, но конкретно с теми модельками, что мне нужны- там какие-то специфические операторы, задйствованные в модели, отсутствуют в имплементации под CUDA. Вообще, состояние опен-сорсных фреймворков с NPU и GPU достаточно печальное — имлементация отсутствует, или неполная.

https://www.npmjs.com/package/onnxruntime-node


WebAssembly backend
ONNX Runtime Web currently support all operators in ai.onnx and ai.onnx.ml.

WebGL backend
ONNX Runtime Web currently supports a subset of operators in ai.onnx operator set. See webgl-operators.md for a complete, detailed list of which ONNX operators are supported by WebGL backend.

WebGPU backend
WebGPU backend is still an experimental feature. See webgpu-operators.md for a detailed list of which ONNX operators are supported by WebGPU backend.



V>Ну и еще предупрежу, AVX512 еще тот обогреватель.

Ну это самое что хорошо ускоряет инференс.
Отредактировано 12.01.2025 0:55 Артём . Предыдущая версия . Еще …
Отредактировано 12.01.2025 0:50 Артём . Предыдущая версия .
Re[7]: Коробочка для локальных LLM
От: Vzhyk2  
Дата: 12.01.25 06:19
Оценка:
Здравствуйте, Артём, Вы писали:

Аё>ONNX Runtime. Оно умеет под Node с CUDA, но конкретно с теми модельками, что мне нужны- там какие-то специфические операторы, задйствованные в модели, отсутствуют в имплементации под CUDA. Вообще, состояние опен-сорсных фреймворков с NPU и GPU достаточно печальное — имлементация отсутствует, или неполная.

ONNX всегда отставал и будет отставать от того же торча, tf и других. Ну и предупрежу, что перетаскивание модели с одного движка на другой обычно еще тот квест, если модель новая.

Аё>Ну это самое что хорошо ускоряет инференс.

В сравнении с GPU и подобным слабо и еще нужно мощное охлаждение CPU делать для юзания AVX512.
Это все легко сделать в большой башне и сложно в маленькой коробочке.
Re: Коробочка для локальных LLM
От: opfor  
Дата: 12.01.25 23:28
Оценка:
Здравствуйте, Артём, Вы писали:

Аё>HP Z2 Mini G1a

Аё>https://www.hp.com/us-en/workstations/z2-mini-a.html

Аё>Наверное, будет стоить неприлично дорого как workstation.

Аё>

Аё>Ryzen AI Max+ Pro 395 teamed with 128GB LPDDR5X

Аё>128, Карл, из которых 96 можно отдать под GPU, и гонять inference LLM-к, которые 4090 укакивается запихнуть в VRAM. В маленькой коробочке- клоне мак мини, но с любимым линухом вместо анально-плагной макоси.

Аё>Круто же?


а кстати, как упомянутый макмини (макмини на м4 стоит $700) дружит с нейросетями и фреймворками (keras/tensorflow, pytorch), кто-нибудь изучал вопрос? Локальное обучение, inference. Ну да, ОЗУ не так много, но вроде проц неплохой и заточен под нейросети?
Re[2]: Коробочка для локальных LLM
От: Артём Австралия жж
Дата: 13.01.25 06:53
Оценка:
Здравствуйте, opfor, Вы писали:

O>а кстати, как упомянутый макмини (макмини на м4 стоит $700) . Ну да, ОЗУ не так много,


Предположу, что мини за 700 располагает 8 гигами рамы. Мини с 128г рамы конфигурится по хитрой цене Эппла и немножко дороже.
Re[3]: Коробочка для локальных LLM
От: opfor  
Дата: 13.01.25 07:06
Оценка:
Здравствуйте, Артём, Вы писали:

Аё>Предположу, что мини за 700 располагает 8 гигами рамы. Мини с 128г рамы конфигурится по хитрой цене Эппла и немножко дороже.


ну не все же в озу упирается? Как насчет M4 vs Nvidia?
Re[4]: Коробочка для локальных LLM
От: Артём Австралия жж
Дата: 13.01.25 08:46
Оценка:
Здравствуйте, opfor, Вы писали:

O>ну не все же в озу упирается? Как насчет M4 vs Nvidia?


Всё упмрается в раму. Поэтому-то коробочка макмини с 128г рамы рвёт просторного ящика с 4090. Причём у мака, рама распаяна в чиплете- наиболее близко к процу.
Re: Коробочка для локальных LLM
От: Nuzhny Россия https://github.com/Nuzhny007
Дата: 13.01.25 09:52
Оценка: 2 (1) :)
Здравствуйте, Артём, Вы писали:

Аё>Круто же?


Nvidia Digits же. Туда можно будет засунуть LLM уже побольше и бегать она будет побыстрее.
Re[2]: Коробочка для локальных LLM
От: Артём Австралия жж
Дата: 14.01.25 18:50
Оценка:
Здравствуйте, Nuzhny, Вы писали:

N>Nvidia Digits же. Туда можно будет засунуть LLM уже побольше и бегать она будет побыстрее.


Project DIGITS will be available in May from NVIDIA and top partners, starting at $3,000


Немальнькие аппетиты у Хуанга за коробочку. Спасибо за сслылку. Как удмаешь- Project DIGITS сможет конкурировать ркшениями от Apple и AMD в роли универсального компа для разработчика/нёрда?
Re[2]: Коробочка для локальных LLM
От: m2l  
Дата: 04.05.25 16:44
Оценка:
Здравствуйте, opfor, Вы писали:

O>а кстати, как упомянутый макмини (макмини на м4 стоит $700) дружит с нейросетями и фреймворками (keras/tensorflow, pytorch), кто-нибудь изучал вопрос? Локальное обучение, inference. Ну да, ОЗУ не так много, но вроде проц неплохой и заточен под нейросети?


С pytorch всё чудесно. Если модели свои или что-то очень типовое — то m4 очень даже хорошо заменяет компьютер с видеокартой.
Но, размеры памяти ограничивают размеры моделей (особенно на обучение), поэтому вариант за 700 скорей для обучения, чем для работы.
И есть нюансы с тем, что почти всё заточено на CUDA + Nvidia, поэтому какие-то плюс-минус стандартные вещи запустить будет весьма специфическим квестом, иногда с толикой безисходности.

Для обучения и инференса части готового — всё отлично. Для реальной работы или специфических моделей — не вариант.
Re: Коробочка для локальных LLM
От: m2l  
Дата: 04.05.25 16:48
Оценка:
Здравствуйте, Артём, Вы писали:

Аё>Круто же?


Круто, но нужно понимать, что производительность будет в разы меньше, чем у дискретной видеокарты. Из-за разницы в количестве вычислительных блоков и пропускной способности памяти.
Re[3]: Коробочка для локальных LLM
От: Нomunculus Россия  
Дата: 04.05.25 19:31
Оценка:
Здравствуйте, m2l, Вы писали:

Через BizonBox3 подключал 4090 к макмини и обучал там на питорч
Отредактировано 04.05.2025 19:32 Нomunculus . Предыдущая версия .
Re[2]: Коробочка для локальных LLM
От: Слава  
Дата: 04.05.25 19:52
Оценка:
Здравствуйте, Vzhyk2, Вы писали:

V>Здравствуйте, Артём, Вы писали:


Аё>>Круто же?

V>Нет.
V>Вот тебе вопросик на подумать. Как ты в эту коробочку загонишь нейронку, что хочет Куду?

У меня есть встречный вопрос — а с какого именно хера умножение векторов на векторных процессорах, single instruction multiple data стало требовать какого-то особого интерфейса? Вы что там, с ума все посходили со своим vendor lock?
Re: Коробочка для локальных LLM
От: Pzz Россия https://github.com/alexpevzner
Дата: 04.05.25 21:58
Оценка:
Здравствуйте, Артём, Вы писали:

Аё>128, Карл, из которых 96 можно отдать под GPU, и гонять inference LLM-к, которые 4090 укакивается запихнуть в VRAM. В маленькой коробочке- клоне мак мини, но с любимым линухом вместо анально-плагной макоси.


Небось, на полной нагрузке эта коробочка дует вентиляторами так, что её приходится к тяжелому монитору привинчивать, чтобы не улетела. Не зря там на сайте заодно и мониторы продают — специальные, тяжелые.
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.