Наверное, будет стоить неприлично дорого как workstation.
Ryzen AI Max+ Pro 395 teamed with 128GB LPDDR5X
128, Карл, из которых 96 можно отдать под GPU, и гонять inference LLM-к, которые 4090 укакивается запихнуть в VRAM. В маленькой коробочке- клоне мак мини, но с любимым линухом вместо анально-плагной макоси.
А размеры и вес где-то написаны? Это побольше тех коробочек которые ты собрался покупать.
Мы покупали лет 7 назад HP на Corei7 подобного размера несколько штук, примерно 28x28x12, хорошая вещь,
стоила в пределах $1000
Если это опять 15x15x5 то фтопку.
Судя по картинке где-то между этими размерами.
Засунуть в такой размер топовый процессор для длительной нагрузки плохая идея.
РАзве только чтобы был
Аё>Ryzen AI Max+ Pro 395 teamed with 128GB LPDDR5X Аё>128, Карл, из которых 96 можно отдать под GPU, и гонять inference LLM-к, которые 4090 укакивается запихнуть в VRAM. В маленькой коробочке- клоне мак мини, но с любимым линухом вместо анально-плагной макоси.
Аё>Круто же?
Здравствуйте, Артём, Вы писали:
Аё>А не хочет. Моделек много, куда опциональна. У 4090 24г рамы, а в этой колбочке 96 под vram. LLM нужно много-много рамы.
Для тех, которые могут без Куды должно быть неплохо. Хотя еще важно количество ядер на GPU на этой железке — это тебе определит, как долго считать будет.
Но по моему опыту пока 99% нейронок хотят Куду или TensorRT — это всё от Нвидии. АМД и Интел и Гугель эту область отдали Нвидии. У китайцев пока тоже ничего.
Здравствуйте, Vzhyk2, Вы писали:
V>Но по моему опыту пока 99% нейронок хотят Куду или TensorRT — это всё от Нвидии. АМД и Интел и Гугель эту область отдали Нвидии. У китайцев пока тоже ничего.
По моему опыту, нейронки 100% бегают на проце, особенно бодренько с avx512, а вот на cuda нюансы- какие то операторы отсутствуют и моделька не работает (на десктопе). Ещё такая тема webgpu, там запускается и бегает, но выхлоп неочень- весь экран вместе с видео лагает из-за нагрузки, в отличие от когда на проце в фоне грутит и видео на экране плавное.
Здравствуйте, Артём, Вы писали:
Аё>По моему опыту, нейронки 100% бегают на проце, особенно бодренько с avx512,
На openvino? Редкий зверь, но возможно, что те нейронки, что ты юзаешь на него портированы.
Ну и еще предупрежу, AVX512 еще тот обогреватель.
Здравствуйте, Vzhyk2, Вы писали:
Аё>>По моему опыту, нейронки 100% бегают на проце, особенно бодренько с avx512, V>На openvino? Редкий зверь, но возможно, что те нейронки, что ты юзаешь на него портированы.
ONNX Runtime. Оно умеет под Node с CUDA, но конкретно с теми модельками, что мне нужны- там какие-то специфические операторы, задйствованные в модели, отсутствуют в имплементации под CUDA. Вообще, состояние опен-сорсных фреймворков с NPU и GPU достаточно печальное — имлементация отсутствует, или неполная.
WebAssembly backend
ONNX Runtime Web currently support all operators in ai.onnx and ai.onnx.ml.
WebGL backend
ONNX Runtime Web currently supports a subset of operators in ai.onnx operator set. See webgl-operators.md for a complete, detailed list of which ONNX operators are supported by WebGL backend.
WebGPU backend
WebGPU backend is still an experimental feature. See webgpu-operators.md for a detailed list of which ONNX operators are supported by WebGPU backend.
V>Ну и еще предупрежу, AVX512 еще тот обогреватель.
Ну это самое что хорошо ускоряет инференс.
Здравствуйте, Артём, Вы писали:
Аё>ONNX Runtime. Оно умеет под Node с CUDA, но конкретно с теми модельками, что мне нужны- там какие-то специфические операторы, задйствованные в модели, отсутствуют в имплементации под CUDA. Вообще, состояние опен-сорсных фреймворков с NPU и GPU достаточно печальное — имлементация отсутствует, или неполная.
ONNX всегда отставал и будет отставать от того же торча, tf и других. Ну и предупрежу, что перетаскивание модели с одного движка на другой обычно еще тот квест, если модель новая.
Аё>Ну это самое что хорошо ускоряет инференс.
В сравнении с GPU и подобным слабо и еще нужно мощное охлаждение CPU делать для юзания AVX512.
Это все легко сделать в большой башне и сложно в маленькой коробочке.
Аё>Ryzen AI Max+ Pro 395 teamed with 128GB LPDDR5X
Аё>128, Карл, из которых 96 можно отдать под GPU, и гонять inference LLM-к, которые 4090 укакивается запихнуть в VRAM. В маленькой коробочке- клоне мак мини, но с любимым линухом вместо анально-плагной макоси.
Аё>Круто же?
а кстати, как упомянутый макмини (макмини на м4 стоит $700) дружит с нейросетями и фреймворками (keras/tensorflow, pytorch), кто-нибудь изучал вопрос? Локальное обучение, inference. Ну да, ОЗУ не так много, но вроде проц неплохой и заточен под нейросети?
Здравствуйте, Артём, Вы писали:
Аё>Предположу, что мини за 700 располагает 8 гигами рамы. Мини с 128г рамы конфигурится по хитрой цене Эппла и немножко дороже.
ну не все же в озу упирается? Как насчет M4 vs Nvidia?
Здравствуйте, opfor, Вы писали:
O>ну не все же в озу упирается? Как насчет M4 vs Nvidia?
Всё упмрается в раму. Поэтому-то коробочка макмини с 128г рамы рвёт просторного ящика с 4090. Причём у мака, рама распаяна в чиплете- наиболее близко к процу.
Здравствуйте, Nuzhny, Вы писали:
N>Nvidia Digits же. Туда можно будет засунуть LLM уже побольше и бегать она будет побыстрее.
Project DIGITS will be available in May from NVIDIA and top partners, starting at $3,000
Немальнькие аппетиты у Хуанга за коробочку. Спасибо за сслылку. Как удмаешь- Project DIGITS сможет конкурировать ркшениями от Apple и AMD в роли универсального компа для разработчика/нёрда?
Здравствуйте, opfor, Вы писали:
O>а кстати, как упомянутый макмини (макмини на м4 стоит $700) дружит с нейросетями и фреймворками (keras/tensorflow, pytorch), кто-нибудь изучал вопрос? Локальное обучение, inference. Ну да, ОЗУ не так много, но вроде проц неплохой и заточен под нейросети?
С pytorch всё чудесно. Если модели свои или что-то очень типовое — то m4 очень даже хорошо заменяет компьютер с видеокартой.
Но, размеры памяти ограничивают размеры моделей (особенно на обучение), поэтому вариант за 700 скорей для обучения, чем для работы.
И есть нюансы с тем, что почти всё заточено на CUDA + Nvidia, поэтому какие-то плюс-минус стандартные вещи запустить будет весьма специфическим квестом, иногда с толикой безисходности.
Для обучения и инференса части готового — всё отлично. Для реальной работы или специфических моделей — не вариант.
Круто, но нужно понимать, что производительность будет в разы меньше, чем у дискретной видеокарты. Из-за разницы в количестве вычислительных блоков и пропускной способности памяти.
Здравствуйте, Vzhyk2, Вы писали:
V>Здравствуйте, Артём, Вы писали:
Аё>>Круто же? V>Нет. V>Вот тебе вопросик на подумать. Как ты в эту коробочку загонишь нейронку, что хочет Куду?
У меня есть встречный вопрос — а с какого именно хера умножение векторов на векторных процессорах, single instruction multiple data стало требовать какого-то особого интерфейса? Вы что там, с ума все посходили со своим vendor lock?
Здравствуйте, Артём, Вы писали:
Аё>128, Карл, из которых 96 можно отдать под GPU, и гонять inference LLM-к, которые 4090 укакивается запихнуть в VRAM. В маленькой коробочке- клоне мак мини, но с любимым линухом вместо анально-плагной макоси.
Небось, на полной нагрузке эта коробочка дует вентиляторами так, что её приходится к тяжелому монитору привинчивать, чтобы не улетела. Не зря там на сайте заодно и мониторы продают — специальные, тяжелые.