Re[7]: Коробочка для локальных LLM

Здравствуйте, Артём, Вы писали:

Аё>ONNX Runtime. Оно умеет под Node с CUDA, но конкретно с теми модельками, что мне нужны- там какие-то специфические операторы, задйствованные в модели, отсутствуют в имплементации под CUDA. Вообще, состояние опен-сорсных фреймворков с NPU и GPU достаточно печальное — имлементация отсутствует, или неполная.
ONNX всегда отставал и будет отставать от того же торча, tf и других. Ну и предупрежу, что перетаскивание модели с одного движка на другой обычно еще тот квест, если модель новая.

Аё>Ну это самое что хорошо ускоряет инференс.
В сравнении с GPU и подобным слабо и еще нужно мощное охлаждение CPU делать для юзания AVX512.
Это все легко сделать в большой башне и сложно в маленькой коробочке.

	От:	Vzhyk2
	Дата:	12.01.25 06:19
	Оценка: