Сообщение Re[6]: Коробочка для локальных LLM от 12.01.2025 0:49
Изменено 12.01.2025 0:55 Артём
Re[6]: Коробочка для локальных LLM
Здравствуйте, Vzhyk2, Вы писали:
Аё>>По моему опыту, нейронки 100% бегают на проце, особенно бодренько с avx512,
V>На openvino? Редкий зверь, но возможно, что те нейронки, что ты юзаешь на него портированы.
ONNX Runtime. Оно умеет под Node с CUDA, но конкретно с теми модельками, что мне нужны- там какие-то специфические операторы, задйствованные в модели, отсутствуют в имплементации под CUDA. Вообще, состояние опен-сорсных фреймворков с NPU и GPU достаточно печальное — имлементация отсутствует, или неполная.
https://www.npmjs.com/package/onnxruntime-node
V>Ну и еще предупрежу, AVX512 еще тот обогреватель.
Ну это самое что хорошо ускоряет инференс.
Аё>>По моему опыту, нейронки 100% бегают на проце, особенно бодренько с avx512,
V>На openvino? Редкий зверь, но возможно, что те нейронки, что ты юзаешь на него портированы.
ONNX Runtime. Оно умеет под Node с CUDA, но конкретно с теми модельками, что мне нужны- там какие-то специфические операторы, задйствованные в модели, отсутствуют в имплементации под CUDA. Вообще, состояние опен-сорсных фреймворков с NPU и GPU достаточно печальное — имлементация отсутствует, или неполная.
https://www.npmjs.com/package/onnxruntime-node
V>Ну и еще предупрежу, AVX512 еще тот обогреватель.
Ну это самое что хорошо ускоряет инференс.
Re[6]: Коробочка для локальных LLM
Здравствуйте, Vzhyk2, Вы писали:
Аё>>По моему опыту, нейронки 100% бегают на проце, особенно бодренько с avx512,
V>На openvino? Редкий зверь, но возможно, что те нейронки, что ты юзаешь на него портированы.
ONNX Runtime. Оно умеет под Node с CUDA, но конкретно с теми модельками, что мне нужны- там какие-то специфические операторы, задйствованные в модели, отсутствуют в имплементации под CUDA. Вообще, состояние опен-сорсных фреймворков с NPU и GPU достаточно печальное — имлементация отсутствует, или неполная.
https://www.npmjs.com/package/onnxruntime-node
V>Ну и еще предупрежу, AVX512 еще тот обогреватель.
Ну это самое что хорошо ускоряет инференс.
Аё>>По моему опыту, нейронки 100% бегают на проце, особенно бодренько с avx512,
V>На openvino? Редкий зверь, но возможно, что те нейронки, что ты юзаешь на него портированы.
ONNX Runtime. Оно умеет под Node с CUDA, но конкретно с теми модельками, что мне нужны- там какие-то специфические операторы, задйствованные в модели, отсутствуют в имплементации под CUDA. Вообще, состояние опен-сорсных фреймворков с NPU и GPU достаточно печальное — имлементация отсутствует, или неполная.
https://www.npmjs.com/package/onnxruntime-node
WebAssembly backend
ONNX Runtime Web currently support all operators in ai.onnx and ai.onnx.ml.
WebGL backend
ONNX Runtime Web currently supports a subset of operators in ai.onnx operator set. See webgl-operators.md for a complete, detailed list of which ONNX operators are supported by WebGL backend.
WebGPU backend
WebGPU backend is still an experimental feature. See webgpu-operators.md for a detailed list of which ONNX operators are supported by WebGPU backend.
V>Ну и еще предупрежу, AVX512 еще тот обогреватель.
Ну это самое что хорошо ускоряет инференс.