Re: Еще немного про ИИ/LLM

Продолжу тут заметки на полях, может кому пригодится.

Вопрос: Можно ли использовать модели локально (ничего не отсылая в энторнеты)?
Ответ: Да, можно. Это называется инференс.
Начнем, пожалуй, с качества.
— Открытые модели, очевидно, отстают по качеству выдаваемого результата от коммерческих.
— Качество "познаваемого" очевидно зависит от размера модели. Модель 20B и модель 120B могут покрывать общий объем знаний, но вот детализация в младшей модели будет гораздо хуже, что приводит к дополнительным галюцинациям и тупизне из-за смешения понятий.
— Также на качество влияет "квантизация" — это такое себе "округление" (использование вместо float 16 типов данных меньших размерностей). Считается что квантизация до 4 бит дает несущественную потерю в качестве (до 15%). Хотя, мой опыт говорит что для кодинга желательно не опускатся ниже Q6.
— Модели на архитектуре MoE при том же размере проигрывают моделям с архитектурами где все параметры активны.

Скорость. Очевидно что скорость зависит от железа. Развертывание на CPU на порядок медленнее работы на GPU (даже старом).
Для кодинга желательна скорость генерации 30+ токенов/сек. Хотя, даже при такой скорости возникает желание повыть. И на CPU вы такой скорости не добьетесь на нормальных моделях.

Утилиты.
Из популярных можно выделить lmstudio, ollama. Они имеют каталог поддерживаемых моделей, можно загружать и чатиться чтобы померять скорость. Также они могут работать в режиме сервера, к которому можно подключать многие имеющиеся кодинг клиенты.
Для кодинга используйте не чат-окно, а специализированные клиенты (OpenCode, Claude Code etc, Desktop|CLI) и оркестраторы процесса.

Мысли в слух:
— модели можно искать на hugging face.
— там же есть закладка с репой в которой можно посмотреть размер модели. Желательно чтобы модель целиком влазила в видеопамять карты и занимала не более 70% ее памяти.
— если модель частично в обычной ОЗУ или (еще хуже) отваливается в своп, то можно только посочувствовать и предложить искать более подходящую модель.
— модели по архитектуре MoE (mixture-of-experts) могут инференсится по частям, но скорость при этом все равно унылая.
— современные базовые модели — это требование в 128+Гб видеопамяти (или линейной памяти для некоторых устройств), а топовые — 256+Гб

Вывод:
Для личных нужд/шаровары локальный инференс практически не имеет смысла. Большая четверка (OpenAI, Anthropic, Google, Alibaba) предлагают гораздо лучшее качество по вменяемым ценам.
Локальные модели имеют бонус в виде возможности отключения цензуры.

	От:	pva
	Дата:	13.03.26 16:53
	Оценка:	-1