GLM или MiniMax M2 для написания кода не юзаете? (локальные)

GLM или Minimax M2 для написания кода не юзаете ?

(говорят локальные модельки крупные почти не хуже топовых облачных)

Чаще использую Qwen3, MiniMax M2, GLM для кода, ну и практически все открытые модели Gemma, gpt-oss, deepseek, … для документов, текста и всякого поиска информации. Облачные мне не интересны — например у Claude подписка слишком дорогая, хотя модели и хорошие, я легко могу за день несколько сотен тысяч токенов нагенерить

Qwen3-Next если нужно длинный контекст и побыстрее, MiniMax M2, GLM, Qwen3-235B если нужно поумней или планирование, тут скорость до 22-25t/s снижается.

qwen3next 80B.A3B Q8_0 (78.98 GiB)

StrixHalo пока что больше как "игрушка", так у меня в основном 4 mi60 в сервере трудятся

>по сравнению с лидерами типа тех же ChatGPT и Claude.
Если для программирования, то GLM и MiniMax M2 отстают в целом незначительно. Если 200+ баксов в месяц на подписку не жалко и на "утечку" кода наплевать — то подписка вполне себе вариант.

P.S.:

AMD Radeon Instinct MI60 32GB HBM2 x4 = 128 GB (VRAM)

256gb DDR4, сервер суммарно около 3K баксов.

vLLM умеет tensor parallelism — это на 4 картах даёт 2+ раза ускорение.

StrixHalo 128 GB медленнее в 1.5-2 раза, а так весьма неплохо, особенно учитывая 150вт против 1квт , ну и тише намного.

так что когда новое (мини-ПК) оборудование на 256 ГБ ОЗУ (а тем более на DDR6, хотя вроде Mac Studio (2025) и так 819 ГБ/с Bandwidth имеет против 256 GB/s Strix Halo) выйдет, то сервачки видимо отправятся почивать ..

"недолго осталось" (c)

	От:	xma
	Дата:	10.02.26 19:34
	Оценка: