Сообщение GLM или MiniMax M2 для написания кода не юзаете? (локальные) от 10.02.2026 19:34
Изменено 11.02.2026 15:00 xma
Чаще использую Qwen3, MiniMax M2, GLM для кода, ну и практически все открытые модели Gemma, gpt-oss, deepseek, … для документов, текста и всякого поиска информации. Облачные мне не интересны — например у Claude подписка слишком дорогая, хотя модели и хорошие, я легко могу за день несколько сотен тысяч токенов нагенерить
Qwen3-Next если нужно длинный контекст и побыстрее, MiniMax M2, GLM, Qwen3-235B если нужно поумней или планирование, тут скорость до 22-25t/s снижается.
qwen3next 80B.A3B Q8_0 (78.98 GiB)
StrixHalo пока что больше как "игрушка", так у меня в основном 4 mi60 в сервере трудятся
>по сравнению с лидерами типа тех же ChatGPT и Claude.
Если для программирования, то GLM и MiniMax M2 отстают в целом незначительно. Если 200+ баксов в месяц на подписку не жалко и на "утечку" кода наплевать — то подписка вполне себе вариант.
P.S.:
AMD Radeon Instinct MI60 32GB HBM2 x4 = 128 GB (VRAM)
256gb DDR4, сервер суммарно около 3K баксов.
vLLM умеет tensor parallelism — это на 4 картах даёт 2+ раза ускорение.
StrixHalo 128 GB медленнее в 1.5-2 раза, а так весьма неплохо, особенно учитывая 150вт против 1квт , ну и тише намного.
так что когда новое (мини-ПК) оборудование на 256 ГБ ОЗУ (а тем более на DDR6, хотя вроде Mac Studio (2025) и так 819 ГБ/с Bandwidth имеет против 256 GB/s Strix Halo) выйдет, то сервачки видимо отправятся почивать ..
Чаще использую Qwen3, MiniMax M2, GLM для кода, ну и практически все открытые модели Gemma, gpt-oss, deepseek, … для документов, текста и всякого поиска информации. Облачные мне не интересны — например у Claude подписка слишком дорогая, хотя модели и хорошие, я легко могу за день несколько сотен тысяч токенов нагенерить
Qwen3-Next если нужно длинный контекст и побыстрее, MiniMax M2, GLM, Qwen3-235B если нужно поумней или планирование, тут скорость до 22-25t/s снижается.
qwen3next 80B.A3B Q8_0 (78.98 GiB)
StrixHalo пока что больше как "игрушка", так у меня в основном 4 mi60 в сервере трудятся
>по сравнению с лидерами типа тех же ChatGPT и Claude.
Если для программирования, то GLM и MiniMax M2 отстают в целом незначительно. Если 200+ баксов в месяц на подписку не жалко и на "утечку" кода наплевать — то подписка вполне себе вариант.
P.S.:
AMD Radeon Instinct MI60 32GB HBM2 x4 = 128 GB (VRAM)
256gb DDR4, сервер суммарно около 3K баксов.
vLLM умеет tensor parallelism — это на 4 картах даёт 2+ раза ускорение.
StrixHalo 128 GB медленнее в 1.5-2 раза, а так весьма неплохо, особенно учитывая 150вт против 1квт , ну и тише намного.
так что когда новое (мини-ПК) оборудование на 256 ГБ ОЗУ (а тем более на DDR6, хотя вроде Mac Studio (2025) и так 819 ГБ/с Bandwidth имеет против 256 GB/s Strix Halo) выйдет, то сервачки видимо отправятся почивать ..