Информация об изменениях

Сообщение GLM или MiniMax M2 для написания кода не юзаете? (локальные) от 10.02.2026 19:34

Изменено 11.02.2026 15:00 xma

GLM или MiniMax M2 для написания кода не юзаете? (локальные)
GLM или Minimax M2 для написания кода не юзаете ? (говорят локальные модельки крупные почти не хуже топовых облачных)

Чаще использую Qwen3, MiniMax M2, GLM для кода, ну и практически все открытые модели Gemma, gpt-oss, deepseek, … для документов, текста и всякого поиска информации. Облачные мне не интересны — например у Claude подписка слишком дорогая, хотя модели и хорошие, я легко могу за день несколько сотен тысяч токенов нагенерить


Qwen3-Next если нужно длинный контекст и побыстрее, MiniMax M2, GLM, Qwen3-235B если нужно поумней или планирование, тут скорость до 22-25t/s снижается.


qwen3next 80B.A3B Q8_0 (78.98 GiB)


StrixHalo пока что больше как "игрушка", так у меня в основном 4 mi60 в сервере трудятся


>по сравнению с лидерами типа тех же ChatGPT и Claude.
Если для программирования, то GLM и MiniMax M2 отстают в целом незначительно. Если 200+ баксов в месяц на подписку не жалко и на "утечку" кода наплевать — то подписка вполне себе вариант.


P.S.:

AMD Radeon Instinct MI60 32GB HBM2 x4 = 128 GB (VRAM)

256gb DDR4, сервер суммарно около 3K баксов.


vLLM умеет tensor parallelism — это на 4 картах даёт 2+ раза ускорение.


StrixHalo 128 GB медленнее в 1.5-2 раза, а так весьма неплохо, особенно учитывая 150вт против 1квт , ну и тише намного.


так что когда новое (мини-ПК) оборудование на 256 ГБ ОЗУ (а тем более на DDR6, хотя вроде Mac Studio (2025) и так 819 ГБ/с Bandwidth имеет против 256 GB/s Strix Halo) выйдет, то сервачки видимо отправятся почивать .. "недолго осталось" (c)
GLM или MiniMax M2 для написания кода не юзаете? (локальные)
GLM или Minimax M2 для написания кода не юзаете ? (говорят локальные модельки крупные почти не хуже топовых облачных)

Чаще использую Qwen3, MiniMax M2, GLM для кода, ну и практически все открытые модели Gemma, gpt-oss, deepseek, … для документов, текста и всякого поиска информации. Облачные мне не интересны — например у Claude подписка слишком дорогая, хотя модели и хорошие, я легко могу за день несколько сотен тысяч токенов нагенерить


Qwen3-Next если нужно длинный контекст и побыстрее, MiniMax M2, GLM, Qwen3-235B если нужно поумней или планирование, тут скорость до 22-25t/s снижается.


qwen3next 80B.A3B Q8_0 (78.98 GiB)


StrixHalo пока что больше как "игрушка", так у меня в основном 4 mi60 в сервере трудятся


>по сравнению с лидерами типа тех же ChatGPT и Claude.
Если для программирования, то GLM и MiniMax M2 отстают в целом незначительно. Если 200+ баксов в месяц на подписку не жалко и на "утечку" кода наплевать — то подписка вполне себе вариант.


P.S.:

AMD Radeon Instinct MI60 32GB HBM2 x4 = 128 GB (VRAM)

256gb DDR4, сервер суммарно около 3K баксов.


vLLM умеет tensor parallelism — это на 4 картах даёт 2+ раза ускорение.


StrixHalo 128 GB медленнее в 1.5-2 раза, а так весьма неплохо, особенно учитывая 150вт против 1квт , ну и тише намного.


так что когда новое (мини-ПК) оборудование на 256 ГБ ОЗУ (а тем более на DDR6, хотя вроде Mac Studio (2025) и так 819 ГБ/с Bandwidth имеет против 256 GB/s Strix Halo) выйдет, то сервачки видимо отправятся почивать .. "недолго осталось" (c)