GLM или MiniMax M2 для написания кода не юзаете? (локальные)
От: xma  
Дата: 10.02.26 19:34
Оценка:
GLM или Minimax M2 для написания кода не юзаете ? (говорят локальные модельки крупные почти не хуже топовых облачных)

Чаще использую Qwen3, MiniMax M2, GLM для кода, ну и практически все открытые модели Gemma, gpt-oss, deepseek, … для документов, текста и всякого поиска информации. Облачные мне не интересны — например у Claude подписка слишком дорогая, хотя модели и хорошие, я легко могу за день несколько сотен тысяч токенов нагенерить


Qwen3-Next если нужно длинный контекст и побыстрее, MiniMax M2, GLM, Qwen3-235B если нужно поумней или планирование, тут скорость до 22-25t/s снижается.


qwen3next 80B.A3B Q8_0 (78.98 GiB)


StrixHalo пока что больше как "игрушка", так у меня в основном 4 mi60 в сервере трудятся


>по сравнению с лидерами типа тех же ChatGPT и Claude.
Если для программирования, то GLM и MiniMax M2 отстают в целом незначительно. Если 200+ баксов в месяц на подписку не жалко и на "утечку" кода наплевать — то подписка вполне себе вариант.


P.S.:

AMD Radeon Instinct MI60 32GB HBM2 x4 = 128 GB (VRAM)

256gb DDR4, сервер суммарно около 3K баксов.


vLLM умеет tensor parallelism — это на 4 картах даёт 2+ раза ускорение.


StrixHalo 128 GB медленнее в 1.5-2 раза, а так весьма неплохо, особенно учитывая 150вт против 1квт , ну и тише намного.


так что когда новое (мини-ПК) оборудование на 256 ГБ ОЗУ (а тем более на DDR6, хотя вроде Mac Studio (2025) и так 819 ГБ/с Bandwidth имеет против 256 GB/s Strix Halo) выйдет, то сервачки видимо отправятся почивать .. "недолго осталось" (c)
Отредактировано 11.02.2026 15:00 xma . Предыдущая версия . Еще …
Отредактировано 11.02.2026 4:23 xma . Предыдущая версия .
Отредактировано 10.02.2026 19:38 xma . Предыдущая версия .
Отредактировано 10.02.2026 19:37 xma . Предыдущая версия .
Отредактировано 10.02.2026 19:36 xma . Предыдущая версия .
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.