Re: Запустить LLM локально.
От: hi_octane Беларусь  
Дата: 23.02.25 22:24
Оценка: 106 (1)
fk0> На Reddit вопрос кажется
fk0>уже расмотрели вдоль и поперёк и запускают LLM у себя дома. Если
fk0>отдельный дом это более реалистично чем квартира (уходит вопрос
fk0>охлаждения, шума и ограничения мощности).
Запускал LLM в квартире ещё до того как это стало мейнстримом

КМК, обычной 4090 (даже не 5090), достаточно, чтобы получать ответы от локальной модели, которые ещё год назад даже для подписчиков на облако были недоступны. И прогресс продолжается. От чего, планов городить какой-то сервер с тонной памяти под это дело (у меня) мотивации нет.

Что могу сказать по опыту — те ЛЛМ что в облаках, они покруче. Но не особо. Разница между закрытыми моделями и доступными локальными — примерно как между процессорами двух поколений. Главные причины слабого различия: у продавцов AI по подписке одна модель отвечает на вообще все вопросы — от "напиши стишок" до "объясни что на картинке". А во-вторых они тоже не могут выделить на пользователя такие уж огромные ресурсы — не сойдётся экономика, подписка начнёт стоить столько, что её перестанут покупать. Только у *2video моделей разница пока настолько ощутимая, что, кажется, от условной 5090 близкого уровня картинки дома не добиться. И то, судя по некоторым шедеврам порногенерации, кому-то всё-же удаётся.

Обычное физлицо, обычные проблемы уже может закрыть, просто подгружая отдельную LLM под текущую задачу. Типа собрался работать с кодом — запусти Qwen, собрался пару картинок сгенерить — возьми Flux, захотел текст сочинить на русском — возьми Вихря или Сайгу, разобрать голос — Сбер. Запрос начался с подумай — грузи рассуждающий дистиллят на базе DeepSeek, и т.д. И, с опорой на специализацию — потребительской видеокарты в общем-то (почти)достаточно для щястя. Перед тем как качать железо, я бы попробовал выжать всё возможное из чего-то типа двух-стадийной LLM, где сначала маленькая быстрая модель решает чем отвечать, а потом грузит специализированную. Но даже это, уже, в каком-то виде делается: в MoE (Mixture of Experts) моделях, и в экспериментальных конвейерах, где используется одна модель, но первым шагом под запрос составляется специализированный, проработанный промпт (вместо дефолтного you are a helpful assistant).
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.