Re[4]: Claude Code (мульти-агентский сетап) - Искусственный интеллект

bnk>Используете ли вы команды агентов для разработки ("архитектор", "разработчика", "тестер")
bnk>Насколько это хорошо работает сейчас? Сравнимо ли с реальной командой кожаных?

как кожаный мешок я не понимаю, почему это в принципе должно работать

в человеческой разработке слабое место — это коммуникация в команде
чем больше смог впихнуть в башку и мысленно вертеть со всех сторон — тем лучше получается.

а тут люди добровольно разделяют разработку....
с тестированием другая история, но тут уж просто руки не доходят

Здравствуйте, koenig, Вы писали:

bnk>>Используете ли вы команды агентов для разработки ("архитектор", "разработчика", "тестер")
bnk>>Насколько это хорошо работает сейчас? Сравнимо ли с реальной командой кожаных?

K>как кожаный мешок я не понимаю, почему это в принципе должно работать

K>в человеческой разработке слабое место — это коммуникация в команде
K>чем больше смог впихнуть в башку и мысленно вертеть со всех сторон — тем лучше получается.

K>а тут люди добровольно разделяют разработку....

Насколько я понимаю тут решается проблема ограниченности контекста (сколько понимания или знаний влезает в "одну башку")
Все входящие в "команду" агенты имеют свой собственный контекст.

bnk>Насколько я понимаю тут решается проблема ограниченности контекста (сколько понимания или знаний влезает в "одну башку")
bnk>Все входящие в "команду" агенты имеют свой собственный контекст.

а чем это лучше текстовика с описанием архитектуры лежащим в корне?
они же свой контекст из одних и тех же сорцов надергали? или как-то делят проект на части, чтобы в чужую часть агент не дай бог не полез?

Здравствуйте, pva, Вы писали:

__>>128 ГБ LPDDR5x с пропускной способностью 273 ГБ/с — мало и медленно.
pva>Хватает для моделей уровня до 120b, но скорость печальна, да.. Порядка 7-30 ток/сек. С DDR5 они погорячились.
Это скорости как на CPU, при этом на 12 канальном DDR5 будет с 2 раза быстрее, на DDR4 чуть медленнее(но сравнимо).

__>>rtx 6000 blackwell 96GB при сравнимой цене кратно быстрее.
pva>Хаха.. сравнимой цене? Она в 2.5 раза отличается. Толку от скорости если памяти не будет хватать.
pva>У меня так уже лежит rtx 4500 blackwell 32GB. Скорость выдает отличную, но не подходит для разработки.
Вместо DGX Spark — односокет на Epyc/Xeon, желательно DDR5 (при этом там не требуется топовый проц, т.е. 16 ядерного должно хватать если там все норм с каналами памяти, т.е. пропускная памяти не падает из-за огрызка проца) и вставить в такой имеющуюся rtx 4500 — PP будет космос, можно памяти вставлять сколько угодно и на проце даже будет быстрее чем на "игрушке DGX Spark". Зачем такое сделали — непонятно, денег стоит все равно огромных, а не выдает ничего впечатляющего. Часть слоев на видюхе, часть на проце — скорости точно будет больше. В DGX Spark не воткнуть же видюху... там скорости PP наверно крайне печальные.

Здравствуйте, _ilya_, Вы писали:

__>Это скорости как на CPU, при этом на 12 канальном DDR5 будет с 2 раза быстрее, на DDR4 чуть медленнее(но сравнимо).
Давай подробности как ты завел 120b модель на CPU с указанной скоростью. Возьмем хотя бы qwen3.5-122b-a10b с контекстом 200к+
А то многие "обзорщики" смело заводят модель с контекстом 2к/4к пишут "Хелло, ворлд" и тыкают как все летает (на самом деле нет). А делаешь шаг к реальной конфигурации и сразу становится понятно что нужно делить на 10 в лучшем случае.

__>Вместо DGX Spark — односокет на Epyc/Xeon, желательно DDR5 (при этом там не требуется топовый проц, т.е. 16 ядерного должно хватать если там все норм с каналами памяти, т.е. пропускная памяти не падает из-за огрызка проца) и вставить в такой имеющуюся rtx 4500 — PP будет космос, можно памяти вставлять сколько угодно и на проце даже будет быстрее чем на "игрушке DGX Spark".
Это чушь. У тебя узким горлышком будет обмен между картой и ОЗУ. И все скатится до 2-3 ток/сек. 4500 тянет нормально модели 30b в квантах Q4/Q5.
Повторюсь еще раз. Спарк — это дешевая версия для обучения/файнтюнинга небольших-средних размеров. Плюс он отлично масштабируется, позволяя играться даже с большими моделями. Он не предназначен для массового инференса. Даже для локального инференса он так себе по сравнению с существующими топами. При этом он мелкий сам и мало жрет и позволяет организовать использование без расшаривания приватных данных. Да, у него есть недостатки. Чего только стоит LDDR5, или то что выхлоп теплого воздуха идет в направлении кабелей, или что кнопка включения на тыльной панели.
Ну и я выше писал что используя предыдущее поколение железа или бу можно сэкономить. Но это уже личные предпочтения.

Здравствуйте, koenig, Вы писали:

K>а чем это лучше текстовика с описанием архитектуры лежащим в корне?
Агенты форкаются с текущим контекстом под конкретную задачу. Получается дерево исполнения вместо куста, как если бы был один текстовик в корне.

Здравствуйте, pva, Вы писали:

__>>128 ГБ LPDDR5x с пропускной способностью 273 ГБ/с — мало и медленно.
pva>Хватает для моделей уровня до 120b, но скорость печальна, да.. Порядка 7-30 ток/сек. С DDR5 они погорячились.

Вроде мак студио m3 ultra может до 256гб, а до кризиса рамы до 512гб мог. Или он по деньгам невыгоден в сравнении с DGX Spark?

Здравствуйте, Артём, Вы писали:

Аё>Вроде мак студио m3 ultra может до 256гб, а до кризиса рамы до 512гб мог. Или он по деньгам невыгоден в сравнении с DGX Spark?
Да, мак студио — отличная альтернатива! Память так точно лучше чем в спарке (почти в 3 раза шустрей). Что касается вычислительной мощности — она похуже будет, но для инференса (чаты, агенты для разработки) я бы брал Мак, вероятно. При той же цене (пара спарков стоит столько же сколько мак 256Гб), Мак еще банально универсальный, тем более что многие находятся в его экосистеме. А Спарк — это просто убунта на армах.
Вот гугль подкинул отличный твит

Clustering NVIDIA DGX Spark + M3 Ultra Mac Studio for 4x faster LLM inference.

DGX Spark: 128GB @ 273GB/s, 100 TFLOPS (fp16), $3,999
M3 Ultra: 256GB @ 819GB/s, 26 TFLOPS (fp16), $5,599

The DGX Spark has 3x less memory bandwidth than the M3 Ultra but 4x more FLOPS.
By running compute-bound prefill on the DGX Spark, memory-bound decode on the M3 Ultra, and streaming the KV cache over 10GbE, we are able to get the best of both hardware with massive speedups.

Цены штатовские, правда. В Европе пара спарков = один m3 ultra 256Gb = ~$10k

Здравствуйте, _ilya_, Вы писали:

__>Здравствуйте, pva, Вы писали:

pva>>Здравствуйте, bnk, Вы писали:
pva>>Я тут разжился DGX Spark (B10) и гоняю на нем всякое.

__>Очень странное изделие, по характеристикам/цене непонятно на кого рассчитанное (дорогая и почти бесполезная игрушка?). 128 ГБ LPDDR5x с пропускной способностью 273 ГБ/с — мало и медленно. Даже предыдущие EPYC на DDR4 где 8 каналов на проц — 200ГБ/с на сокет (новые на DDR5 по памяти более 2х и еще и 12 каналов, просто уничтожают этот DGX), а их можно два, и памяти хоть террабайты, а 128ГБ как то ни туда ни сюда (мало для больших моделей и перебор для средних). Ну и по скорости это медленно, rtx 6000 blackwell 96GB при сравнимой цене кратно быстрее.

Еще, как вариант, можно сделать/заказать у китайцев сборку на 4х Tesla V100. Стоят копейки по сравнению с RTX 6000; скорость — бешеная.
Ну или БУ сервачок взять на 8x Tesla V100.

	От:	koenig
	Дата:	26.03.26 09:47
	Оценка:	+1

От:	bnk	http://unmanagedvisio.com/
Дата:	26.03.26 09:52
Оценка:

	От:	koenig
	Дата:	26.03.26 09:56
	Оценка:

	От:	_ilya_
	Дата:	26.03.26 21:18
	Оценка:

	От:	pva
	Дата:	27.03.26 07:12
	Оценка:

От:	Артём	жж
Дата:	27.03.26 16:55
Оценка:	+1

	От:	spb5030
	Дата:	28.03.26 19:44
	Оценка: