Re[2]: Комп для расчетов - Железо

Здравствуйте, AndrewVK, Вы писали:

AVK>Здравствуйте, Jenyay, Вы писали:

J>>32 — это нижний предел. В принципе, хотелось бы побольше. Если есть матери, которые поддерживают до 64 ГБ, то меня это устроило бы.

AVK>Тысячи их.
AVK>Для 2011 сокета — 8 планок по 8Гб.

Уточню. 64ГБ можно получить только с Xeon'ами, i7 не поддерживает больше 32ГБ.

Здравствуйте, koandrew, Вы писали:

K>Если бы ты был внимательнее, то заметил бы, что речь идёт об алгоритме, специально заточенном под железо.

А если бы ты был внимательнее, то ТС никаких таких алгоритмов не поминал, да и ты изначально говорил о "нормально распараллеленых алгоритмах 6 ядер порвут 4 как тузик грелку". Так вот, очень даже нормально распараллеленые алгоритмы рендеринга 3D не рвут на 6-тиядернике как тузик грелку, а дают всего 10% относительно среднетопового четырехядерника.
Твой же алгоритм никого тут не интересует, кроме тебя, особенно учитывая что результатов замеров для него у тебя нет, и ты просто плюешь в потолок. Сперва замеряй его на 3930 и 4770 хотя бы, чтобы хоть что то можно было обсудить, кроме твоих верований.

... << RSDN@Home 1.2.0 alpha 5 rev. 100 on Windows 8 6.2.9200.0>>

Здравствуйте, Jenyay, Вы писали:

J>Спасибо, буду изучать. Диски думаю брать WD из черной серии.

Кстати, поковырялся, задачка оказалась интересней, чем казалась изначально.

Итак, мы имеем 3 актуальных поколения процов (в обратном порядке)
http://en.wikipedia.org/wiki/Haswell_%28microarchitecture%29
http://en.wikipedia.org/wiki/Ivy_Bridge_%28microarchitecture%29
http://en.wikipedia.org/wiki/Sandy_Bridge_%28microarchitecture%29

Будем отталкиваться от необходимости втыкать в систему два проца.
Для Haswell как правило используется сокет LGA 1150, но дуальных матерей для этого сокета нет (*), (**)
Для Ivy Bridge это LGA 1155, но дуальных матерей тоже нет.
Для Sandy (LGA 2011, LGA 1356), матери есть уже в достаточном количестве, да и процы Sandy в топе по производительности http://www.cpubenchmark.net/cpu_list.php

Т.е. наш выбор материнки на Sandy.
Если ориентироваться на бюджет, то вероятным выбором может быть Intel Xeon E5-2620 + матери под него (на LGA 2011) (не можем использовать Intel Xeon E5-16xx, например привлекательный Intel Xeon E5-1650 т.к. они предназначены для однопроцессорных систем).
Итого. Два проца по 26.5 = 53 т.р. (***)

При выборе матери важным ограничивающим фактором будет корпус.
Исхожу из предположения, интуитивного и не обоснованного, что тебе будет ближе ATX/EATX, чем SSI EEB. Т.е. дальше предположения.

Пальцем в небо ASUS Z9PED16, 20 т.р. (http://www.asus.com/Commercial_Servers_Workstations/Z9PED16/#specifications). (На самом деле материнки SSI EEB обойдутся примерно во столько же, но корпус скорее всего будет дороже).

Total Slots : 16 (4-channel per CPU, 8 DIMM per CPU)
Capacity : Maximum up to 512GB RDIMM
Memory Type :
DDR3, 1066/1333/1600, RDIMM
DDR3, 1066/1333, UDIMM
DDR3, 1066/1333, LRDIMM
Memory Size :
2GB, 4GB, 8GB, 16GB, 32GB RDIMM
2GB, 4GB, 8GB UDIMM
8GB, 16GB, 32GB LRDIMM

Ну и скажем память по 2.5 т.р. за 8-гб. модуль, что за 40 т.р. позволит нам установить 128 Гб оперативы.

За 53+20+40 = 113 т.р. (нижняя оценка) получаем мощную основу для двухпроцессорного сервака. Туда необходимо будет докинуть системник, хороший блок питания, качественное охлаждение (два камня по 100 ватт как никак) и дисковую подсистему (жёсткие диски/SSD в зависимости от требований применяемых алгоритмов). Возможно потребуется добавить дешёвую видюху.
Отдельно придётся считать стоимость софта (win7/win8/win2008/win2012). Ограничения Miscrosoft на максимально возможный объём используемой памяти http://msdn.microsoft.com/en-us/library/windows/desktop/aa366778%28v=vs.85%29.aspx позволяют использовать на получившейся системе даже пользовательскую версию ОС (Win 7 pro/Win 8).
Т.е. итоговая сумма может легко достигнуть 140 т.р.

Альтернативы:
* Система на одном камне, топовом i7K, опять см. http://www.cpubenchmark.net/cpu_list.php, Intel Core i7-3930K или Intel Core i7-4770K (возможно аккуратно разогнанном) с 32/64 Gb оперативы (в некоторых случаях 128).
* Перенести вычисления на GPU.

Вполне вероятно в рассуждениях могут быть ошибки, однако как стартовое осмысление для более глубокого штудирования темы или профильных форумов ixbt (и спокойного анализа чужого мнения), подойдёт.

* выбор от 8 слотов памяти, чтобы был достаточный запас по мозгам.
** Яндекс.Маркет не позволяет показывать пустые выборки, поэтому для проверки придётся развернуть пункт "Socket" и убедиться, что для LGA1150 под заявленные требования материнки отсутствуют.
*** Средние цены с Яндекс.Маркет в Москве

K>Вообще-то означает

И загружаются они все на 100% — просто я кусок заскринил.

Загрузка ядер на 100% означает только загрузку ядер на 100%, больше ничего. Может быть, они загружены spin lock'ом, синхронизируют что-то между собой.

K>Пофиг. Количество решает, ибо не так уж сильно различаются ядра, особенно на вычислениях с плавающей точкой. Уж точно не на 50%

Может, ты тогда объяснишь, почему результаты в медиакодировании одинаковы? Ведь параллелятся эти алгоритмы лучше некуда. И так — почти по всем тестам, даже тем, которые параллелятся хорошо.
Например, ты можешь неожиданно обнаружить, что 6 ядер будут работать на более низкой частоте (потому что 6 ядер греются больше, чем 4, а уж 6 ядер на 32 нм процессе греются заметноp больше 4х по 22 нм).

В общем, прогресс — это такая штука, которая делает флагманов 3х летней давности сравнимыми с нынешним середнячком. Тебя я хорошо понимаю, LGA2011 и процессоры под нее очень дорогие и тебе совсем не нравится, что обычный 4770 за 300 баксов (+200 на плату) нынче ничуть не медленнее твоей сборки, которая обошлась вчетверо дороже

Но на настоящий момент LGA2011 имеет смысл ровно в одной редкой ситуации: когда 32 Гб памяти мало, нужно 64, но 128 уже не нужно (т.е. Xeon'ы не нужны), при этом денег ровно столько, что на Xeon не хватает, но больше, чем нужно на i7 + 32 Gb.

Всем привет.

Нужен комп для тяжелых расчетов, требующих большое количество оперативки.

Главное требование — памяти не меньше 32 ГБ, хотелось бы 64 ГБ. Бюджет — 100 тыс. р. Хотелось бы купить что-нибудь двухпроцессорное, если удастся уложиться в эту сумму. Крутая видеокарта не нужна, возможно, хватит даже встроенной. Плюс к этому хотелось бы штуки три харда где-то по 2-3 ТБ, чтобы они не очень грелись.

В качестве операционки будет использоваться Винда.

Посоветуйте, плз, какая материнка и проц для этого подходят. Что лучше взять из процессоров Intel i7 или что-то из Xeon?

Здравствуйте, Jenyay, Вы писали:

J>Нужен комп для тяжелых расчетов, требующих большое количество оперативки.

Облако?

Здравствуйте, Jenyay, Вы писали:

J>Посоветуйте, плз, какая материнка и проц для этого подходят. Что лучше взять из процессоров Intel i7 или что-то из Xeon?

двухпроцессорные сильно дорогие..

мне тоже нужна выч.мощность, вопрос решен так: три мощных обыучных компа (i7 32 Gb, i7 16 Gb, Core Quad (в свое время топ, но и сейчас ниче)) плюс неслабый ноут на i7 плюс свой сервер в америке (вообще-то он для других целей, но когда надо мобилизую) плюс (изредка, когда совсем надо) облако. С серверными материнками решил не связываться. за 100 тысяч думаю вполне можно организовать 2 а то и 3 мощных компа, которые вероятно будут побыстрее серверного решения.

Здравствуйте, Jenyay, Вы писали:
J>Нужен комп для тяжелых расчетов, требующих большое количество оперативки.

Насколько хорошо эти вычисления параллелятся?

Если они независимы друг от друга, то может их лучше вообще на нескольких компах и/или GPU считать?

Здравствуйте, Аноним, Вы писали:

А>Облако?

Сложный вопрос. Думал в эту сторону, но пока решил обойтись без облаков.

Здравствуйте, DreamMaker, Вы писали:

DM>двухпроцессорные сильно дорогие..

DM>мне тоже нужна выч.мощность, вопрос решен так: три мощных обыучных компа (i7 32 Gb, i7 16 Gb, Core Quad (в свое время топ, но и сейчас ниче)) плюс неслабый ноут на i7 плюс свой сервер в америке (вообще-то он для других целей, но когда надо мобилизую) плюс (изредка, когда совсем надо) облако. С серверными материнками решил не связываться. за 100 тысяч думаю вполне можно организовать 2 а то и 3 мощных компа, которые вероятно будут побыстрее серверного решения.

Тут в первую очередь стоит сама возможность считать большие задачи, которые требуют десятки ГБ оперативки, поэтому она вся должна стоять в одном компе. Используемая прога для моделирования в принципе поддерживает распараллеливание через MPI, но пока этот режим не пробовал.

Со скоростью готов мириться поэтому двух процессорный сервер — это уже если хватит денег.

Здравствуйте, Ромашка, Вы писали:

Р>Насколько хорошо эти вычисления параллелятся?

Р>Если они независимы друг от друга, то может их лучше вообще на нескольких компах и/или GPU считать?

Сам алгоритм (FDTD) параллелится хорошо, но это одна задача, которой требуется много оперативки. С GPU пока связываться не хочется, потому что, чтобы от них была польза, вся задача должна помещаться в видеопамять. Типичная задача, которую сейчас решаем требует около 20 ГБ памяти.

Здравствуйте, Jenyay, Вы писали:

J>Со скоростью готов мириться поэтому двух процессорный сервер — это уже если хватит денег.

ну 32гб легко делаются на обычном железе.
если этого хватит, то даже и не особо дорого получится.

Здравствуйте, DreamMaker, Вы писали:

DM>ну 32гб легко делаются на обычном железе.
DM>если этого хватит, то даже и не особо дорого получится.

32 — это нижний предел. В принципе, хотелось бы побольше. Если есть матери, которые поддерживают до 64 ГБ, то меня это устроило бы.

Здравствуйте, Jenyay, Вы писали:

J>Нужен комп для тяжелых расчетов, требующих большое количество оперативки.

J>Главное требование — памяти не меньше 32 ГБ, хотелось бы 64 ГБ. Бюджет — 100 тыс. р. Хотелось бы купить что-нибудь двухпроцессорное, если удастся уложиться в эту сумму.

Обсуждалось недавно (256гиг рамы): http://rsdn.ru/forum/hardware/5242563

Здравствуйте, ArtemGorikov, Вы писали:

AG>Обсуждалось недавно (256гиг рамы): http://rsdn.ru/forum/hardware/5242563

Любопытно. Вот хотелось бы что-нибудь такое, но для Intel.

Здравствуйте, Jenyay, Вы писали:

J>Любопытно. Вот хотелось бы что-нибудь такое, но для Intel.

Sorry, there is no Russian layout here...

Look for something like
http://shopap.lenovo.com/au/en/workstations/thinkstation/thinkstation-s-series.html (press Buy now and try to configure).

I have recently paid ~2500$ for Xeon e5-2650 with 128Gb RAM + 128 Gb SSD + 2Tb HDD.
Xeon motherboards support 8 RAM slots, each of those support up to 16Gb RAM ECC.
E5-2650 has 8 physical cores, so you may not need a second CPU, but it is pretty expensive.

Здравствуйте, Jenyay, Вы писали:

J>Нужен комп для тяжелых расчетов, требующих большое количество оперативки.

J>Главное требование — памяти не меньше 32 ГБ, хотелось бы 64 ГБ. Бюджет — 100 тыс. р. Хотелось бы купить что-нибудь двухпроцессорное, если удастся уложиться в эту сумму. Крутая видеокарта не нужна, возможно, хватит даже встроенной. Плюс к этому хотелось бы штуки три харда где-то по 2-3 ТБ, чтобы они не очень грелись.

J>В качестве операционки будет использоваться Винда.

Матери есть в количестве.
Выбирай сокет, процессоры, кол-во памяти (64 тут не предел).
По грубой прикидке, минимальная планка на всю эту красоту будет где-то тысяч в 60.
На диски тоже смотри внимательно, чтобы неожиданно не стали узким местом.

Удачи.

Здравствуйте, ShaggyOwl, Вы писали:

SO>Матери есть в количестве.
SO>Выбирай сокет, процессоры, кол-во памяти (64 тут не предел).
SO>По грубой прикидке, минимальная планка на всю эту красоту будет где-то тысяч в 60.
SO>На диски тоже смотри внимательно, чтобы неожиданно не стали узким местом.

SO>Удачи.

Спасибо, буду изучать. Диски думаю брать WD из черной серии.

M>Look for something like
M>http://shopap.lenovo.com/au/en/workstations/thinkstation/thinkstation-s-series.html (press Buy now and try to configure).

M>I have recently paid ~2500$ for Xeon e5-2650 with 128Gb RAM + 128 Gb SSD + 2Tb HDD.
M>Xeon motherboards support 8 RAM slots, each of those support up to 16Gb RAM ECC.
M>E5-2650 has 8 physical cores, so you may not need a second CPU, but it is pretty expensive.

Thanks. This is interesting.

Здравствуйте, Jenyay, Вы писали:

J>Нужен комп для тяжелых расчетов, требующих большое количество оперативки.

J>Главное требование — памяти не меньше 32 ГБ, хотелось бы 64 ГБ. Бюджет — 100 тыс. р. Хотелось бы купить что-нибудь двухпроцессорное, если удастся уложиться в эту сумму.
Берите что-то на 2011 сокете. Я рекомендую что-то уровня 3930к (у самого такой) — он оптимальный по соотношению цены и качества шестиядерник. Данная платформа поддерживает до 64Гб памяти.

J>Крутая видеокарта не нужна, возможно, хватит даже встроенной.
Очень многие действительно тяжёлые рассчёты в данное время имеют чёткую тенденцию уходить на GPGPU, так что я на вашем месте бы не зарекался. Если переход сделать правильно, можно получить до стократного ускорения.

J>Плюс к этому хотелось бы штуки три харда где-то по 2-3 ТБ, чтобы они не очень грелись.
Это уже к платформе не относится и определяется корпусом и БП.

J>Посоветуйте, плз, какая материнка и проц для этого подходят. Что лучше взять из процессоров Intel i7 или что-то из Xeon?
Если устроит 64Гб, то см выше, если же нужно >64Гб, то тока серверные железки за соответствующие бабки.

J>Нужен комп для тяжелых расчетов, требующих большое количество оперативки.
J>Главное требование — памяти не меньше 32 ГБ, хотелось бы 64 ГБ. Бюджет — 100 тыс. р. Хотелось бы купить что-нибудь двухпроцессорное, если удастся уложиться в эту сумму.

32 Гб поддерживают любые (даже недорогие десктопные) материнские платы. На самом деле, может, вам попробовать 4770 (4 ядра + HT = 8 потоков) + 32 гб памяти (уложитесь в 25.000 руб), вдруг будет достаточно?

За 64 Гб придется обратиться к LGA2011. Если бюджет не ваш, а компании, но его лучше поберечь — хороший совет даж koandrew. Единственное, стоит отметить, что процессоры под LGA2011, мягко говоря, устарели, и не факт, что 3930 будет сколь-нибудь быстрее 4770 в ваших задачах.

>64 Гб доступны только с Xeon'ами — опять же, в 100 килорублей уложиться можно попробовать. Уже посоветовали IBM, также можно глянуть на Dell серверные модели — вот http://www.dell.com/us/business/p/poweredge-t620/fs тыкать Configure, ценник будет примерно как у IBM. Это в том случае, если бюджет не ваш и экономить не надо.

Здравствуйте, SkyDance, Вы писали:

J>>Нужен комп для тяжелых расчетов, требующих большое количество оперативки.
J>>Главное требование — памяти не меньше 32 ГБ, хотелось бы 64 ГБ. Бюджет — 100 тыс. р. Хотелось бы купить что-нибудь двухпроцессорное, если удастся уложиться в эту сумму.

SD>32 Гб поддерживают любые (даже недорогие десктопные) материнские платы. На самом деле, может, вам попробовать 4770 (4 ядра + HT = 8 потоков) + 32 гб памяти (уложитесь в 25.000 руб), вдруг будет достаточно?

Максим, а если выяснится, что не хватит, то выкидывать?

Если главный критерий это объем RAM, то мой совет — не парить моск Core 38**/39**, т.к. они все равно ограничены 64 гигами, а смотреть на систему на каком-то из Xeon E5 начального уровня (зависит от бюджета и требований к CPU). На Xeon E5 ограничений по памяти ну практически нет (375 гиг самых младших моделей хватит?

), на однопроцессорной материнке будет 8 слотов, каждый из которых поддерживает плашки до 32 гиг (впрочем, вживую видел только на 16 гиг), что требования по обсчету должно покрыть. И если собирать систему на Xeon, то я бы таки посоветовал немного переплачивать, но ставить плашки по 16 гиг, а не по 8, как посоветовали выше. Потом не надо будет на 16-ти гиговые менять...

Здравствуйте, ShaggyOwl, Вы писали:

SO>Кстати, поковырялся, задачка оказалась интересней, чем казалась изначально.

Я тоже грубо прикинул, и понял, что в выделенный бюджет двухпроцессорный сервак не уложится. Пока посматриваю на мать MSI Z87 MPOWER MAX, в которую можно воткнуть 64 ГБ памяти и проц i7 на сокете LGA 1150.

Здравствуйте, koandrew, Вы писали:

J>>Крутая видеокарта не нужна, возможно, хватит даже встроенной.
K>Очень многие действительно тяжёлые рассчёты в данное время имеют чёткую тенденцию уходить на GPGPU, так что я на вашем месте бы не зарекался. Если переход сделать правильно, можно получить до стократного ускорения.

На видеокарты для расчетов я давно посматриваю, но пока уж больно они дорогие, а имеющиеся объемы видеопамяти (в среднем 5 ГБ) не дадут решать какие-нибудь большие задачи. Кстати, если я ошибаюсь, то поправьте меня, ведь для того, чтобы был серьезный выигрыш от видеокарт, надо, чтобы вся задача умещалась в видеопамять?

Здравствуйте, Jenyay, Вы писали:

J>Я тоже грубо прикинул, и понял, что в выделенный бюджет двухпроцессорный сервак не уложится. Пока посматриваю на мать MSI Z87 MPOWER MAX, в которую можно воткнуть 64 ГБ памяти и проц i7 на сокете LGA 1150.

Если бюджет не тянется, то логично. Камень можно подобрать мощный, 64 Gb MSI-ки тянут. Планки памяти по 16 Gb пока дороговаты, но в указанный бюджет помещаются с запасом.

Здравствуйте, Jenyay, Вы писали:

J>На видеокарты для расчетов я давно посматриваю, но пока уж больно они дорогие, а имеющиеся объемы видеопамяти (в среднем 5 ГБ) не дадут решать какие-нибудь большие задачи. Кстати, если я ошибаюсь, то поправьте меня, ведь для того, чтобы был серьезный выигрыш от видеокарт, надо, чтобы вся задача умещалась в видеопамять?

Алгоритмы для GPU устроены не так, как для ЦП. "Большой" алгоритм разбивают на куски, и только данные данного куска должны быть в видеопамяти. При этом видеодрайвер сам позаботится об этом самостоятельно — ваша задача только подготовить данные и инициализировать ресурсы.

Здравствуйте, Jenyay, Вы писали:

J>32 — это нижний предел. В принципе, хотелось бы побольше. Если есть матери, которые поддерживают до 64 ГБ, то меня это устроило бы.

Тысячи их.
Для 2011 сокета — 8 планок по 8Гб.

... << RSDN@Home 1.2.0 alpha 5 rev. 100 on Windows 8 6.2.9200.0>>

Здравствуйте, SkyDance, Вы писали:

SD>Единственное, стоит отметить, что процессоры под LGA2011, мягко говоря, устарели

Да не особенно то Sandy и устарел, а через месяц будут Ivy.

... << RSDN@Home 1.2.0 alpha 5 rev. 100 on Windows 8 6.2.9200.0>>

Здравствуйте, Jenyay, Вы писали:

J>Я тоже грубо прикинул, и понял, что в выделенный бюджет двухпроцессорный сервак не уложится. Пока посматриваю на мать MSI Z87 MPOWER MAX, в которую можно воткнуть 64 ГБ памяти и проц i7 на сокете LGA 1150.

Максимум 32ГБ для i7
Max Memory Size (dependent on memory type) 32 GB

AVK>Да не особенно то Sandy и устарел, а через месяц будут Ivy.

Во многих вычислительных задачах 6 ядер сенди примерно равны 4 ядрам хасвелла. Когда через месяц будет Ivy, тогда посмотрим. Но, опять же, не думаю, что там будет значительный прыжок. Интел давно уже забила на повышение вычислительной мощности, упор сейчас идет в мобильность.

Здравствуйте, MTimur, Вы писали:

MT>Уточню. 64ГБ можно получить только с Xeon'ами, i7 не поддерживает больше 32ГБ.

А пацаны и не знали:
Intel-Core-i7-3930K

Здравствуйте, mik1, Вы писали:

MT>>Уточню. 64ГБ можно получить только с Xeon'ами, i7 не поддерживает больше 32ГБ.

M>А пацаны и не знали:
M>Intel-Core-i7-3930K

Ограничивать потолком в 64Г и затачиваться на одно старое поколение процов несерьезно- тогда уж в 32 можно ужаться только за счет оптимизаций. Лучше сразу xeon воткнуть и не экономить на спичках. imho.

Здравствуйте, SkyDance, Вы писали:

SD>Во многих вычислительных задачах 6 ядер сенди примерно равны 4 ядрам хасвелла. Когда через месяц будет Ivy, тогда посмотрим. Но, опять же, не думаю, что там будет значительный прыжок. Интел давно уже забила на повышение вычислительной мощности, упор сейчас идет в мобильность.

Ты сам себе противоречишь. Либо забила, и тогда большой разницы между сенди и хасвелом быть не должно, либо не завила, тогда следует ожидать прироста производительности от новой линейки под 2011

... << RSDN@Home 1.2.0 alpha 5 rev. 100 on Windows 8 6.2.9200.0>>

J>Главное требование — памяти не меньше 32 ГБ, хотелось бы 64 ГБ. Бюджет — 100 тыс. р.

Если 64 ГБ, то могу предложить посмотреть здесь.
Например, X3 (подешевле) или Panther 5SE (подороже).

Здравствуйте, SkyDance, Вы писали:

SD>Во многих вычислительных задачах 6 ядер сенди примерно равны 4 ядрам хасвелла. Когда через месяц будет Ivy, тогда посмотрим. Но, опять же, не думаю, что там будет значительный прыжок. Интел давно уже забила на повышение вычислительной мощности, упор сейчас идет в мобильность.

Кончай распространять свои заблуждения

На нормально распараллеленых алгоритмах 6 ядер порвут 4 как тузик грелку.

Здравствуйте, MTimur, Вы писали:

MT>Уточню. 64ГБ можно получить только с Xeon'ами, i7 не поддерживает больше 32ГБ.

Неправда.

Здравствуйте, Jenyay, Вы писали:

J>Здравствуйте, Ромашка, Вы писали:

Р>>Насколько хорошо эти вычисления параллелятся?

Р>>Если они независимы друг от друга, то может их лучше вообще на нескольких компах и/или GPU считать?

J>Сам алгоритм (FDTD) параллелится хорошо, но это одна задача, которой требуется много оперативки. С GPU пока связываться не хочется, потому что, чтобы от них была польза, вся задача должна помещаться в видеопамять. Типичная задача, которую сейчас решаем требует около 20 ГБ памяти.

По описанию алгоритма непонятно почему требуется обновременно столько памяти , расскажете ?

... << RSDN@Home 1.2.0 alpha 5 rev. 1539>>

K>Кончай распространять свои заблуждения

На нормально распараллеленых алгоритмах 6 ядер порвут 4 как тузик грелку.

Приводи примеры таких алгоритмов. Я могу точно сказать про видеокодирование — оно параллелится лучше некуда. И, если обратить внимание на 3930K vs 4770K в видеокодировании (например, в этом сравнении), разница составляет ажно 1%.
Если поискать всякие идеальные случаи, то в той же статье есть один тест, где 3930K таки быстрее, чем 4770, ажно на 10%. Это Java-машина. Но те, кто, как mik1, знают, с чем им приходится работать, знают и какое железо им требуется (как раз дофигаядерные xeon'ы с кучей памяти — жаба до всего жадная, от кэша до частот памяти).

Здравствуйте, SkyDance, Вы писали:

SD>Приводи примеры таких алгоритмов. Я могу точно сказать про видеокодирование — оно параллелится лучше некуда. И, если обратить внимание на 3930K vs 4770K в видеокодировании (например, в этом сравнении), разница составляет ажно 1%.

http://www.rsdn.ru/forum/flame.comp/5217520.1 Обрати внимание на график

Не забывай, что речь идёт об алгоритме, который специально подгоняется под железо. В данном случае 6 ядер однозначно уделают 4, и спорить с этим просто глупо.

K>http://www.rsdn.ru/forum/flame.comp/5217520.1 Обрати внимание на график

Обратил. И что? То, что ядра загружены (заметь, не на 100%), вообще ничего не означает.

K>Не забывай, что речь идёт об алгоритме, который специально подгоняется под железо. В данном случае 6 ядер однозначно уделают 4, и спорить с этим просто глупо.

6 ядер sandy vs 4 ядра haswell, не забывай. А то можно дойти до того, что 8 ядер в самсунге с4 будут круче 2х ядер у intel i3

Здравствуйте, SkyDance, Вы писали:

SD>Обратил. И что? То, что ядра загружены (заметь, не на 100%), вообще ничего не означает.
Вообще-то означает

И загружаются они все на 100% — просто я кусок заскринил.

SD>6 ядер sandy vs 4 ядра haswell, не забывай. А то можно дойти до того, что 8 ядер в самсунге с4 будут круче 2х ядер у intel i3

Пофиг. Количество решает, ибо не так уж сильно различаются ядра, особенно на вычислениях с плавающей точкой. Уж точно не на 50%

Здравствуйте, SkyDance, Вы писали:

SD>Загрузка ядер на 100% означает только загрузку ядер на 100%, больше ничего. Может быть, они загружены spin lock'ом, синхронизируют что-то между собой.
В нормальном аглоритме нет или почти нет синхронизации. В моём случае ядра занимаются абсолютно независимыми тасками, и синхронизация в принципе отсутствует.

SD>Может, ты тогда объяснишь, почему результаты в медиакодировании одинаковы? Ведь параллелятся эти алгоритмы лучше некуда. И так — почти по всем тестам, даже тем, которые параллелятся хорошо.
Далеко не все медиаалгоритмы хорошо параллелятся.

SD>Например, ты можешь неожиданно обнаружить, что 6 ядер будут работать на более низкой частоте (потому что 6 ядер греются больше, чем 4, а уж 6 ядер на 32 нм процессе греются заметноp больше 4х по 22 нм).
По разгону 3930К не сильно хуже 4770К — свой я гонял до 4.4 ГГц, но не хватало стокового кулера — с более продвинутой системой охлаждения он будет стабильным (у меня начинал тротлить при 100% загрузке). На 4.2 ГГц работает вообще без каких-либо проблем. Судя по интернетам, 4770К ведёт себя примерно так же.

SD>В общем, прогресс — это такая штука, которая делает флагманов 3х летней давности сравнимыми с нынешним середнячком. Тебя я хорошо понимаю, LGA2011 и процессоры под нее очень дорогие и тебе совсем не нравится, что обычный 4770 за 300 баксов (+200 на плату) нынче ничуть не медленнее твоей сборки, которая обошлась вчетверо дороже

Только не надо вот этого психоанализа на форумах.

Судя по тестами, которые мне удалось нагуглить, разница в производительности одного ядра укладывается в единицы процентов, посему при идеально распараллеленом алгоритме 4 ядра просто физически не могут быть быстрее 6 (4 * 1.1 << 6 * 1).

SD>Но на настоящий момент LGA2011 имеет смысл ровно в одной редкой ситуации: когда 32 Гб памяти мало, нужно 64, но 128 уже не нужно (т.е. Xeon'ы не нужны), при этом денег ровно столько, что на Xeon не хватает, но больше, чем нужно на i7 + 32 Gb.
Опять говоришь ерунду.

Здравствуйте, koandrew, Вы писали:

SD>>Загрузка ядер на 100% означает только загрузку ядер на 100%, больше ничего. Может быть, они загружены spin lock'ом, синхронизируют что-то между собой.
K>В нормальном аглоритме нет или почти нет синхронизации.

Да что ты? И ты для любой задачи берешься придумать такой алгоритм?

K>Далеко не все медиаалгоритмы хорошо параллелятся.

А как же "в нормальном аглоритме нет или почти нет синхронизации"?

SD>>Например, ты можешь неожиданно обнаружить, что 6 ядер будут работать на более низкой частоте (потому что 6 ядер греются больше, чем 4, а уж 6 ядер на 32 нм процессе греются заметноp больше 4х по 22 нм).
K>По разгону 3930К не сильно хуже 4770К

При чем тут разгон? Речь про турбобуст. Если все 6 ядер загружены, они не будут работать на максимальной частоте.

K>Только не надо вот этого психоанализа на форумах.

Судя по тестами, которые мне удалось нагуглить, разница в производительности одного ядра укладывается в единицы процентов, посему при идеально распараллеленом алгоритме 4 ядра просто физически не могут быть быстрее 6 (4 * 1.1 << 6 * 1).

Проблема только в том, что идеально распараллеливаемые алгоритмы на практике встречаются редко. И даже если они распараллеливаются идеально, в случае 6 и более ядер много чего интересного вылазит. Посмотри на тест рендеринга — он как раз идеально параллелится. Но разница в итоге 10%. Стоит ли она тройной разницы в цене — каждый решает сам.
Но это еще полбеды. Когда алгоритм не параллелится на 6 ядер, мы можем и проиграть 20% как в тесте векторной графики.

... << RSDN@Home 1.2.0 alpha 5 rev. 100 on Windows 8 6.2.9200.0>>

Здравствуйте, AndrewVK, Вы писали:

AVK>Да что ты? И ты для любой задачи берешься придумать такой алгоритм?

Ещё один нечитатель. Если бы ты был внимательнее, то заметил бы, что речь идёт об алгоритме, специально заточенном под железо. То есть алгоритм знает, что присутствуют 6/12 ядер, и активно использует это знание. Например, в моём алгоритме выставляется количество потоков, оптимальное для максимальной загрузки процессора. 12 потоков могут сделать больше, чем 8, понимаешь? А главное — каждый "проход" алгоритма выдаст бОльшую порцию данных (12 текстур против 8) — для меня это очень важно. Я сейчас вот сейчас работаю над портированием алгоритма на GPGPU — главное для меня преимущество в том, что там можно запустить гораздо больше потоков параллельно. Какое-либо взаимодействие потоков друг с другом в алгоритме полностью отсутствует.

Здравствуйте, AndrewVK, Вы писали:

AVK>А если бы ты был внимательнее, то ТС никаких таких алгоритмов не поминал, да и ты изначально говорил о "нормально распараллеленых алгоритмах 6 ядер порвут 4 как тузик грелку". Так вот, очень даже нормально распараллеленые алгоритмы рендеринга 3D не рвут на 6-тиядернике как тузик грелку, а дают всего 10% относительно среднетопового четырехядерника.
Покажи мне "нормально распараллеленые" алгоритмы 3D рендеринга на CPU — я лично никогда таких не видел.

AVK>Твой же алгоритм никого тут не интересует, кроме тебя, особенно учитывая что результатов замеров для него у тебя нет, и ты просто плюешь в потолок. Сперва замеряй его на 3930 и 4770 хотя бы, чтобы хоть что то можно было обсудить, кроме твоих верований.
Мой алгоритм интересен тем, что он выжимает из железа максимум производительности, загружая до упора все ядра. Тестирование, конечно, не помешало бы, но покупать его ради форумных дебатов я не собираюсь. Но даже чисто теоретически чтобы 4 ядра обогнали 6, нужно, чтобы каждое ядро четырёхядерника было более чем на 50% быстрее ядра шестиядерника, что является ненаучной фантастикой.

Здравствуйте, koandrew, Вы писали:

K>Покажи мне "нормально распараллеленые" алгоритмы 3D рендеринга на CPU — я лично никогда таких не видел.

Можешь посмотреть на любой промышленный рендерер.

K>Мой алгоритм интересен тем, что он выжимает из железа максимум производительности, загружая до упора все ядра.

Докажи.

K> Тестирование, конечно, не помешало бы, но покупать его ради форумных дебатов я не собираюсь

А что тогда остается в сухом остатке? Твои верования? Тем более что покупать не обязательно, найти у кого нибудь 4770 или хотя бы 3770 не так уж и сложно в наше время.

K>Но даже чисто теоретически чтобы 4 ядра обогнали 6, нужно, чтобы каждое ядро четырёхядерника было более чем на 50% быстрее ядра шестиядерника, что является ненаучной фантастикой.

Совсем необязательно. Во-первых есть еще и синхронизации внутри железа, чем больше ядер тем больше накладных расходов. Во-вторых даже штатно 4770 имеет максимальную частоту турбобуста выше, а учитывая то, что при полной загрузке 6 ядер максимальной частоты не будет никогда, реальное соотношение частот надо мерять, причем на конкретных экземплярах процессоров. В-третьих то, что твой алгоритм упирается только и исключительно в ядра тоже неплохо доказать. Т.е. имеем кучу факторов, весьма существенно влияющих на производительность, и без реальных замеров все твои слова — пустое сотрясение воздуха. Вот на иксбите взяли и померяли на задаче, которая всегда считалась эталоном распараллеливания среди реального софта, а не синтетики. И получили 10%.

... << RSDN@Home 1.2.0 alpha 5 rev. 100 on Windows 8 6.2.9200.0>>

K>Покажи мне "нормально распараллеленые" алгоритмы 3D рендеринга на CPU — я лично никогда таких не видел.

Почти любой 3D рендерер распараллелен лучше некуда — ray tracing параллелится почти идеально, т.к. все разделяемые данные являются read-only и разделение доступа к ним не требует программной синхронизации.

K>Мой алгоритм интересен тем, что он выжимает из железа максимум производительности, загружая до упора все ядра.

Похоже, ты не до конца понимаешь, как работают современные процессоры Intel. Особенно в той части, где про turbo boost, TDP, шину и т.п..

K>Но даже чисто теоретически чтобы 4 ядра обогнали 6, нужно, чтобы каждое ядро четырёхядерника было более чем на 50% быстрее ядра шестиядерника, что является ненаучной фантастикой.

Ты исходишь из заведомо неверной предпосылки 100%-ной масштабируемости. Поэтому и получаешь заведомо бессмысленные результаты.

Здравствуйте, minorlogic, Вы писали:

M>По описанию алгоритма непонятно почему требуется обновременно столько памяти , расскажете ?

Просто нужно моделировать большие объемы пространства.

Здравствуйте, Jenyay, Вы писали:

J>Здравствуйте, minorlogic, Вы писали:

M>>По описанию алгоритма непонятно почему требуется обновременно столько памяти , расскажете ?

J>Просто нужно моделировать большие объемы пространства.

Каждая ячейка взаимодействует со всеми или только с ограниченным к-вом соседей ?

... << RSDN@Home 1.2.0 alpha 5 rev. 1539>>

Здравствуйте, ShaggyOwl, Вы писали:

SO>Матери есть в количестве.
SO>Выбирай сокет, процессоры, кол-во памяти (64 тут не предел).

Только надо очень внимательно читать маны. Некоторое время назад тоже подумывал о многопроцессорной рабочей станции — из результатов ресёрча неприятно удивило, что довольно частый кейс "многопроцессорность = потеря", когда характеристики пишутся в стиле "да, это крутая материнка, частота памяти N при одном процессоре и не больше M при двух процессорах" (причём N > M). Аналогично про PCI-Ex lanes и т.п. Т.е. "бюджетная" многосокетная мамка — это с большой долей вероятности деньги на ветер.

Здравствуйте, Mr.Delphist, Вы писали:

MD>Только надо очень внимательно читать маны.
Безусловно.

Здравствуйте, minorlogic, Вы писали:

M>Каждая ячейка взаимодействует со всеми или только с ограниченным к-вом соседей ?

Ну на то оно и моделирование, чтобы с соседними, имхо. Намекаешь, что кластер будет дешевле? It makes sense.

... << RSDN@Home 1.2.0 alpha 5 rev. 100 on Windows 8 6.2.9200.0>>

Здравствуйте, minorlogic, Вы писали:

M>Каждая ячейка взаимодействует со всеми или только с ограниченным к-вом соседей ?

Только с несколькими соседями. Но на потенциальном компе в первую очередь будет использоваться чужая программа, исходники которой закрыты, поэтому при всем желании там алгоритм не поменяешь. Та программа умеет использовать разные виды распараллеливания (в том числе и через MPI), но насколько она легко запускается на кластере — это отдельный вопрос, и еще не факт, что лицензия позволит.

Здравствуйте, Jenyay, Вы писали:

J>Здравствуйте, ArtemGorikov, Вы писали:

AG>>Обсуждалось недавно (256гиг рамы): http://rsdn.ru/forum/hardware/5242563

J>Любопытно. Вот хотелось бы что-нибудь такое, но для Intel.

Кстати про интел, наткнулся тут на инфу кастально Аффинного нуля

Массовые ЦП от Intel при возникновении ситуации аффинного нуля возвращают только нулевой результат, не выставляя флаги "потеря точности" и "аффинный нуль", а ЦП AMD (Athlon XP/Athlon MP/AMD 64/Opteron), NEC, SUN (Sparc), DEC (Alpha AXP), MIPS (MIPS R8x000/1x000), IBM (Power, но не PowerPC!) — обработают данную ситуацию правильно — выставят состояние "аффинного нуля". Поэтому, мы и можем утверждать о их разном предназначении. Единственным ЦП от Intel который правильно обработает ситуацию "аффинного нуля" на сегодня можно считать только Itanium 2 — он выставляет флаги состояния правильно.

http://forum.ixbt.com/topic.cgi?id=8:24360

Здравствуйте, Jenyay, Вы писали:

J>Здравствуйте, ShaggyOwl, Вы писали:

SO>>Матери есть в количестве.
SO>>Выбирай сокет, процессоры, кол-во памяти (64 тут не предел).
SO>>По грубой прикидке, минимальная планка на всю эту красоту будет где-то тысяч в 60.
SO>>На диски тоже смотри внимательно, чтобы неожиданно не стали узким местом.

SO>>Удачи.

J>Спасибо, буду изучать. Диски думаю брать WD из черной серии.

Если есть требования по производительности дискового ввода-вывода, то важны не диски, а нормальный (не встроенный) RAID контроллер, Adaptec или LSI.

Вроде бы устаканилась искомая конфигурация, похоже, удается купить двухпроцессорный комп, почти уложившись в бюджет.

Вот, что получилось:

Мать ASUSTEK Z9PE-D16.
Проц E5-2620 Intel 6-core Xeon 2.00GHz-15MB/7.2 S2011.
Блок питания FSP 700-80GLN блок питания 700W.
HDD WD WD3001FAEX 3TB
Видеокарта Palit GTS450 1024Mb/PCI-E

Что скажете? Интересует критика процессора, и хватит ли тут блока питания на 700 Вт?

J>Что скажете? Интересует критика процессора, и хватит ли тут блока питания на 700 Вт?

Да даже 500 Вт хватило бы. С запасом.

Что до процессора, ну, если вы на 128 Гб нацелились, тогда да.
А так, можно LGA2011 + Ivy-E (только что вышли, типа 4960X) и 64 Гб собрать за заметно мЕньшие деньги.

Здравствуйте, SkyDance, Вы писали:

SD>Что до процессора, ну, если вы на 128 Гб нацелились, тогда да.
SD>А так, можно LGA2011 + Ivy-E (только что вышли, типа 4960X) и 64 Гб собрать за заметно мЕньшие деньги.

Все-таки хочется что-то двухпроцессорное и с возможностью докупки памяти в будущем.

	От:	MTimur
	Дата:	18.08.13 11:33
	Оценка:	5 (1) -3

От:	AndrewVK	http://blogs.rsdn.org/avk
Дата:	21.08.13 14:30
Оценка:	1 (1) +1

От:	ShaggyOwl	http://www.rsdn.org
Дата:	15.08.13 20:58
Оценка:	1 (1)

	От:	SkyDance
	Дата:	21.08.13 02:36
	Оценка:	1 (1)

От:	Jenyay	http://jenyay.net
Дата:	15.08.13 06:17
Оценка:

От:	ArtemGorikov	жж
Дата:	15.08.13 10:47
Оценка:

От:	koandrew	http://thingselectronic.blogspot.ca/
Дата:	15.08.13 19:17
Оценка:

	От:	mik1
	Дата:	16.08.13 02:08
	Оценка:

	От:	mik1
	Дата:	19.08.13 02:16
	Оценка:

	От:	x64
	Дата:	19.08.13 19:51
	Оценка:

	От:	minorlogic
	Дата:	20.08.13 20:04
	Оценка: