Re[10]: Комп для расчетов
От: koandrew Канада http://thingselectronic.blogspot.ca/
Дата: 21.08.13 10:44
Оценка:
Здравствуйте, SkyDance, Вы писали:

SD>Загрузка ядер на 100% означает только загрузку ядер на 100%, больше ничего. Может быть, они загружены spin lock'ом, синхронизируют что-то между собой.

В нормальном аглоритме нет или почти нет синхронизации. В моём случае ядра занимаются абсолютно независимыми тасками, и синхронизация в принципе отсутствует.

SD>Может, ты тогда объяснишь, почему результаты в медиакодировании одинаковы? Ведь параллелятся эти алгоритмы лучше некуда. И так — почти по всем тестам, даже тем, которые параллелятся хорошо.

Далеко не все медиаалгоритмы хорошо параллелятся.

SD>Например, ты можешь неожиданно обнаружить, что 6 ядер будут работать на более низкой частоте (потому что 6 ядер греются больше, чем 4, а уж 6 ядер на 32 нм процессе греются заметноp больше 4х по 22 нм).

По разгону 3930К не сильно хуже 4770К — свой я гонял до 4.4 ГГц, но не хватало стокового кулера — с более продвинутой системой охлаждения он будет стабильным (у меня начинал тротлить при 100% загрузке). На 4.2 ГГц работает вообще без каких-либо проблем. Судя по интернетам, 4770К ведёт себя примерно так же.

SD>В общем, прогресс — это такая штука, которая делает флагманов 3х летней давности сравнимыми с нынешним середнячком. Тебя я хорошо понимаю, LGA2011 и процессоры под нее очень дорогие и тебе совсем не нравится, что обычный 4770 за 300 баксов (+200 на плату) нынче ничуть не медленнее твоей сборки, которая обошлась вчетверо дороже

Только не надо вот этого психоанализа на форумах. Судя по тестами, которые мне удалось нагуглить, разница в производительности одного ядра укладывается в единицы процентов, посему при идеально распараллеленом алгоритме 4 ядра просто физически не могут быть быстрее 6 (4 * 1.1 << 6 * 1).

SD>Но на настоящий момент LGA2011 имеет смысл ровно в одной редкой ситуации: когда 32 Гб памяти мало, нужно 64, но 128 уже не нужно (т.е. Xeon'ы не нужны), при этом денег ровно столько, что на Xeon не хватает, но больше, чем нужно на i7 + 32 Gb.

Опять говоришь ерунду.
[КУ] оккупировала армия.
Re[11]: Комп для расчетов
От: AndrewVK Россия http://blogs.rsdn.org/avk
Дата: 21.08.13 13:14
Оценка:
Здравствуйте, koandrew, Вы писали:

SD>>Загрузка ядер на 100% означает только загрузку ядер на 100%, больше ничего. Может быть, они загружены spin lock'ом, синхронизируют что-то между собой.

K>В нормальном аглоритме нет или почти нет синхронизации.

Да что ты? И ты для любой задачи берешься придумать такой алгоритм?

K>Далеко не все медиаалгоритмы хорошо параллелятся.


А как же "в нормальном аглоритме нет или почти нет синхронизации"?

SD>>Например, ты можешь неожиданно обнаружить, что 6 ядер будут работать на более низкой частоте (потому что 6 ядер греются больше, чем 4, а уж 6 ядер на 32 нм процессе греются заметноp больше 4х по 22 нм).

K>По разгону 3930К не сильно хуже 4770К

При чем тут разгон? Речь про турбобуст. Если все 6 ядер загружены, они не будут работать на максимальной частоте.

K>Только не надо вот этого психоанализа на форумах. Судя по тестами, которые мне удалось нагуглить, разница в производительности одного ядра укладывается в единицы процентов, посему при идеально распараллеленом алгоритме 4 ядра просто физически не могут быть быстрее 6 (4 * 1.1 << 6 * 1).


Проблема только в том, что идеально распараллеливаемые алгоритмы на практике встречаются редко. И даже если они распараллеливаются идеально, в случае 6 и более ядер много чего интересного вылазит. Посмотри на тест рендеринга — он как раз идеально параллелится. Но разница в итоге 10%. Стоит ли она тройной разницы в цене — каждый решает сам.
Но это еще полбеды. Когда алгоритм не параллелится на 6 ядер, мы можем и проиграть 20% как в тесте векторной графики.
... << RSDN@Home 1.2.0 alpha 5 rev. 100 on Windows 8 6.2.9200.0>>
AVK Blog
Re[12]: Комп для расчетов
От: koandrew Канада http://thingselectronic.blogspot.ca/
Дата: 21.08.13 14:24
Оценка:
Здравствуйте, AndrewVK, Вы писали:

AVK>Да что ты? И ты для любой задачи берешься придумать такой алгоритм?


Ещё один нечитатель. Если бы ты был внимательнее, то заметил бы, что речь идёт об алгоритме, специально заточенном под железо. То есть алгоритм знает, что присутствуют 6/12 ядер, и активно использует это знание. Например, в моём алгоритме выставляется количество потоков, оптимальное для максимальной загрузки процессора. 12 потоков могут сделать больше, чем 8, понимаешь? А главное — каждый "проход" алгоритма выдаст бОльшую порцию данных (12 текстур против 8) — для меня это очень важно. Я сейчас вот сейчас работаю над портированием алгоритма на GPGPU — главное для меня преимущество в том, что там можно запустить гораздо больше потоков параллельно. Какое-либо взаимодействие потоков друг с другом в алгоритме полностью отсутствует.
[КУ] оккупировала армия.
Re[13]: Комп для расчетов
От: AndrewVK Россия http://blogs.rsdn.org/avk
Дата: 21.08.13 14:30
Оценка: 1 (1) +1
Здравствуйте, koandrew, Вы писали:

K>Если бы ты был внимательнее, то заметил бы, что речь идёт об алгоритме, специально заточенном под железо.


А если бы ты был внимательнее, то ТС никаких таких алгоритмов не поминал, да и ты изначально говорил о "нормально распараллеленых алгоритмах 6 ядер порвут 4 как тузик грелку". Так вот, очень даже нормально распараллеленые алгоритмы рендеринга 3D не рвут на 6-тиядернике как тузик грелку, а дают всего 10% относительно среднетопового четырехядерника.
Твой же алгоритм никого тут не интересует, кроме тебя, особенно учитывая что результатов замеров для него у тебя нет, и ты просто плюешь в потолок. Сперва замеряй его на 3930 и 4770 хотя бы, чтобы хоть что то можно было обсудить, кроме твоих верований.
... << RSDN@Home 1.2.0 alpha 5 rev. 100 on Windows 8 6.2.9200.0>>
AVK Blog
Re[14]: Комп для расчетов
От: koandrew Канада http://thingselectronic.blogspot.ca/
Дата: 21.08.13 14:47
Оценка:
Здравствуйте, AndrewVK, Вы писали:

AVK>А если бы ты был внимательнее, то ТС никаких таких алгоритмов не поминал, да и ты изначально говорил о "нормально распараллеленых алгоритмах 6 ядер порвут 4 как тузик грелку". Так вот, очень даже нормально распараллеленые алгоритмы рендеринга 3D не рвут на 6-тиядернике как тузик грелку, а дают всего 10% относительно среднетопового четырехядерника.

Покажи мне "нормально распараллеленые" алгоритмы 3D рендеринга на CPU — я лично никогда таких не видел.

AVK>Твой же алгоритм никого тут не интересует, кроме тебя, особенно учитывая что результатов замеров для него у тебя нет, и ты просто плюешь в потолок. Сперва замеряй его на 3930 и 4770 хотя бы, чтобы хоть что то можно было обсудить, кроме твоих верований.

Мой алгоритм интересен тем, что он выжимает из железа максимум производительности, загружая до упора все ядра. Тестирование, конечно, не помешало бы, но покупать его ради форумных дебатов я не собираюсь. Но даже чисто теоретически чтобы 4 ядра обогнали 6, нужно, чтобы каждое ядро четырёхядерника было более чем на 50% быстрее ядра шестиядерника, что является ненаучной фантастикой.
[КУ] оккупировала армия.
Re[15]: Комп для расчетов
От: AndrewVK Россия http://blogs.rsdn.org/avk
Дата: 21.08.13 14:57
Оценка:
Здравствуйте, koandrew, Вы писали:

K>Покажи мне "нормально распараллеленые" алгоритмы 3D рендеринга на CPU — я лично никогда таких не видел.


Можешь посмотреть на любой промышленный рендерер.

K>Мой алгоритм интересен тем, что он выжимает из железа максимум производительности, загружая до упора все ядра.


Докажи.

K> Тестирование, конечно, не помешало бы, но покупать его ради форумных дебатов я не собираюсь


А что тогда остается в сухом остатке? Твои верования? Тем более что покупать не обязательно, найти у кого нибудь 4770 или хотя бы 3770 не так уж и сложно в наше время.

K>Но даже чисто теоретически чтобы 4 ядра обогнали 6, нужно, чтобы каждое ядро четырёхядерника было более чем на 50% быстрее ядра шестиядерника, что является ненаучной фантастикой.


Совсем необязательно. Во-первых есть еще и синхронизации внутри железа, чем больше ядер тем больше накладных расходов. Во-вторых даже штатно 4770 имеет максимальную частоту турбобуста выше, а учитывая то, что при полной загрузке 6 ядер максимальной частоты не будет никогда, реальное соотношение частот надо мерять, причем на конкретных экземплярах процессоров. В-третьих то, что твой алгоритм упирается только и исключительно в ядра тоже неплохо доказать. Т.е. имеем кучу факторов, весьма существенно влияющих на производительность, и без реальных замеров все твои слова — пустое сотрясение воздуха. Вот на иксбите взяли и померяли на задаче, которая всегда считалась эталоном распараллеливания среди реального софта, а не синтетики. И получили 10%.
... << RSDN@Home 1.2.0 alpha 5 rev. 100 on Windows 8 6.2.9200.0>>
AVK Blog
Re[15]: Комп для расчетов
От: SkyDance Земля  
Дата: 21.08.13 23:00
Оценка:
K>Покажи мне "нормально распараллеленые" алгоритмы 3D рендеринга на CPU — я лично никогда таких не видел.

Почти любой 3D рендерер распараллелен лучше некуда — ray tracing параллелится почти идеально, т.к. все разделяемые данные являются read-only и разделение доступа к ним не требует программной синхронизации.

K>Мой алгоритм интересен тем, что он выжимает из железа максимум производительности, загружая до упора все ядра.


Похоже, ты не до конца понимаешь, как работают современные процессоры Intel. Особенно в той части, где про turbo boost, TDP, шину и т.п..

K>Но даже чисто теоретически чтобы 4 ядра обогнали 6, нужно, чтобы каждое ядро четырёхядерника было более чем на 50% быстрее ядра шестиядерника, что является ненаучной фантастикой.


Ты исходишь из заведомо неверной предпосылки 100%-ной масштабируемости. Поэтому и получаешь заведомо бессмысленные результаты.
Re[4]: Комп для расчетов
От: Jenyay http://jenyay.net
Дата: 23.08.13 04:06
Оценка:
Здравствуйте, minorlogic, Вы писали:

M>По описанию алгоритма непонятно почему требуется обновременно столько памяти , расскажете ?


Просто нужно моделировать большие объемы пространства.
Софт, исходники и фото
Re[5]: Комп для расчетов
От: minorlogic Украина  
Дата: 23.08.13 05:17
Оценка:
Здравствуйте, Jenyay, Вы писали:

J>Здравствуйте, minorlogic, Вы писали:


M>>По описанию алгоритма непонятно почему требуется обновременно столько памяти , расскажете ?


J>Просто нужно моделировать большие объемы пространства.


Каждая ячейка взаимодействует со всеми или только с ограниченным к-вом соседей ?
... << RSDN@Home 1.2.0 alpha 5 rev. 1539>>
Ищу работу, 3D, SLAM, computer graphics/vision.
Re[2]: Комп для расчетов
От: Mr.Delphist  
Дата: 23.08.13 09:30
Оценка:
Здравствуйте, ShaggyOwl, Вы писали:

SO>Матери есть в количестве.

SO>Выбирай сокет, процессоры, кол-во памяти (64 тут не предел).

Только надо очень внимательно читать маны. Некоторое время назад тоже подумывал о многопроцессорной рабочей станции — из результатов ресёрча неприятно удивило, что довольно частый кейс "многопроцессорность = потеря", когда характеристики пишутся в стиле "да, это крутая материнка, частота памяти N при одном процессоре и не больше M при двух процессорах" (причём N > M). Аналогично про PCI-Ex lanes и т.п. Т.е. "бюджетная" многосокетная мамка — это с большой долей вероятности деньги на ветер.
Re[3]: Комп для расчетов
От: ShaggyOwl Россия http://www.rsdn.org
Дата: 23.08.13 10:10
Оценка:
Здравствуйте, Mr.Delphist, Вы писали:

MD>Только надо очень внимательно читать маны.

Безусловно.
Хорошо там, где мы есть! :)
Re[6]: Комп для расчетов
От: AndrewVK Россия http://blogs.rsdn.org/avk
Дата: 23.08.13 10:24
Оценка:
Здравствуйте, minorlogic, Вы писали:

M>Каждая ячейка взаимодействует со всеми или только с ограниченным к-вом соседей ?


Ну на то оно и моделирование, чтобы с соседними, имхо. Намекаешь, что кластер будет дешевле? It makes sense.
... << RSDN@Home 1.2.0 alpha 5 rev. 100 on Windows 8 6.2.9200.0>>
AVK Blog
Re[6]: Комп для расчетов
От: Jenyay http://jenyay.net
Дата: 23.08.13 13:05
Оценка:
Здравствуйте, minorlogic, Вы писали:

M>Каждая ячейка взаимодействует со всеми или только с ограниченным к-вом соседей ?


Только с несколькими соседями. Но на потенциальном компе в первую очередь будет использоваться чужая программа, исходники которой закрыты, поэтому при всем желании там алгоритм не поменяешь. Та программа умеет использовать разные виды распараллеливания (в том числе и через MPI), но насколько она легко запускается на кластере — это отдельный вопрос, и еще не факт, что лицензия позволит.
Софт, исходники и фото
Re[3]: Комп для расчетов
От: Аноним  
Дата: 03.09.13 13:33
Оценка:
Здравствуйте, Jenyay, Вы писали:

J>Здравствуйте, ArtemGorikov, Вы писали:


AG>>Обсуждалось недавно (256гиг рамы): http://rsdn.ru/forum/hardware/5242563
Автор:
Дата: 26.07.13


J>Любопытно. Вот хотелось бы что-нибудь такое, но для Intel.


Кстати про интел, наткнулся тут на инфу кастально Аффинного нуля

Массовые ЦП от Intel при возникновении ситуации аффинного нуля возвращают только нулевой результат, не выставляя флаги "потеря точности" и "аффинный нуль", а ЦП AMD (Athlon XP/Athlon MP/AMD 64/Opteron), NEC, SUN (Sparc), DEC (Alpha AXP), MIPS (MIPS R8x000/1x000), IBM (Power, но не PowerPC!) — обработают данную ситуацию правильно — выставят состояние "аффинного нуля". Поэтому, мы и можем утверждать о их разном предназначении. Единственным ЦП от Intel который правильно обработает ситуацию "аффинного нуля" на сегодня можно считать только Itanium 2 — он выставляет флаги состояния правильно.

http://forum.ixbt.com/topic.cgi?id=8:24360
Re[3]: Комп для расчетов
От: 11molniev  
Дата: 03.09.13 18:15
Оценка:
Здравствуйте, Jenyay, Вы писали:

J>Здравствуйте, ShaggyOwl, Вы писали:


SO>>Матери есть в количестве.

SO>>Выбирай сокет, процессоры, кол-во памяти (64 тут не предел).
SO>>По грубой прикидке, минимальная планка на всю эту красоту будет где-то тысяч в 60.
SO>>На диски тоже смотри внимательно, чтобы неожиданно не стали узким местом.

SO>>Удачи.


J>Спасибо, буду изучать. Диски думаю брать WD из черной серии.


Если есть требования по производительности дискового ввода-вывода, то важны не диски, а нормальный (не встроенный) RAID контроллер, Adaptec или LSI.
Re: Комп для расчетов
От: Jenyay http://jenyay.net
Дата: 11.09.13 16:08
Оценка:
Вроде бы устаканилась искомая конфигурация, похоже, удается купить двухпроцессорный комп, почти уложившись в бюджет.

Вот, что получилось:


Что скажете? Интересует критика процессора, и хватит ли тут блока питания на 700 Вт?
Софт, исходники и фото
Re[2]: Комп для расчетов
От: SkyDance Земля  
Дата: 12.09.13 02:30
Оценка:
J>Что скажете? Интересует критика процессора, и хватит ли тут блока питания на 700 Вт?

Да даже 500 Вт хватило бы. С запасом.

Что до процессора, ну, если вы на 128 Гб нацелились, тогда да.
А так, можно LGA2011 + Ivy-E (только что вышли, типа 4960X) и 64 Гб собрать за заметно мЕньшие деньги.
Re[3]: Комп для расчетов
От: Jenyay http://jenyay.net
Дата: 12.09.13 08:59
Оценка:
Здравствуйте, SkyDance, Вы писали:

SD>Что до процессора, ну, если вы на 128 Гб нацелились, тогда да.

SD>А так, можно LGA2011 + Ivy-E (только что вышли, типа 4960X) и 64 Гб собрать за заметно мЕньшие деньги.

Все-таки хочется что-то двухпроцессорное и с возможностью докупки памяти в будущем.
Софт, исходники и фото
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.