[ANN] 4 TFlops или 960 ядер - Философия программирования

На днях NVidia анонсировала новый процессор T10P для высокопроизводительных вычислений и новую модель 1U сервера Tesla S1070. Сервер содержит 4 процессора T10P, каждый по 240 GPU ядер (960 в сумме). Пиковая производительность 4 TFlops. Пропускная способность памяти 400GB/s.
Предполагаемая стоимость $8000. Т.е. вполне доступно для компаний и институтов.
Удивительное рядом.

http://www.ddj.com/hpc-high-performance-computing/208404203?cid=RSSfeed_DDJ_All
http://www.nvidia.com/object/tesla_s1070.html

Здравствуйте, remark, Вы писали:

R>Предполагаемая стоимость $8000. Т.е. вполне доступно для компаний и институтов.
R>Удивительное рядом.

Ага только есть некоторые ограничения — все-таки это не обычный процессор, а графический. Он поддерживает несколько иную (мягко говоря) модель вычислений, и писать приложения под него придется с помощью библиотеки NVIDIA CUDA.
Но в целом использование GPU для мат. вычислений представляется очень интересной. Я сам сейчас этим занимаюсь

... << RSDN@Home 1.2.0 alpha 4 rev. 1091>>

Мне очень нравится эта вещь http://graphics.cs.uiuc.edu/svn/kcrane/web/project_qjulia.html
Посмотрев исходники понятно что ничего "сверх" там нет. К сожалению на новых инвидиях не очень пашет, неизвестно почему (точнее говоря из-за дров, а дрова такие что вешают проц на 100% (при том что бесконечный цикл получается в коде GPU а не CPU), и с огромным трудом путём возвращается назад)... Пофиксить можно, если разобраться конечно. Но это к слову о вычислениях... Проц он и есть проц, дрова дровами... А так, если покумекать задачи всегда найдутся.

Здравствуйте, Sash_xp, Вы писали:

S_>Здравствуйте, remark, Вы писали:

R>>Предполагаемая стоимость $8000. Т.е. вполне доступно для компаний и институтов.
R>>Удивительное рядом.

S_>Ага только есть некоторые ограничения — все-таки это не обычный процессор, а графический. Он поддерживает несколько иную (мягко говоря) модель вычислений, и писать приложения под него придется с помощью библиотеки NVIDIA CUDA.
S_>Но в целом использование GPU для мат. вычислений представляется очень интересной. Я сам сейчас этим занимаюсь

а спарс матрицы решаются там хорошо? алгоритм навроде KLU интересует.

Здравствуйте, remark, Вы писали:

R>На днях NVidia анонсировала новый процессор T10P для высокопроизводительных вычислений и новую модель 1U сервера Tesla S1070. Сервер содержит 4 процессора T10P, каждый по 240 GPU ядер (960 в сумме). Пиковая производительность 4 TFlops. Пропускная способность памяти 400GB/s.
R>Предполагаемая стоимость $8000. Т.е. вполне доступно для компаний и институтов.
R>Удивительное рядом.

Вот ещё порадовало:

...it was only 11 years ago that the U.S. government spent approximately $33 million to build ASCI Red, one of the first supercomputers to achieve 1 billion floating point operations per second. The new graphics chips offer 1,000 times the power of that 1997-era supercomputer.

"Now we can go down to Fry's or Best Buy and buy a graphics board that has 1 teraflop of processing power for $600 or less...

Забавно...

http://www.wired.com/techbiz/it/news/2008/06/gpu_power

R>

Здравствуйте, merk, Вы писали:

S_>>Ага только есть некоторые ограничения — все-таки это не обычный процессор, а графический. Он поддерживает несколько иную (мягко говоря) модель вычислений, и писать приложения под него придется с помощью библиотеки NVIDIA CUDA.
S_>>Но в целом использование GPU для мат. вычислений представляется очень интересной. Я сам сейчас этим занимаюсь

M>а спарс матрицы решаются там хорошо? алгоритм навроде KLU интересует.

32-bit float only. Дальше думай сам

--
Sergey Chadov

... << RSDN@Home 1.2.0 alpha rev. 685>>

Здравствуйте, Sergey Chadov, Вы писали:

SC>Здравствуйте, merk, Вы писали:

S_>>>Ага только есть некоторые ограничения — все-таки это не обычный процессор, а графический. Он поддерживает несколько иную (мягко говоря) модель вычислений, и писать приложения под него придется с помощью библиотеки NVIDIA CUDA.
S_>>>Но в целом использование GPU для мат. вычислений представляется очень интересной. Я сам сейчас этим занимаюсь

M>>а спарс матрицы решаются там хорошо? алгоритм навроде KLU интересует.

SC>32-bit float only. Дальше думай сам

это 23 бита на мантиссу которое?
Как трудно жить!

Здравствуйте, merk, Вы писали:

SC>>32-bit float only. Дальше думай сам

M>это 23 бита на мантиссу которое?
M>Как трудно жить!

Оно. Причем еще не до конца реализован стандарт IEEE в плане подержки NaN, используется неточное деление и корни.

--
Sergey Chadov

... << RSDN@Home 1.2.0 alpha rev. 685>>

Здравствуйте, Sergey Chadov, Вы писали:

SC>Здравствуйте, merk, Вы писали:

SC>>>32-bit float only. Дальше думай сам

M>>это 23 бита на мантиссу которое?
M>>Как трудно жить!

SC>Оно. Причем еще не до конца реализован стандарт IEEE в плане подержки NaN, используется неточное деление и корни.

все равно интересно. была бы возможность, я бы с этим повозился.

Здравствуйте, merk, Вы писали:

SC>>Оно. Причем еще не до конца реализован стандарт IEEE в плане подержки NaN, используется неточное деление и корни.
M>все равно интересно. была бы возможность, я бы с этим повозился.

А в чем проблема? GeForce 8800 GT стоит 250$. Я вот себе купил. Теперь думаю как к диссеру прикрутить.

Здравствуйте, remark, Вы писали:

R>

В продолжении темы: MD5 на GPU.

С Уважением, Andir!

using( RSDN@Home 1.2.0 alpha 4 rev. 987 ) { /* Работаем */ }

Здравствуйте, Sergey Chadov, Вы писали:

SC>Здравствуйте, merk, Вы писали:

SC>>>Оно. Причем еще не до конца реализован стандарт IEEE в плане подержки NaN, используется неточное деление и корни.
M>>все равно интересно. была бы возможность, я бы с этим повозился.

SC>А в чем проблема? GeForce 8800 GT стоит 250$. Я вот себе купил. Теперь думаю как к диссеру прикрутить.

ну вот...русский человек сначала купит, затем повертит в руках, и задумаеццо — а куда это прикрутить???
европеец сначала придумает куда, потом станет полгода денег копить, потом купит и прикрутит. и что бы доход с нее был!

Здравствуйте, Sergey Chadov, Вы писали:

SC>Здравствуйте, merk, Вы писали:

SC>>>Оно. Причем еще не до конца реализован стандарт IEEE в плане подержки NaN, используется неточное деление и корни.
M>>все равно интересно. была бы возможность, я бы с этим повозился.

SC>А в чем проблема? GeForce 8800 GT стоит 250$. Я вот себе купил. Теперь думаю как к диссеру прикрутить.

для диссертации вот такая штучка будет ничего
http://www.nvidia.com/object/tesla_c1060.html

Здравствуйте, merk, Вы писали:

SC>>>>Оно. Причем еще не до конца реализован стандарт IEEE в плане подержки NaN, используется неточное деление и корни.
M>>>все равно интересно. была бы возможность, я бы с этим повозился.

SC>>А в чем проблема? GeForce 8800 GT стоит 250$. Я вот себе купил. Теперь думаю как к диссеру прикрутить.

M>ну вот...русский человек сначала купит, затем повертит в руках, и задумаеццо — а куда это прикрутить???
M>европеец сначала придумает куда, потом станет полгода денег копить, потом купит и прикрутит. и что бы доход с нее был!

Да не, я давно на нее зуб точил, ждал пока подешевеет. А пока статейки читал, эмулятор ковырял. К тому же я не зря аспирант на кафедре высокопроизводительных вычислительных систем, параллельное программирование — мой непосредственный интерес. А тут такая девайсина недорого. Да и, что скрывать, в игрушки на ней тоже хорошо играть

--
Sergey Chadov

... << RSDN@Home 1.2.0 alpha rev. 685>>

Здравствуйте, merk, Вы писали:

SC>>А в чем проблема? GeForce 8800 GT стоит 250$. Я вот себе купил. Теперь думаю как к диссеру прикрутить.

M>для диссертации вот такая штучка будет ничего
M>http://www.nvidia.com/object/tesla_c1060.html

это вещь хорошая, но нутром чую дорогая. По крайней мере по сравнению с 8800GT

--
Sergey Chadov

... << RSDN@Home 1.2.0 alpha rev. 685>>

Здравствуйте, merk, Вы писали:

M>для диссертации вот такая штучка будет ничего
M>http://www.nvidia.com/object/tesla_c1060.html

Да,

Интересно то, что 4 гигабайта быстрой памяти сделать, похоже, нельзя, поэтому в Тесле пропускная способность памяти в 1.4 раза меньше (и для многих приложений это аукнется)
(c) http://www.gpgpu.ru/announces/gtx-280.html

не фонтан. У нее память и так узкое место.

Здравствуйте, Sergey Chadov, Вы писали:

SC>32-bit float only. Дальше думай сам

Скажем так, уже и double поддержимвается на новых процессорах серии GTX 200.

К тому же для многих задач, скажем дискретной оптимизации может хватить и одинарной точности.

... << RSDN@Home 1.2.0 alpha 4 rev. 1091>>

Здравствуйте, Sash_xp, Вы писали:

S_>Скажем так, уже и double поддержимвается на новых процессорах серии GTX 200.
Ключевые слова "скажем так". Потому как так как оно там поддерживается, толку от него немного.

S_>К тому же для многих задач, скажем дискретной оптимизации может хватить и одинарной точности.
А для многих не хватит.

--
Sergey Chadov

... << RSDN@Home 1.2.0 alpha rev. 685>>

Здравствуйте, Sergey Chadov, Вы писали:

SC>Здравствуйте, Sash_xp, Вы писали:

S_>>Скажем так, уже и double поддержимвается на новых процессорах серии GTX 200.
SC>Ключевые слова "скажем так". Потому как так как оно там поддерживается, толку от него немного.
Это да, верно.

S_>>К тому же для многих задач, скажем дискретной оптимизации может хватить и одинарной точности.
SC>А для многих не хватит.
Так ведь даже и не каждая задача может быть эффективно распараллелена. Вы же учитесь на кафедре HPC и знаете, что универсальных вычислителей не бывает.

... << RSDN@Home 1.2.0 alpha 4 rev. 1091>>

От:	remark	http://www.1024cores.net/
Дата:	20.06.08 17:17
Оценка:	7 (2)

	От:	Sash_xp
	Дата:	20.06.08 18:56
	Оценка:

	От:	fddima
	Дата:	20.06.08 20:39
	Оценка:

	От:	merk
	Дата:	20.06.08 20:39
	Оценка:

От:	remark	http://www.1024cores.net/
Дата:	20.06.08 22:28
Оценка:

От:	Курилка	http://kirya.narod.ru/
Дата:	23.06.08 11:13
Оценка:

От:	Andir	http://twitter.com/AndirNotes
Дата:	23.06.08 12:33
Оценка:	4 (2)