Информация об изменениях

Сообщение Re[9]: AIO Cooling от 25.01.2023 19:58

Изменено 25.01.2023 20:00 _ilya_

Re[9]: AIO Cooling
Здравствуйте, rm2, Вы писали:

rm2>вот тебе таблица, ее думаю достаточно: https://habr.com/ru/company/otus/blog/343566/


Смотрю наихудшее — если из памяти рид. 100-150 циклов, может кажется много, но из памяти рид не 1 операция, и если там будет далее последовательное чтение то там могут быть данные на десятки вычислений.
Просто нужно подумать, как реально достигается даже теоритически максимально возможная производительность? Тот же limpack — там же используется при полном тесте вообще вся память, т.е. read из памяти непрерывный и на весь объем в гигабайты. А если есть такие "жрущие" операции, то никак не достичь заявленной производительности, просто частота процессора*количество потоков*количество инструкций за такт. Т.е. как в реальном тесте на перемножение матриц достигают предельных величин производительности процессора? Ведь огромные затраты должны сожрать ну хотябы 30%, а если доступ к памяти это 100-150 в зар медленнее, чем просто инструкция, то должно ждать фиаско! Однако процессоры в реальных задачах могут демонстрировать производительность которая теоретически и заложена в виде частоты*ядра*инструкций за такт. И плевать на "медленный" доступ к памяти.
Re[9]: AIO Cooling
Здравствуйте, rm2, Вы писали:

rm2>вот тебе таблица, ее думаю достаточно: https://habr.com/ru/company/otus/blog/343566/


Смотрю наихудшее — если из памяти рид. 100-150 циклов, может кажется много, но из памяти рид не на 1 операцию, там выбирается блок, и если там будет далее последовательное чтение то там могут быть данные на десятки вычислений. и дальнейшая последовательная выборка не настолько медленная. И все эти затраты в итоге станут ничем.
Просто нужно подумать, как реально достигается даже теоритически максимально возможная производительность? Тот же limpack — там же используется при полном тесте вообще вся память, т.е. read из памяти непрерывный и на весь объем в гигабайты. А если есть такие "жрущие" операции, то никак не достичь заявленной производительности, просто частота процессора*количество потоков*количество инструкций за такт. Т.е. как в реальном тесте на перемножение матриц достигают предельных величин производительности процессора? Ведь огромные затраты должны сожрать ну хотябы 30%, а если доступ к памяти это 100-150 в зар медленнее, чем просто инструкция, то должно ждать фиаско! Однако процессоры в реальных задачах могут демонстрировать производительность которая теоретически и заложена в виде частоты*ядра*инструкций за такт. И плевать на "медленный" доступ к памяти.