Здравствуйте, Nuzhny, Вы писали:
N>Как это делается?
Ну... внимательно смотришь на алгоритм. Определяешь где у некоторого сферического кеша в вакууме(ибо они на разных процессорах ведут себя несколько по разному) будут промахи и переписываешь обращения к памяти так чтобы этих промахов было поменьше.
N>Ммм, например, при какой-либо обработке изображения на 40 Мб.
На обработке изображений у меня этими методами получалось разогнать в 2-3 раза.
N>Разбивать её на блоки меньшие кэша и независимо их обрабатывать? А если независимо нельзя?
А что за алгоритм то? Код показать можешь?
Пусть это будет просто:
просто, как только можно,
но не проще.
(C) А. Эйнштейн