Здравствуйте, BulatZiganshin, Вы писали:
BZ>1) твои рассуждения бессмысленны, поскольку невозможно рассуждать о быстродействии, не зная микроархитектуры BZ>2) я прикинул оптимальный скалярный и avx2 код и у меня получилась разница в скорости в районе 6 раз
Интересно только почему твоя сложная оценка на основание огромных знаний о микроархитектуре в точности совпала с давным давно озвученным мною значение, полученным видимо на основе бессмысленных рассуждений? )
BZ>3) твой тест мог упереться в скорость озу, как я сказал в пред. сообщении
Это не верно. Точнее действительно проблема в памяти, но не в том смысле, что ты думаешь (типа надо сделать размер данных поменьше и всё будет ОК).
BZ>4) несложно самому написать оптимальный avx2-код на mm256_* операциях и посмотреть его скорость