Здравствуйте, alex_public, Вы писали:
_>Вот как раз такой тупой код в лоб gcc и генерирует:
ну извини, это называется смотришь в книгу — видишь фигу
замени вот это
_> vpmaskmovd -32(%rdx), %ymm2, %ymm0
_> vpaddd %ymm0, %ymm1, %ymm1
на vpaddd -32(%rdx), %ymm1, %ymm1. и это убери
_> vpandn %ymm3, %ymm2, %ymm2
кстати, s и d можно разместить в одном массиве со смещением в 3 строчки. тогда ваша задача влезет в 8 МБ