ME>У меня есть сильное подозрение, что Intel C++ compiler for Linux разворачивает memcpy в mmx/sse, т.к. скорости рукописного цикла и memcpy gcc на моих тестах были в 3 раза меньше. Сглупил кода тестировал — не посмотрел asm output.
Скорее она использует DMA если размер блока большой...