Попался мне на глаза студенческий курсач, в котором нужно было перемалывать числа. Чтобы работало быстрее — на GPGPU.
Что-то показалось мне в коде подозрительным, я немного его поковырял, и выяснилось, что эта "оптимизированная" версия работает в 10 (!) раз медленнее, чем самая примитивная однопоточная версия на CPU практически без оптимизаций.
А потом эти студенты идут интернами в Майкрософт и Гугл...