Стало интересно, насколько он всё же быстрее в реальных задачах. Нашел статью с бенчмарком — сложение чисел в массиве.
https://dournac.org/info/gpu_sum_reduction
Видеокарта (не из дешевых, на момент написания статьи) с трудом обгоняет однопоточную реализацию для процессора.
Кто-нибудь объясните, чего я не понимаю?