От: | xma | ||
Дата: | 14.01.24 00:11 | ||
Оценка: |
Результат был впечатляющим: FastBERT показывал производительность, сопоставимую с базовыми моделями BERT такого же размера и методикой обучения.
Варианты FastBERT, обученные всего лишь за один день на одном графическом процессоре A6000, сохраняли не менее 96% производительности оригинальной модели BERT.
Лучшая модель FastBERT достигала производительности оригинальной модели, используя при этом только 0,3% своих нейронов прямого распространения.
Исследователи разработали собственную реализацию операций условного умножения на базе инструкций процессора и графического процессора. Это привело к 78-кратному увеличению скорости вывода.
Ученые полагают, что благодаря более качественному аппаратному обеспечению и низкоуровневой реализации алгоритма есть потенциал для более чем 300-кратного улучшения скорости вывода.
Это могло бы решить одну из основных проблем языковых моделей — количество токенов, которые они генерируют в секунду.