Информация об изменениях

Сообщение Re[6]: Эра магии - когда технология становится магией от 28.09.2024 13:55

Изменено 28.09.2024 13:56 Shmj

Re[6]: Эра магии - когда технология становится магией
Здравствуйте, Alekzander, Вы писали:

A>Где в ЛЛМ используют необратимые функции?


В больших языковых моделях (LLM) необратимые функции используются в различных компонентах архитектуры и процесса обучения. Вот где они применяются:

Функции активации:

ReLU (Rectified Linear Unit): Эта функция преобразует отрицательные значения в ноль. Поскольку невозможно восстановить исходное отрицательное значение из нуля, ReLU считается необратимой.
GELU (Gaussian Error Linear Unit): Хотя эта функция более гладкая, она также необратима из-за своей нелинейной природы.

Softmax:
Используется в выходном слое для преобразования логитов в вероятности. Softmax необратим, так как из выходных вероятностей невозможно точно восстановить исходные логиты.


— это вам для начала. Но и так понятно что по имеющейся модели нельзя восстановить данные, на которых она обучалась. Размер модели будет во много крат меньше самих данных, даже если данные сжать.
Re[6]: Эра магии - когда технология становится магией
Здравствуйте, Alekzander, Вы писали:

A>Где в ЛЛМ используют необратимые функции?


В больших языковых моделях (LLM) необратимые функции используются в различных компонентах архитектуры и процесса обучения. Вот где они применяются:

Функции активации:

ReLU (Rectified Linear Unit): Эта функция преобразует отрицательные значения в ноль. Поскольку невозможно восстановить исходное отрицательное значение из нуля, ReLU считается необратимой.
GELU (Gaussian Error Linear Unit): Хотя эта функция более гладкая, она также необратима из-за своей нелинейной природы.

Softmax:
Используется в выходном слое для преобразования логитов в вероятности. Softmax необратим, так как из выходных вероятностей невозможно точно восстановить исходные логиты.
...


— это вам для начала. Но и так понятно что по имеющейся модели нельзя восстановить данные, на которых она обучалась. Размер модели будет во много крат меньше самих данных, даже если данные сжать.