Здравствуйте, SkyKnight, Вы писали:
SK>Здравствуйте, m2l, Вы писали:
m2l>>Во всяких теоремах о сходимости, критериях и условиях на базе которых строиться доказательство свойств градиентного спуска — дифференциалы и производные есть. А в самом методе, вот парадокс, нету. И в машинном обучение, на этапе тренировки или использовании модели — чудо, чудное, не рассчитываеться никаких производных. SK>ты сейчас хорошо пошутил. Вообше при обучении там вычисляются производные много раз, именно поэтому стараются подбирать такие функции активации нейронов, чтобы производную можно было вычислить просто. Иначе обучение будет идти долго.
Ну, ок, покажи, кто там для сеток на pytorch или tf вычисляет производные и подбирает по ним функции активации. Со ссылкой на работающие модели этих специалистов или статью где они этим занимаются и оно помогает разработать реальную модель.
Мне действительно интересно, потому как это прям альтернативная реальность, что есть кто-то, кто лезет во внутрь backward() и step(), не из тех кто эти фреймворки пилит. А то с таким же апломбом можно заявлять, что знание корутин требует выученного наизусть Канта.