Здравствуйте, LaptevVV, Вы писали:
m2l>>Вот хотел бы я глянуть хоть одну статью по Deep Learning с частными производными
LVV>Во всех учебниках.
Научная статья по машинному обучению? Одна статья?
А то есть у нас некоторые вузы, со своими учебниками.... какой мешанины бреда туда только не копипастят, чисто что б объем добрать и KPI по издательству отработать.
LVV>Обучение нейронных сетей традиционно осуществляется методом градиентного спуска.
LVV>Ибо нейронная сеть в своей основе — функция многих переменных.
LVV>А метод градиентного спуска — это как раз частные производные.
Прекрасные теоретизирования. Которые выдают незнания ни метода градиентного спуска в общем, ни его модификаций которые применяются в машинном обучении, ни предметной области в целом.
Во всяких теоремах о сходимости, критериях и условиях на базе которых строиться доказательство свойств градиентного спуска — дифференциалы и производные есть. А в самом методе, вот парадокс, нету. И в машинном обучение, на этапе тренировки или использовании модели — чудо, чудное, не рассчитываеться никаких производных.
LVV>Учите матанализ, вьюнош... 
Бравируете незнанием предметной области?
m2l>>В ML очень часто сначала экспериментально новый метод делают, а потом, порой лет через 5-10 к нему дописывают математику.
LVV>Ну, в эвристических алгоритмах математики-то как раз не очень много.
LVV>Хотя вероятности там почти везде.
Если мне не изменяет память, то мат аппарат, описывающий нейронные сети через частичные кусочно непрерывные функции появился лет через пятнадцать, после первых статей о перцептроне Розенблатта. Математики, там в общем-то действительно не так уж и много. Но сначала, экспериментально, алгоритм — потом, спустя годы матаппарат, этот алгоритм описывающий.
Даже более яркая история, про бустинг — сначала метод, а спустя лет 6 или 7 математическое описание и доказательство его сходимости. Хотя на практике всё было уже понятно и не один год, как использовалось.