Здравствуйте, Vzhyk2, Вы писали:
V>Здравствуйте, Sharov, Вы писали:
S>>Или можно нагуглить исходную статью по XGBoost. Вообще в ML без производных никуда, как минимум-то искать? И понятно, что S>>все это делается численными методами. V>Аналитическую производноую можно заменить разностной схемой.
И? Бустинг это и делает. Это как-то отменяет знание мат. азов?
Здравствуйте, xma, Вы писали:
xma>это давно уже надобилось, — подходящих вычислительных ресурсов для этого не было .. я ещё удивлялся лет 15 назад — чего все автобусы не автоматизируют, или по крайней мере — не пытаются это делать ..
ресурсы экспоненту никак не погасят.
xma>оказывается проблема распознавания образов — тогда препятствовала этому в корне ..
Распознавание образов достаточно просто сводится к вычислительным процессам, там нет сложных рекурсивных экспоненциальных взрывов ..
xma>возвращаясь к исходной теме, — ну и конечно вроде как в самих алгоритмах — прорывы какие то были (в последние 10 летие особенно, ближе к чуть ранее середины вроде основные)
можешь точнее сказать какие ? Я в последней теме по аджоинту погружался, им сенсетивити считают в нейронках.
Здравствуйте, sept_tone, Вы писали:
_> ресурсы экспоненту никак не погасят.
какую конкретно экспоненту ? квантовые компьютеры в помощь — они любят экспоненты ..
_> Распознавание образов достаточно просто сводится к вычислительным процессам, там нет сложных рекурсивных экспоненциальных взрывов ..
а где есть ?
_> можешь точнее сказать какие ?
гугли читай научные статьи судя по тому что куча учёных работает над новыми AI технологиями (и адаптацией старых), и ведущие компании их сманивают — на бешенный бабос, там не паханное поле для исследований ..
_>Я в последней теме по аджоинту погружался, им сенсетивити считают в нейронках.
Здравствуйте, xma, Вы писали:
xma>Здравствуйте, sept_tone, Вы писали:
_>> ресурсы экспоненту никак не погасят.
xma>какую конкретно экспоненту ? квантовые компьютеры в помощь — он любят экспоненты ..
Квантовое исчисление в квантовых компьютерах пока — миф.
Здравствуйте, Tai, Вы писали:
Tai>Как думаете, почему взлетел Deep Learning (распознавание картинок, логические игры, беспилотные машины), хотя что там конкретно внутри — никто не знает.
Потому же, почему взлетели ммм и популярность Илона Маска.
У сложных вещей обычно есть и хорошие, и плохие аспекты.
Берегите Родину, мать вашу. (ДДТ)
Здравствуйте, Nikе, Вы писали:
vsb>>Вроде прорыв в нейросетях был, с тех пор и пошло всё на взлёт. Задачи-то востребованные.
N>Нейросети — гадкое слово. Нафиг тащить биологтю в математику...
Ну терминологию не я придумал. Вирусы тоже нефиг?
Да и по сути компьютерные нейросети изначально были попыткой копировать природные механизмы, пусть и в упрощённом виде, это потом уже развитие пошло по независимому пути.
Здравствуйте, m2l, Вы писали:
m2l>Во всяких теоремах о сходимости, критериях и условиях на базе которых строиться доказательство свойств градиентного спуска — дифференциалы и производные есть. А в самом методе, вот парадокс, нету. И в машинном обучение, на этапе тренировки или использовании модели — чудо, чудное, не рассчитываеться никаких производных.
ты сейчас хорошо пошутил. Вообше при обучении там вычисляются производные много раз, именно поэтому стараются подбирать такие функции активации нейронов, чтобы производную можно было вычислить просто. Иначе обучение будет идти долго.
V>Всё еще проще. Сейчас взлетели только сверточные сети. В них по сути нелинейная функция с очень большим количеством переменных и для нее есть эффективная реализация градиентного спуска.
не только сверточные. RNN тоже весьма успешно используются.
V>Получили некую неусточвую хрень — при малом измении входных данных получаем большие изменения в результате. V>Gо причине собственно вида функции и локального минимума нейронки легко обманываются добавляением небольших искажений в данные.
Для этого есть методы уже. И даже напридумывали кучу медотов объяснять почему нейронка приняла то или иное решение. Explainable AI (XAI) называется.
Здравствуйте, Sharov, Вы писали:
S>Дообучение так работает?
называется transfer learning
Если речь идет о CNN, то берут уже обученную сеть, подменяют последние dense слои на свои и, фактически, обучают только их, не трогая остальные параметры из сверточных слоев сети.
Здравствуйте, SkyKnight, Вы писали:
m2l>>Во всяких теоремах о сходимости, критериях и условиях на базе которых строиться доказательство свойств градиентного спуска — дифференциалы и производные есть. А в самом методе, вот парадокс, нету. И в машинном обучение, на этапе тренировки или использовании модели — чудо, чудное, не рассчитываеться никаких производных. SK>ты сейчас хорошо пошутил. Вообше при обучении там вычисляются производные много раз, именно поэтому стараются подбирать такие функции активации нейронов, чтобы производную можно было вычислить просто. Иначе обучение будет идти долго.
Есть и методы оптимизации второго порядка, но до них вычислительные мощности ещё не доросли: вычислять Гессиан — дорогое удовольствие.
Здравствуйте, Nuzhny, Вы писали:
N>Есть и методы оптимизации второго порядка, но до них вычислительные мощности ещё не доросли: вычислять Гессиан — дорогое удовольствие.
да, есть, там же gradient descent можно вычислить с помощью метода Ньютона (который использует матрицу Гессиана), но есть еще метод Бройдена, там просто используется апроксимация матрицы Гессиана. Метод, конечно, менее точный из-за апроксимации, но зато быстрее.
Ai(x(i) −x(i−1)) = ∇f(x(i))−∇f(x(i−1)).
Что-то типа такого.
там еще формула Шермана-Моррисона используется и, в принципе, в этом алгоритме матрица Гессиана вычисляется только один раз на самой первой итерации.
Но я особо оптимизацией не занимался, это не совсем мой конек, так что может где и прогнал. Писал по старой памяти ))
Здравствуйте, xma, Вы писали:
xma>это давно уже надобилось, — подходящих вычислительных ресурсов для этого не было .. я ещё удивлялся лет 15 назад — чего все автобусы не автоматизируют, или по крайней мере — не пытаются это делать ..
xma>оказывается проблема распознавания образов — тогда препятствовала этому в корне ..
Автобус большой. Зачем ему распознавать образы? Пусть образы его распознают и трепещут.
Здравствуйте, SkyKnight, Вы писали:
SK>Здравствуйте, m2l, Вы писали:
m2l>>Во всяких теоремах о сходимости, критериях и условиях на базе которых строиться доказательство свойств градиентного спуска — дифференциалы и производные есть. А в самом методе, вот парадокс, нету. И в машинном обучение, на этапе тренировки или использовании модели — чудо, чудное, не рассчитываеться никаких производных. SK>ты сейчас хорошо пошутил. Вообше при обучении там вычисляются производные много раз, именно поэтому стараются подбирать такие функции активации нейронов, чтобы производную можно было вычислить просто. Иначе обучение будет идти долго.
Ну, ок, покажи, кто там для сеток на pytorch или tf вычисляет производные и подбирает по ним функции активации. Со ссылкой на работающие модели этих специалистов или статью где они этим занимаются и оно помогает разработать реальную модель.
Мне действительно интересно, потому как это прям альтернативная реальность, что есть кто-то, кто лезет во внутрь backward() и step(), не из тех кто эти фреймворки пилит. А то с таким же апломбом можно заявлять, что знание корутин требует выученного наизусть Канта.
Здравствуйте, m2l, Вы писали:
m2l>Мне действительно интересно, потому как это прям альтернативная реальность, что есть кто-то, кто лезет во внутрь backward() и step(), не из тех кто эти фреймворки пилит.
Блин, да там внутри давно уже автоматическое дифференцирование, разве нет? Так же как и в плюсовом ceres solver и куче других библиотек.
Здравствуйте, Nuzhny, Вы писали:
m2l>>Мне действительно интересно, потому как это прям альтернативная реальность, что есть кто-то, кто лезет во внутрь backward() и step(), не из тех кто эти фреймворки пилит.
N>Блин, да там внутри давно уже автоматическое дифференцирование, разве нет? Так же как и в плюсовом ceres solver и куче других библиотек.
Суть и заминусованного сообщения и ответа SkyKnight — что те, кто делает сетки на этот уровень не лезут. И что там под капотом как-бы не знают. И можно долго рассуждать, о том, что дифференцирование и производные — это самое важно для ML. Но, кто делает модели — как-то вот обходиться без применения этих знаний. А те кто классно умеют в матан чё-то испытывают сложности с обучаемостью своих творений.
Я это и спрашиваю — может вот реально есть какой-то опыт, где глубокие знания дифисчисления помогают как-то оптимизировать модель (с точки зрения того, кто эту модель обучает, а не разработчика фреймоврка)?
Вот реальный — практический кейс. У меня модель, обученная, работает. Но, инференс долгий. Производную или дифференциал чего мне взять чтоб ускорить её?
Здравствуйте, m2l, Вы писали:
m2l>Я это и спрашиваю — может вот реально есть какой-то опыт, где глубокие знания дифисчисления помогают как-то оптимизировать модель (с точки зрения того, кто эту модель обучает, а не разработчика фреймоврка)?
Ну, тебе при выборе лосс-функции на этапе обучения её производная понадобится.
m2l>Вот реальный — практический кейс. У меня модель, обученная, работает. Но, инференс долгий. Производную или дифференциал чего мне взять чтоб ускорить её?
Здравствуйте, m2l, Вы писали:
m2l>Суть и заминусованного сообщения и ответа SkyKnight — что те, кто делает сетки на этот уровень не лезут. И что там под капотом как-бы не знают. И можно долго рассуждать, о том, что дифференцирование и производные — это самое важно для ML. Но, кто делает модели — как-то вот обходиться без применения этих знаний. А те кто классно умеют в матан чё-то испытывают сложности с обучаемостью своих творений.
Что значит испытывают сложности, те кто в матан могут? Чем им их знания вышки могут помешать построить, скажем, при помощи Keras модель, обучить и использовать. Я вопрос вообще не понял никак.
m2l>Я это и спрашиваю — может вот реально есть какой-то опыт, где глубокие знания дифисчисления помогают как-то оптимизировать модель (с точки зрения того, кто эту модель обучает, а не разработчика фреймоврка)?
Обучение модели это не что иное как задача по оптимизации. Желательно найти глобальный минимум функции потерь, но обычно это не удается, поэтому есть разнообразные техники при обучении, чтобы не попасть сразу же в первый локальный минимум.
.
m2l>Вот реальный — практический кейс. У меня модель, обученная, работает. Но, инференс долгий. Производную или дифференциал чего мне взять чтоб ускорить её?
Производные высчитывают только на этапе обучения, чтобы подобрать веса параметров нейрона. Когда ты уже используешь обученную модель, то в этот момент производные не высчитываются.
Ты бы просто почитал про back propagation и как оно работает. Там, на самом деле ничего сложного и нет.
Что у тебя за модель, что она делает и что там тормозит?
Здравствуйте, Tai, Вы писали:
Tai>Как думаете, почему взлетел Deep Learning (распознавание картинок, логические игры, беспилотные машины), хотя что там конкретно внутри — никто не знает.
Почему взлетели и какая унутре неонка — вещи слабо связанные.
Взлетели потому, что на эти задачи был и есть дикий спрос. А вычисления стали дешевле на порядки.
Здравствуйте, Nuzhny, Вы писали:
N>Ну, тебе при выборе лосс-функции на этапе обучения её производная понадобится.
Ок, но приведи пример, от чего ты эту производную берешь и как используешь для выбора функции потерь.
m2l>>Вот реальный — практический кейс. У меня модель, обученная, работает. Но, инференс долгий. Производную или дифференциал чего мне взять чтоб ускорить её?
N>Это же только для обучения, а не инференса
Опять-же, это выдаёт в тебе теоретика, который с реальными моделями не работал. Потому, что ускорение инференса — это переобучение с меньшим числом слоёв/нейронов/связей и т.д... И по твоей логике для обучения производная понадобиться, а на переобучении и так сойдёт.