Информация об изменениях

Сообщение Re[10]: Почему взлетел Deep Learning? от 28.06.2022 11:34

Изменено 28.06.2022 11:35 m2l

Старый текст
Новый текст
Разница

Re[10]: Почему взлетел Deep Learning?

Здравствуйте, SkyKnight, Вы писали:

SK>Что значит испытывают сложности, те кто в матан могут? Чем им их знания вышки могут помешать построить, скажем, при помощи Keras модель, обучить и использовать. Я вопрос вообще не понял никак.
А чем их знания могут помочь построить при помощи Keras модель, обучить и пользоваться? Мой поинт именно в этом, что производную ни здесь считать не будут. И это знание — что оно есть, что нету не влияет на способность описать и обучить модель. Или не способность.

m2l>>Я это и спрашиваю — может вот реально есть какой-то опыт, где глубокие знания дифисчисления помогают как-то оптимизировать модель (с точки зрения того, кто эту модель обучает, а не разработчика фреймоврка)?
SK>Обучение модели это не что иное как задача по оптимизации. Желательно найти глобальный минимум функции потерь, но обычно это не удается, поэтому есть разнообразные техники при обучении, чтобы не попасть сразу же в первый локальный минимум.
Я это знаю. Но вопрос тот-же: как знание дифисчисления помогает человеку пользоваться библиотекой с готовым набором оптимизаторов? На каком этапе при работе с датасетом, описанием модели или обучением человек должен им воспользоваться, применительно к чему, как это помогает выбрать функцию активации или число нейронов в слое?

m2l>>Вот реальный — практический кейс. У меня модель, обученная, работает. Но, инференс долгий. Производную или дифференциал чего мне взять чтоб ускорить её?
SK>Производные высчитывают только на этапе обучения, чтобы подобрать веса параметров нейрона. Когда ты уже используешь обученную модель, то в этот момент производные не высчитываются.
SK>Ты бы просто почитал про back propagation и как оно работает. Там, на самом деле ничего сложного и нет.
Я не только читаю, но и в живую использую. Поэтому меня и несколько выбивает из колеи, когда люди, которые только читали, начинают выдавать прочитанное за первую истину.
Вот смотри — по твоим собственным словам производные высчитываться только на этапе обучения. Их кто считает, человек или ML библиотека? И если это библиотека, то как именно знание производных поможет обучить модель быстрее/выше/сильней?

SK>Что у тебя за модель, что она делает и что там тормозит?

Ну и опять же. По моему опыту, когда замены библиотек исчерпывают запас оптимизации, наступает время переобучения модели, у который слишком большой инференс. Какую производную мне посчитать, что-бы переобучить модель, потеряв пару сотых в точности, но ускорив её раза в два?

Re[10]: Почему взлетел Deep Learning?

Здравствуйте, SkyKnight, Вы писали:

SK>Что значит испытывают сложности, те кто в матан могут? Чем им их знания вышки могут помешать построить, скажем, при помощи Keras модель, обучить и использовать. Я вопрос вообще не понял никак.
А чем их знания могут помочь построить при помощи Keras модель, обучить и пользоваться? Мой поинт именно в этом, что производную никто считать не будет. И это знание — что оно есть, что нету не влияет на способность описать и обучить модель. Или не способность.

m2l>>Я это и спрашиваю — может вот реально есть какой-то опыт, где глубокие знания дифисчисления помогают как-то оптимизировать модель (с точки зрения того, кто эту модель обучает, а не разработчика фреймоврка)?
SK>Обучение модели это не что иное как задача по оптимизации. Желательно найти глобальный минимум функции потерь, но обычно это не удается, поэтому есть разнообразные техники при обучении, чтобы не попасть сразу же в первый локальный минимум.
Я это знаю. Но вопрос тот-же: как знание дифисчисления помогает человеку пользоваться библиотекой с готовым набором оптимизаторов? На каком этапе при работе с датасетом, описанием модели или обучением человек должен им воспользоваться, применительно к чему, как это помогает выбрать функцию активации или число нейронов в слое?

m2l>>Вот реальный — практический кейс. У меня модель, обученная, работает. Но, инференс долгий. Производную или дифференциал чего мне взять чтоб ускорить её?
SK>Производные высчитывают только на этапе обучения, чтобы подобрать веса параметров нейрона. Когда ты уже используешь обученную модель, то в этот момент производные не высчитываются.
SK>Ты бы просто почитал про back propagation и как оно работает. Там, на самом деле ничего сложного и нет.
Я не только читаю, но и в живую использую. Поэтому меня и несколько выбивает из колеи, когда люди, которые только читали, начинают выдавать прочитанное за первую истину.
Вот смотри — по твоим собственным словам производные высчитываться только на этапе обучения. Их кто считает, человек или ML библиотека? И если это библиотека, то как именно знание производных поможет обучить модель быстрее/выше/сильней?

SK>Что у тебя за модель, что она делает и что там тормозит?

Ну и опять же. По моему опыту, когда замены библиотек исчерпывают запас оптимизации, наступает время переобучения модели, у который слишком большой инференс. Какую производную мне посчитать, что-бы переобучить модель, потеряв пару сотых в точности, но ускорив её раза в два?