Здравствуйте, m2l, Вы писали:
N>>Ну, тебе при выборе лосс-функции на этапе обучения её производная понадобится. m2l>Ок, но приведи пример, от чего ты эту производную берешь и как используешь для выбора функции потерь.
Лосс-функцию я выбираю под задачу. Например, у меня сегментация, и сильно несбалансированные классы (например, сегментация дорог на спутниковых снимках), и я могу подбирать её так, чтобы не пропускать дороги. Я подбираю функцию потерь, ищу производную, ставлю эксперимент, меняю функцию, обучаю и т.д. Или я беру обычный детектор и меняю цель с bounding box на rotated rectangle. Мне также надо менять и лосс функцию в том числе. Короче, это постоянно требуется, не вижу проблем.
m2l>Опять-же, это выдаёт в тебе теоретика, который с реальными моделями не работал. Потому, что ускорение инференса — это переобучение с меньшим числом слоёв/нейронов/связей и т.д... И по твоей логике для обучения производная понадобиться, а на переобучении и так сойдёт.
Переобучение — это и есть обучение. Я в принципе не уловил логику и не понял вопрос. ещё я могу делать пруннинг, квантизацию, да мало ли что — вплоть до ручной реализации и оптимизации сети на целевой платформе.