Здравствуйте, Nuzhny, Вы писали:
N>Здравствуйте, m2l, Вы писали:
N>>>Ну, тебе при выборе лосс-функции на этапе обучения её производная понадобится. m2l>>Ок, но приведи пример, от чего ты эту производную берешь и как используешь для выбора функции потерь.
N>Лосс-функцию я выбираю под задачу. Например, у меня сегментация, и сильно несбалансированные классы (например, сегментация дорог на спутниковых снимках), и я могу подбирать её так, чтобы не пропускать дороги. Я подбираю функцию потерь, ищу производную, ставлю эксперимент, меняю функцию, обучаю и т.д. Или я беру обычный детектор и меняю цель с bounding box на rotated rectangle. Мне также надо менять и лосс функцию в том числе. Короче, это постоянно требуется, не вижу проблем.
Я тоже не вижу проблемы, но не совсем понимаю, что ты делаешь на этапе "ищу производную". Это ты так называешь вызов оптимизатора что-ли? Вроде что бы им пользоваться умения считать производные и даже знать, что это такое не требуется.
m2l>>Опять-же, это выдаёт в тебе теоретика, который с реальными моделями не работал. Потому, что ускорение инференса — это переобучение с меньшим числом слоёв/нейронов/связей и т.д... И по твоей логике для обучения производная понадобиться, а на переобучении и так сойдёт.
N>Переобучение — это и есть обучение. Я в принципе не уловил логику и не понял вопрос. ещё я могу делать пруннинг, квантизацию, да мало ли что — вплоть до ручной реализации и оптимизации сети на целевой платформе.
Вопрос простой — как знание / незнание производных влияет на пруннинг, квантизацию и остальное? Как по мне, так никак.