Здравствуйте, Nuzhny, Вы писали:
N>2. Потом модели переносятся в продакшен уже на С++, inference нейросетей работает на opencv_dnn (если CPU) и на TF + cudnn (если GPU). Для TF используется его С++ API. Для всех моделей есть С++ API, мы их вызываем иногда сотни раз на один кадр видео, поэтому тут вариантов нет.
Интересно, а есть ли место TensorFlow Serving в сходном с вашим процессе?
Он по идее как раз призван заменить работу с моделями напрямую, предоставляя нечто в виде application server для специально экспортированных/облегченных моделей и выставляя наружу gRPC, чтобы с ними общаться.
Или есть способы делать это лучше, "руками"?
Twas brillig, and the slithy toves
Did gyre and gimble in the wabe