О компьютерном зрении - Компьютерные священные войны

M>Кто работал (работает) с сабжем? Расскажите плиз, очень интересно. В чем соль идеи, насколько продвинулось человечество в этом направлении и т.д.

Вот интересная статья:
https://www.gazeta.ru/army/2021/09/19/14000252.shtml

проблема дистанционной ликвидации Фахризаде: при отправке через спутник данных между роботом-пулеметом и его удаленным оператором-стрелком возникала задержка в 1,6 секунды. Этого мгновения хватило бы, чтобы автомобиль физика-ядерщика ушел с линии огня. Тогда «Моссад» задействовал искусственный интеллект, созданный на базе нейросети. ИИ компенсировал задержку, возможную тряску и движение автомобиля жертвы.

Ещё было на Украине про мину в лифте, которая взорвалась только когда в неё вошел нужный человек, опознав его по фотографии.

Здравствуйте, Mihal9, Вы писали:

M>Кто работал (работает) с сабжем? Расскажите плиз, очень интересно. В чем соль идеи, насколько продвинулось человечество в этом направлении и т.д.

Есть разные алгоритмы, от битомолок до нейросетей. Я бы сказал, что с помощью компьютерного зрения можно творить чудеса. И за этим, а не за людьми будущее, когда требуется оперативное вмешательство.

Но в реальности как и во многих областях в программировании, алгоритмы есть, они успешно работают, но массово не используются. А практически у себя на компьютере можно запустить примеры OpenCV для начального ознакомления.

Опять же для совсем уж новичков есть курс.
https://www.youtube.com/playlist?list=PL-_cKNuVAYAXAnpy8RCV8UtFrFFLRa4rh

Здравствуйте, Mihal9, Вы писали:

M>В чем соль идеи, насколько продвинулось человечество в этом направлении и т.д.

Продвинулось примерно до этого уровня:

Когда я ковырял сабж (тупо для секурной камеры, чтобы записывать ТОЛЬКО важные кадры) это "зрение" не могло ничего толком — ни листья деревьев (колышащиеся на ветру) отсеивать, ни день/ночь реагировать, ни временную вспышку фонаря... проще тупо записывать ВСЁ, а потом смотреть. Про распознавание вообще молчу — тут наверное только "тренированные сети", да и те надроченные на узкий спектр предметов. Плохо всё, короче.

Здравствуйте, Mihal9, Вы писали:

M>Кто работал (работает) с сабжем? Расскажите плиз, очень интересно. В чем соль идеи, насколько продвинулось человечество в этом направлении и т.д.

Я уже много лет.

1. Раньше специалисты по компьютерному зрению звались либо математики с Матлабом в вузах, либо программисты с С++ на местах. Писали ручками, знали математику, ЦОС и всякие фишки, специфические для компьютерного зрения (преобразование Хафа, например). Классификация символов тех времён: ручками находим символы (контуры), находим их особенности (Ху моменты), пишем кучу if-else, которые отличают символы друг от друга.

2. Потом случилась первая революция, соединилось машинное обучение (это были не нейросети, а AdaBoost и SVM) и ручные фичи/особенности. AdaBoost+Haar или AdaBoost+LBP встраивались в фотоаппараты для поиска лиц, улыбок. Linear SVM + HOG стали лучшим детектором объектов по качеству. Потом пошло развитие в эту сторону, появились другие классификаторы и другие фичи, но по сути оно так и работало. Первый Kinect рабтал на основе random forest. Детектор и дескриптор точек SIFT стал королём в своей области лет на 20, да и сейчас применяется, хотя уже и не лучший (по сути это HOG).

3. Ну а потом началась революция свёрточных нейросетей, когда они стали по качествую последовательно выдавливать классическое компьютерное зрение изо всех областей: классификация, детекция, трекинг и т.д. Сейчас всё реже где в принципе надо для получения результата знать классику, это больше хардкорные вещи типа bundle adjustment и 3D реконструкции, SLAM. Тут ещё надо знать о модели камеры, фундаментальной матрице, эпиполярной геометрии (но тут нейросети тоже двигаются семимильными шагами). Для решения задач классификации, детекции, сегментации классика практически не нужна, ооочень редко. Нейросети стали не только точными, но и быстрыми. Из инструментов для старта хватит Python c библиотеками + PyTorch. Если захочешь изобрести что-то своё, то С++ и CUDA понадобятся, свои слои и функции пишут на них. Если займёшься ускорением на edge device, то С++ понадобится с бОльшей вероятностью, многие конторы для инференса не используют библиотеки от той же Nvidia, а реализуют свои нейросети вручную, получая ускорение в разы.

4. Потом, то есть прямо сейчас, началась революция уже внутри нейросетевого подхода. Свёрточные нейросети начинают проигрывать Трансформерам, пришедшим из языковых моделей. Проиграли ещё не всё, но многое.

5. Ну и ещё один тренд, который даёт бОльше качества — мультимодальные сети, обучающиеся и на картинках, и на тексте, и на звуке. Из-за более обширного домена у них получается выстраивать более сложные связи между различными понятиями и объектами.

В целом, можно сказать что развитие идёт двумя путями: большие компании на суперкомпьютерах двигают науку, открывают новые архитектуры и лабают фреймворки. Потом выкладывают в открытый доступ, где народ помельче из монструозных моделей путём их упрощения и оптимизации делает что-то такое, что можно использовать в быту и обучать на локальных мощностях. Нельзя сказать, что те же свёрточные нейросети побеждены: у тех же YOLO выходят новые версии, работают они быстро и достаточно точно. Вполне можно крутить в умных камерах, которые детектируют и считают посетителй, распознают номера и открывают шлагбаумы, летают на коптерах и т.д. Но тренд такой.

P.S. Все ожидают прорыва в квантовых вычислениях, которые дадут возможность находить глобальный минимум функции потерь намного быстрее и он будет по настоящему глобальным.

Здравствуйте, Baiker, Вы писали:

B>Продвинулось примерно до этого уровня:

Котика жалко, он болеет — у него температура ~34.1 градуса. Это очень мало для котиков.

B> Плохо всё, короче.

По описанию больше похоже, что у тебя плохо с мотивацией как следует разобраться.
Но вообще, да. Компьютерное зрение пока еще в зачаточном состоянии, но движется вперед очень быстрыми темпами.

Здравствуйте, Эйнсток Файр, Вы писали:

ЭФ>Ещё было на Украине про мину в лифте, которая взорвалась только когда в неё вошел нужный человек, опознав его по фотографии.

Уверен что это не фантастика а 100% правда — при входе в Фитнес Хаус меня мгновенно опознает их система по фото и открывает турникет!
(а могла бы рвануть))

Здравствуйте, Nuzhny, Вы писали:

N>Я уже много лет.

Как думаете, стоит ли сейчас входить в эту область? Кто из крупных компаний размещает вакансии? (Яндекс, Сбер)

Здравствуйте, Mihal9, Вы писали:

M>Как думаете, стоит ли сейчас входить в эту область? Кто из крупных компаний размещает вакансии? (Яндекс, Сбер)

Вакансии есть, но среди junior конкуренция просто дикая. Народ из разных областей проходит многочисленные курсы и хочет работать. Достаточного числа вакансий для таких толп нет, все хотят минимум middle. Так что кроме курсов приходится кандидатам ещё выступать на условном kaggle, на хакатонах, делать свои pet проекты и т.д. и т.п. И всё равно среди всех кандидатов на собеседовании выбираешь не тех, кто больше курсов прошёл, а тех кто лучше знает университетскую математику или программирование.
Поэтому тут ответ один: идти стоит, если этим горишь и хочень потратить много личного времени на саморазвитие. Иначе не пробьёшься.

Здравствуйте, Nuzhny, Вы писали:

N>Вакансии есть, но среди junior конкуренция просто дикая.

А если на западном рынке поискать удаленные вакансии?

Здравствуйте, Mihal9, Вы писали:

N>>Вакансии есть, но среди junior конкуренция просто дикая.
M>А если на западном рынке поискать удаленные вакансии?

Я тут не копенгаген, поэтому не скажу.

Здравствуйте, Vermicious Knid, Вы писали:

VK>Котика жалко, он болеет — у него температура ~34.1 градуса. Это очень мало для котиков.

Это калибровка левая! Котик, как и положено, выдаёт какашечку под 38.

B>> Плохо всё, короче.

VK>По описанию больше похоже, что у тебя плохо с мотивацией как следует разобраться.

Нет, плохо именно с самой областью. В этом и состоит чахотошность какой-то сферы, если на её успешное применение надо "мотивироваться"! Это вам чё, линупс штоле?? (пройти путь тысячи грабель, чтобы.... чтобы встать на путь ещё миллиона грабель!

)

Есть задача — должны быть лёгкие инструменты, чтобы всё это собрать и прикрутить. Тем более, что озвученные мной задачи — ну вот самые типовые в широком бытовом сегменте "защитная камера для дома". Не говоря о том, что китаёзы могли давно это прикрутить в саму камеру (там, к слову, есть настройки для отлова motion, но как и положено безалаберному китайскому софту, она реагирует НА ВСЁ).

С философской точки зрения, есть "мотивация", а есть её антагонист — "время". Нужно ли тратить время, ресурсы, чтобы достичь то, что и так через лет 5 станет проще тостера??
Мотивация хороша для студентов — они бегут по полю, полным граблей и у них вся жизнь впереди — только сосредоточься и выбери правильное направление, копай, изучай, чтобы хоть немного достичь уровня гуру в этой сфере. Мне эта сфера — тупо хобби сбоку-припёку. Будут хорошие инструменты — сделаю пару кликов, страница кода и всё будет работать. Не получится — я не буду тратить время на непрофильные забавы.

Я к чему про линупс упомянул... там примерно то же самое: просто с наскока ты НИКОГДА не получишь от линукса профита. Он архаичен, бестолков, перегружен, недоразвит, а потому требует практически полного погружения в тему. И только погрузившись на дно этой трясины имени Трольвадса, изучив все сплетения грабель и изоленты, ты можешь аккуратно выстроить систему, которая решит твою задачу. Много ты найдёшь настолько мотивированных людей, чтобы тратить в этом время? Навряд ли.

Здравствуйте, Vermicious Knid, Вы писали:

VK>Котика жалко, он болеет — у него температура ~34.1 градуса. Это очень мало для котиков.
Это ж наружная температура, она и у человеков на поверхности кожи нифига не 36.6С

... << RSDN@Home 1.3.110 alpha 5 rev. 62>>

Здравствуйте, Nuzhny, Вы писали:

N>Я уже много лет.

Подскажешь что почитать чтобы ориентироваться в теме?

Здравствуйте, Nuzhny, Вы писали:

N>1. Раньше специалисты по компьютерному зрению звались либо математики с Матлабом в вузах, либо программисты с С++ на местах. Писали ручками, знали математику, ЦОС и всякие фишки, специфические для компьютерного зрения (преобразование Хафа, например). Классификация символов тех времён: ручками находим символы (контуры), находим их особенности (Ху моменты), пишем кучу if-else, которые отличают символы друг от друга.

Сергей, а как насчет быстродействия у современных нейронок?
Скажем, если рассматривать этот пример классификации символов. Что будет работать быстрее, ручная реализация или натренированная нейронка?
Каков порядок? микросекунды, миллисекунды?

Есть у нас задача распознавания геометрических фигур — есть контур из вершин (от 3 до, скажем, дюжины вершин), надо определить, что за фигура: круг, овал, прямоугольник, квадрат, прямоугольник со скошенными или скругленными углами... (пока такие, но надо распознавать больше).
Сейчас решается прямо, как ты описываешь — куча if-else, проверка крайних случаев... Работает более-менее, достаточно быстро. По крайней мере в составе 3Д рендеринга не сильно заметно.
Можно ли эту задачу ускорить/улучшить точность за счет нейронки?

	От:	Mihal9
	Дата:	19.01.23 13:55
	Оценка:

От:	Эйнсток Файр	Странный реагент
Дата:	19.01.23 14:49
Оценка:	3 (1)

От:	velkin	http://blogs.rsdn.org/effective/
Дата:	19.01.23 19:00
Оценка:

	От:	Baiker
	Дата:	19.01.23 21:46
	Оценка:	-2

От:	Nuzhny	https://github.com/Nuzhny007
Дата:	20.01.23 08:16
Оценка:	23 (11) +2

	От:	Vermicious Knid
	Дата:	20.01.23 08:20
	Оценка:

От:	gandjustas	http://blog.gandjustas.ru/
Дата:	21.01.23 09:39
Оценка:

	От:	Stanislav V. Zudin
	Дата:	21.01.23 10:24
	Оценка:

От:	Артём	жж
Дата:	22.01.23 08:10
Оценка: