Чадаев: Об искусстве [возможного]

Аватар пользователя Разведка Погоды

Одна из гонок, в которой сейчас по обе стороны фронта участвует много команд — это гонка решений в сфере машинного зрения: как распознать объект, который видит камера устройства, без участия человека. 

Типичная задача из этой серии — вот есть дрон-перехватчик с самонаведением. У него есть камера, он в неё видит, например, "бабу-ягу", и дальше простая задача — удерживая её в поле зрения, подлететь к ней на как можно более близкое расстояние и осуществить акт геронтоцида. Она при этом будет пытаться маневрировать, но она большая и медленная, а ты маленький и быстрый. 

Казалось бы, всё просто, но есть проблема. Большинство перехватчиков "мажут", а точнее даже теряют цель, на последних десятках метров. По той простой причине, что базовый алгоритм — попиксельное сравнение изображения на экране с имеющейся в памяти бортовой нейросети библиотекой образов. И, соответственно, когда пикселей становится очень много (просто потому, что объект начинает заполнять 70 и более процентов экрана), процессор захлёбывается и фокус на объекте слетает. 

Решают эту проблему кто как. Одни предлагают ввести дополнительную систему донаведения для этих последних метров — уже не по оптике, а на какой-нибудь физический сигнал: тепло, металл, звук и т.д. Другие программно "зумят" изображение, искусственно снижая его качество, чтобы количество пикселей осталось возможным "переварить". 

А я пошёл и пообщался... с искусствоведами. 

Собственно, старый тезис "большое видится на расстоянии" никто не отменял. Предмет моего общения был как раз про то, как они смотрят на живопись — начиная с того расстояния, которое предполагал художник, и что происходит с "профессиональным" взглядом при приближении. И они мне сказали следующее: у профессионала в голове как бы две картинки — первая, фоново, остаётся образ работы в целом, а вторая — фокусировка на деталях (пресловутый "мазок охры на левой ножке младенца в иконе Богородицы"). 

И оказалось, что самое элегантное решение "проблемы последних метров" — это разбивать объект на подобъекты. И фокусироваться на каком-то одном. Ну, то есть, в нашем примере с "Ягой" уже не гексакоптер в целом, а, например, какой-то один мотор с вращающимся пропеллером. Выбираешь его и летишь на него, весь остальной дрон тебя в некотором смысле не интересует (ты только помнишь на всякий случай, что у него, кроме твоего подобъекта 1, ещё есть подобъекты 2, 3, 4 и примерно фиксируешь точку их геометрического центра относительно гц твоего выбранного подобъекта). 

Искусствоведы — прекрасные люди. Особенно которые по современному искусству: поди отличи мимолётным взглядом piece of art от piece of shit. За такое конские деньги платят, между прочим. Вот оказалось, что и тут сила искусства — великая вещь.

Авторство: 
Копия чужих материалов
Комментарий автора: 

Оптимизация алгоритмов - великая вещь

Комментарии

Аватар пользователя Kukuha
Kukuha(3 года 6 месяцев)

Ничего не понятно. Хотя может так и задумано.

Если нейросеть - то она сама решает что выбрать, принципиально. Ты ей уже не укажешь - "теперь смотри на мотор". 

Аватар пользователя Medved075
Medved075(8 лет 1 месяц)

целить надо чуть выше яги, а за собой тащить тросик с крючками. сама намотает.

Аватар пользователя NNS
NNS(2 года 6 месяцев)

интересно, по моему когда то маскировочную раскраску взяли у бабочек

Аватар пользователя baza16
baza16(9 лет 8 месяцев)

отлично. Ожидаем внедрения

Аватар пользователя Шутилов_АВ
Шутилов_АВ(2 месяца 2 недели)

надо вторую камеру с широкоугольным объективом.  Обрабатывать результат распознавания последовательно с этих двух камер, объединять через ИЛИ.

Аватар пользователя tribotinka
tribotinka(3 года 10 месяцев)

Уважаю Чадаева - но он не очень шарит в image recognition . В тексте есть заблуждение: «процессор захлебывается, когда пикселей становится много».
На самом деле камере и нейросети всё равно, что на экране — небо или корпус дрона. Входное разрешение картинки (например, 640x480) всегда одинаковое. Процессор обрабатывает одно и то же количество данных...

А по задаче - лучшее решение на сегодня — это гибридный каскад (Pipeline Switch)
1) Дальняя дистанция: Работает нейросеть (Object Detection). Она ищет силуэт «Бабы-яги».

2) Средняя дистанция: Включается трекер (Object Tracking). Мы уже захватили цель, теперь просто следим за набором характерных точек (keypoints) внутри рамки, не пытаясь каждый раз распознать «что это».

3) Терминальная стадия (последние метры): Инерциальное наведение + Центроид.
Если цель заполнила >80% экрана, компьютер «замораживает» курс. Дрон просто продолжает лететь в ту точку, где был центр цели миллисекунду назад, корректируясь только по крупным контрастным пятнам ( Blob Tracking)/ Очень быстро, почти не нагружает процессор, невозможно «разучиться» видеть объект в упор (пятно есть пятно). Из минусов - если объект полый (рама) или сложной формы, центр масс может прийтись на пустоту, и дрон пролетит сквозь конструкцию (хотя для FPV с контактным взрывателем это редкость).

p.s. Почему идея из текста про «мотор» опасна? Метод «Искусствоведа» (Part-based Detection) -предлагает обучать нейросеть не только на образ «Дрон целиком», но и на его части: «Мотор», «Батарея», «Винт». Из плюсов - высокая точность попадания (можно бить в уязвимые узлы). Из минусов - сложность обучения. Нужно размечать тысячи кадров не просто как «дрон», а выделять каждый винтик. Также - проблема ракурса - Снизу мотор выглядит как круг, сбоку — как цилиндр. Если цель резко развернется, «подобъект» может исчезнуть или стать неузнаваемым.  И надо учесть - что на войне цель часто движется, крутится и закрыта маскировочными сетями. Выделив «мотор», вы рискуете тем, что на последнем метре он уйдет за край кадра, а дрон-камикадзе дернется за ним и пролетит по касательной мимо корпуса. Надежнее бить в центр массы

Аватар пользователя Разведка Погоды

Хорошее замечаниеsmile9.gif

Аватар пользователя Варкрафтер
Варкрафтер(1 месяц 2 недели)

Чадаев да, больше про политологию. В технике он плавает.

Комментарий администрации:  
*** отключен (невменяемое общение, клон ранее отключенного) ***
Аватар пользователя RusEngineer
RusEngineer(9 лет 7 месяцев)

Приятно читать такой комментарий.

smile173.gif

Аватар пользователя Д.К.
Д.К.(8 лет 6 месяцев)

Там человек вообще говорит о попиксельном сравнении... Я даже боюсь предположить какой алгоритм они используют... ORB, SIFT, SURF, kNN? Тогда неудивительно, что у них "процессор захлёбывается'.. Ещё не очень понятно на каком железе они работают. Позволяет ли оно запустить CNN. Например хорошо обученная YOLOv8n вполне бодро определяет даже классы частично скрытые за кадром.. Но если там ESP32-cam (шутка) - то там сильно не разгуляешься..Надеюсь, там не настолько всё "оптимизировано". 

Всё что вы описали - весьма разумно и достаточно очевидно. Странно, что не реализовано. А что касается уничтожения цели.. Если цель типа Баба-Яга занимает 70% кадра - то значит мы очень рядом. И наверное тут следует иметь заряд ВВ со шрапнельным наполнением. Фугасно-осколочный, так сказать... Ну и да, если железо позволяет - развертывать CNN лёгкую, типа той же YOLOv*n или MobileNetSDD... Или писать кастомную... Но тут уже все прелести ML: сбор датасета, разметка, обучение...

Аватар пользователя kos
kos(13 лет 6 дней)

Странно, неужели это не очевидно? Система теленаведения наведения и автосопровождения цели при наведении ПТУР на Ка-52 так и работает, и она так работала еще на Ка-50 в 90-е, на той еще электронике. Волонтёрам приходится заново придумывать технологии, которые в ВПК разработаны еще лет 30 назад. Вот что такое отсутствие нормального планирования и управления. 

Аватар пользователя Разведка Погоды

Есть такая беда, согласен. 

Аватар пользователя Варкрафтер
Варкрафтер(1 месяц 2 недели)

Думаю у инженеров никаких проблем нет

 Просто Чадаев человек из пиар индустрии , он не может без драмы.

Комментарий администрации:  
*** отключен (невменяемое общение, клон ранее отключенного) ***
Аватар пользователя Алекsандр
Алекsандр(5 лет 10 месяцев)

Ещё в 80-е годы уже в серии применялись тв прицелы на самолетах с возможностью автосопровождения контрастных целей, также коррелятор тогда ставили на авиабомбы  и ракеты которые уже сами наводились на цель, и всё это было реализовано на своей элементной базе.

Аватар пользователя Карп Лещев
Карп Лещев(4 года 3 недели)

Вот на хрена он все это пишет?

Аватар пользователя laa
laa(6 лет 8 месяцев)

Да хрен потому что.

Аватар пользователя пpп
пpп(8 месяцев 6 дней)

Ну так-то в фотоаппаратах ента хрень "аФтофокус по глазам" уже лет 20+ работает. В современных беззеркалках и вовсе практически любой объект различает: человек, кот, собака, машина, велосипедист, птичка, мыфка-норужка. Цепляет так, что ещё хрен отцепишься от объекта. Как-то так.

И афигенно работает (без фсяких ПНВ) при - (минус) 6 EV (по фотографически). Для сравнения -4 EV - это поле под светом луны средней яркости (не в полнолуние). - 6 EV  даж не знаю .... закрытый подвал наверно. 

Аватар пользователя 55aa
55aa(12 лет 4 месяца)

Хорошая статья, касающаяся адаптивных алгоритмов.

Скрытый комментарий Полуян (без обсуждения)
Аватар пользователя Полуян
Полуян(10 лет 3 недели)

То, что не что-то -
Что это? Что?
Это? Не это?
То? Или то?
Это? Не это?
Что это? Что?
То, что не что-то -
это НИЧТО!