Чадаев: Об искусстве [возможного]

3.5K 16:12 - 16/Янв/26 Улучшенный аккаунт

(6 лет 8 месяцев)

Одна из гонок, в которой сейчас по обе стороны фронта участвует много команд — это гонка решений в сфере машинного зрения: как распознать объект, который видит камера устройства, без участия человека.

Типичная задача из этой серии — вот есть дрон-перехватчик с самонаведением. У него есть камера, он в неё видит, например, "бабу-ягу", и дальше простая задача — удерживая её в поле зрения, подлететь к ней на как можно более близкое расстояние и осуществить акт геронтоцида. Она при этом будет пытаться маневрировать, но она большая и медленная, а ты маленький и быстрый.

Казалось бы, всё просто, но есть проблема. Большинство перехватчиков "мажут", а точнее даже теряют цель, на последних десятках метров. По той простой причине, что базовый алгоритм — попиксельное сравнение изображения на экране с имеющейся в памяти бортовой нейросети библиотекой образов. И, соответственно, когда пикселей становится очень много (просто потому, что объект начинает заполнять 70 и более процентов экрана), процессор захлёбывается и фокус на объекте слетает.

Решают эту проблему кто как. Одни предлагают ввести дополнительную систему донаведения для этих последних метров — уже не по оптике, а на какой-нибудь физический сигнал: тепло, металл, звук и т.д. Другие программно "зумят" изображение, искусственно снижая его качество, чтобы количество пикселей осталось возможным "переварить".

А я пошёл и пообщался... с искусствоведами.

Собственно, старый тезис "большое видится на расстоянии" никто не отменял. Предмет моего общения был как раз про то, как они смотрят на живопись — начиная с того расстояния, которое предполагал художник, и что происходит с "профессиональным" взглядом при приближении. И они мне сказали следующее: у профессионала в голове как бы две картинки — первая, фоново, остаётся образ работы в целом, а вторая — фокусировка на деталях (пресловутый "мазок охры на левой ножке младенца в иконе Богородицы").

И оказалось, что самое элегантное решение "проблемы последних метров" — это разбивать объект на подобъекты. И фокусироваться на каком-то одном. Ну, то есть, в нашем примере с "Ягой" уже не гексакоптер в целом, а, например, какой-то один мотор с вращающимся пропеллером. Выбираешь его и летишь на него, весь остальной дрон тебя в некотором смысле не интересует (ты только помнишь на всякий случай, что у него, кроме твоего подобъекта 1, ещё есть подобъекты 2, 3, 4 и примерно фиксируешь точку их геометрического центра относительно гц твоего выбранного подобъекта).

Искусствоведы — прекрасные люди. Особенно которые по современному искусству: поди отличи мимолётным взглядом piece of art от piece of shit. За такое конские деньги платят, между прочим. Вот оказалось, что и тут сила искусства — великая вещь.

Авторство:

Копия чужих материалов

Использованные источники:

ТГ Чадаева

Комментарий автора:

Оптимизация алгоритмов - великая вещь

@Военное#Оружие @Люди и персоналии#Персоны @Социальная инфраструктура#IT-технологии

Блог пользователя Разведка Погоды | Войдите или зарегистрируйтесь, чтобы отправлять комментарии

Уважаю Чадаева - но он не очень шарит в image recognition . В тексте есть заблуждение: «процессор захлебывается, когда пикселей становится много».
На самом деле камере и нейросети всё равно, что на экране — небо или корпус дрона. Входное разрешение картинки (например, 640x480) всегда одинаковое. Процессор обрабатывает одно и то же количество данных...

А по задаче - лучшее решение на сегодня — это гибридный каскад (Pipeline Switch)
1) Дальняя дистанция: Работает нейросеть (Object Detection). Она ищет силуэт «Бабы-яги».

2) Средняя дистанция: Включается трекер (Object Tracking). Мы уже захватили цель, теперь просто следим за набором характерных точек (keypoints) внутри рамки, не пытаясь каждый раз распознать «что это».

3) Терминальная стадия (последние метры): Инерциальное наведение + Центроид.
Если цель заполнила >80% экрана, компьютер «замораживает» курс. Дрон просто продолжает лететь в ту точку, где был центр цели миллисекунду назад, корректируясь только по крупным контрастным пятнам ( Blob Tracking)/ Очень быстро, почти не нагружает процессор, невозможно «разучиться» видеть объект в упор (пятно есть пятно). Из минусов - если объект полый (рама) или сложной формы, центр масс может прийтись на пустоту, и дрон пролетит сквозь конструкцию (хотя для FPV с контактным взрывателем это редкость).

p.s. Почему идея из текста про «мотор» опасна? Метод «Искусствоведа» (Part-based Detection) -предлагает обучать нейросеть не только на образ «Дрон целиком», но и на его части: «Мотор», «Батарея», «Винт». Из плюсов - высокая точность попадания (можно бить в уязвимые узлы). Из минусов - сложность обучения. Нужно размечать тысячи кадров не просто как «дрон», а выделять каждый винтик. Также - проблема ракурса - Снизу мотор выглядит как круг, сбоку — как цилиндр. Если цель резко развернется, «подобъект» может исчезнуть или стать неузнаваемым. И надо учесть - что на войне цель часто движется, крутится и закрыта маскировочными сетями. Выделив «мотор», вы рискуете тем, что на последнем метре он уйдет за край кадра, а дрон-камикадзе дернется за ним и пролетит по касательной мимо корпуса. Надежнее бить в центр массы

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(6 лет 8 месяцев)17:33-16/Янв/26

Хорошее замечание

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(1 месяц 2 недели)17:35-16/Янв/26

Чадаев да, больше про политологию. В технике он плавает.

Комментарий администрации:

*** отключен (невменяемое общение, клон ранее отключенного) ***

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(9 лет 7 месяцев)17:40-16/Янв/26

Приятно читать такой комментарий.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(8 лет 6 месяцев)23:19-16/Янв/26

Там человек вообще говорит о попиксельном сравнении... Я даже боюсь предположить какой алгоритм они используют... ORB, SIFT, SURF, kNN? Тогда неудивительно, что у них "процессор захлёбывается'.. Ещё не очень понятно на каком железе они работают. Позволяет ли оно запустить CNN. Например хорошо обученная YOLOv8n вполне бодро определяет даже классы частично скрытые за кадром.. Но если там ESP32-cam (шутка) - то там сильно не разгуляешься..Надеюсь, там не настолько всё "оптимизировано".

Всё что вы описали - весьма разумно и достаточно очевидно. Странно, что не реализовано. А что касается уничтожения цели.. Если цель типа Баба-Яга занимает 70% кадра - то значит мы очень рядом. И наверное тут следует иметь заряд ВВ со шрапнельным наполнением. Фугасно-осколочный, так сказать... Ну и да, если железо позволяет - развертывать CNN лёгкую, типа той же YOLOv*n или MobileNetSDD... Или писать кастомную... Но тут уже все прелести ML: сбор датасета, разметка, обучение...

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(13 лет 6 дней)18:00-16/Янв/26

Странно, неужели это не очевидно? Система теленаведения наведения и автосопровождения цели при наведении ПТУР на Ка-52 так и работает, и она так работала еще на Ка-50 в 90-е, на той еще электронике. Волонтёрам приходится заново придумывать технологии, которые в ВПК разработаны еще лет 30 назад. Вот что такое отсутствие нормального планирования и управления.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(6 лет 8 месяцев)18:03-16/Янв/26

Есть такая беда, согласен.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(1 месяц 2 недели)18:19-16/Янв/26

Думаю у инженеров никаких проблем нет

Просто Чадаев человек из пиар индустрии , он не может без драмы.

Комментарий администрации:

*** отключен (невменяемое общение, клон ранее отключенного) ***

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(5 лет 10 месяцев)19:25-16/Янв/26

Ещё в 80-е годы уже в серии применялись тв прицелы на самолетах с возможностью автосопровождения контрастных целей, также коррелятор тогда ставили на авиабомбы и ракеты которые уже сами наводились на цель, и всё это было реализовано на своей элементной базе.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(4 года 3 недели)19:31-16/Янв/26

Вот на хрена он все это пишет?

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(6 лет 8 месяцев)19:35-16/Янв/26

Да хрен потому что.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(8 месяцев 6 дней)19:47-16/Янв/26

Ну так-то в фотоаппаратах ента хрень "аФтофокус по глазам" уже лет 20+ работает. В современных беззеркалках и вовсе практически любой объект различает: человек, кот, собака, машина, велосипедист, птичка, мыфка-норужка. Цепляет так, что ещё хрен отцепишься от объекта. Как-то так.

И афигенно работает (без фсяких ПНВ) при - (минус) 6 EV (по фотографически). Для сравнения -4 EV - это поле под светом луны средней яркости (не в полнолуние). - 6 EV даж не знаю .... закрытый подвал наверно.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(12 лет 4 месяца)07:53-17/Янв/26

Хорошая статья, касающаяся адаптивных алгоритмов.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

Скрытый комментарий (без обсуждения)

(10 лет 3 недели)14:59-21/Янв/26

То, что не что-то -
Что это? Что?
Это? Не это?
То? Или то?
Это? Не это?
Что это? Что?
То, что не что-то -
это НИЧТО!

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

Чадаев: Об искусстве [возможного]

Комментарии