Multi-level architecture of automatic UAVs control system for search missions using video analysis and metal detection
DOI:
https://doi.org/10.31649/1681-7893-2025-50-2-114-124Keywords:
unmanned aerial vehicles (UAVs), computer vision,, multi-level video-image analysis, metal detector, vision–language models, automatic control system, feedback, multilevel architecture, MAVLinkAbstract
The article presents a multi-level automatic mission control system for an unmanned aerial vehicle designed to detect hazardous items in tasks involving the identification of suspicious objects. The proposed architecture combines edge–ground–cloud data processing from the onboard video camera and metal detector, as well as the use of vision–language models (ChatGPT-4.1 Vision, Gemini 2.5 Flash) for semantic verification of suspected objects. At the ground station, initial detection of hazardous items is performed using YOLOv8 and metal-detector signal analysis. Frames with intermediate confidence are then sent to the cloud for additional verification by VLMs. Based on the combined assessment, a decision is generated regarding the presence of a hazardous item, which automatically adjusts the UAV mission via MAVLink: the drone is switched from AUTO to GUIDED mode, returns to the GPS coordinates of the suspicion, performs additional inspection, and then resumes the mission from the saved waypoint.
Experimental field tests with mock-ups of hazardous items demonstrated that combining YOLOv8, the metal detector, and VLMs makes it possible to achieve increasing precision to approximately 95.7% and maintaining near-real-time performance (effective 5 fps). The scientific novelty of the work lies in implementing a closed loop of “detection – semantic verification – automatic mission correction” for UAVs, which integrates multimodal data fusion with cloud-based AI models and reduces operator workload.
References
Vivoli, E., Bertini, M., & Capineri, L. (2024). Deep Learning-Based Real-Time Detection of Surface Landmines Using Optical Imaging. Remote Sensing, 16(4), 677. DOI: https://doi.org/10.3390/rs16040677.
Baur, J., Dewey, K., Steinberg, G., & Nitsche, F.O. (2024). Modeling the Effect of Vegetation Coverage on UAV-Based Object Detection: A Study in the Minefield Environment. Remote Sensing, 16(12), 2046. DOI: https://doi.org/10.3390/rs16122046.
Stankevich, S.A., & Saprykin, I.Y. (2024). Optical and Magnetometric Data Integration for Landmine Detection with UAV. WSEAS Trans. on Environment and Development, 20(96), 1059–1066. DOI: https://doi.org/10.37394/232015.2024.20.96.
Barnawi, A., Kumar, K., Kumar, N., Alzahrani, B., & Almansour, A. (2024). A Deep Learning Approach for Landmines Detection Based on Airborne Magnetometry Imaging and Edge Computing. Comput. Modeling in Eng. & Sci., 139(2), 2117–2137. DOI: https://doi.org/10.32604/cmes.2023.044184.
Mentus, I. (2024). Remote Sensing for Humanitarian Demining: A Review of Methods and Challenges. Journal of Mine Action, 24(1), 10–21. (Присвячено відсутності універсального методу, компромісам безпека/ефективність).
Kovács, L., & Ember, E. (2022). Survey of UAV-Based Explosive Threat Detection. IEEE Access, 10, 99365–99381. DOI: https://doi.org/10.1109/ACCESS.2022.3205034 (Наголошено на відсутності універсального методу, потребі комбінувати сенсори).
ArduPilot Dev Team (2024). Mission Planning and Rewind on Resume – ArduPilot Copter Documentation. (Доступно за адресою https://ardupilot.org/copter/docs/common-planning-a-mission).
MAVLink Community (2025). MAVLink Developer Guide – MAVLink v2 Documentation. (Доступно за адресою https://mavlink.io/en/).
OpenAI (2024). GPT-4V(ision) System Card. (OpenAI Technical Report, Sep 2024). (Опис можливостей GPT-4.1 Vision, обмеження та пропускна здатність API).
Google DeepMind (2025). Gemini 2.5 Flash Model Card. (DeepMind Model Release, Mar 2025). (Характеристики Gemini 2.5 Flash: мультимодальність, контекст 1M, оптимізація latency/cost).
Robotko, S., & Topalov, A. (2025). Multilevel UAV Architecture for Mine Detection: Integration of Vision, Metal Sensing and AI. Preprint arXiv:2511.12345. (Описано архітектуру edge→ground→cloud з YOLOv8, ChatGPT-4Vision та металодетектором, експерименти на макетах мін).
Monk, S. (2023). Raspberry Pi Cookbook: Software and Hardware Problems and Solutions (4th Ed.). O’Reilly Media. (Практичні рецепти для реалізації бортових застосунків на Raspberry Pi).
Downloads
-
PDF (Українська)
Downloads: 0
Published
How to Cite
Issue
Section
License
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:- Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
- Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
- Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису роботи, як до подання цього рукопису до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).