Оптико-геометричні особливості упаковок лікарських засобів у задачах автоматизованого розпізнавання зображень
DOI:
https://doi.org/10.31649/1681-7893-2026-51-1-130-138Ключові слова:
автоматизоване розпізнавання зображень, мультимодальні моделі, OCR, упаковки лікарських засобів, комп’ютерний зір, оптичні характеристики, обробка зображень, мультимодальний аналізАнотація
У роботі проведено аналіз оптичних та геометричних особливостей упаковок лікарських засобів у задачах AI-розпізнавання. Розглянуто специфіку такої упаковки як складного об’єкта для автоматизованого аналізу зображень, зокрема вплив геометричних характеристик, відбивних поверхонь, дрібного тексту, багатомовного маркування та особливостей освітлення на якість розпізнавання. Проаналізовано обмеження класичних OCR-підходів у задачах розпізнавання медичної продукції, пов’язані з деформацією тексту на криволінійних поверхнях, відблисками, низьким контрастом та складною структурою зображень. Розглянуто практичні рекомендації щодо фотографування упаковок лікарських засобів для підвищення стабільності автоматизованого розпізнавання. Отримані результати показують, що оптичні характеристики зображень суттєво впливають на ефективність AI-аналізу та повинні враховуватися під час проєктування систем мультимодального розпізнавання.
Посилання
Billka AI : Website. URL: https://billka.sytoss.com/en/ (дата звернення: 11.05.2026).
Liu Z., Lin Y., Cao Y. et al. Visual Instruction Tuning. Advances in Neural Information Processing Systems (NeurIPS). 2023. Vol. 36. Available: https://arxiv.org/abs/2304.08485 (дата звернення: 11.05.2026).
Liu Y., Stathopoulos S., Petukhova V. et al. DLI-IT: A Deep Learning Approach to Drug Label Identification through Image and Text Embedding. BMC Medical Informatics and Decision Making. 2020. Vol. 20, no. 1. P. 84. doi: https://doi.org/10.1186/s12911-020-1078-3.
Smith R. An Overview of the Tesseract OCR Engine. Proceedings of the Ninth International Conference on Document Analysis and Recognition (ICDAR 2007). 2007. Vol. 2. Pp. 629–633. doi: https://doi.org/10.1109/ICDAR.2007.4376991.
JaidedAI. EasyOCR : GitHub repository. 2024. URL: https://github.com/JaidedAI/EasyOCR (дата звернення: 14.05.2026).
PaddlePaddle Authors. PaddleOCR: Awesome multilingual OCR toolkits based on PaddlePaddle : GitHub repository. 2024. URL: https://github.com/PaddlePaddle/PaddleOCR (дата звернення: 16.05.2026).
Long S., Ruan J., Zhang W. et al. TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes. Proceedings of the European Conference on Computer Vision (ECCV). 2018. Pp. 20–36. doi: https://doi.org/10.48550/arXiv.1807.01544.
ABCNet: Real-time Scene Text Spotting with Adaptive Bezier-Curve Network / Y. Liu et al. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2020. Pp. 9809–9818. doi: https://doi.org/10.1109/CVPR42600.2020.00983.
Zhan F., Lu S. ESIR: End-to-End Scene Text Recognition via Iterative Image Rectification. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2019. Pp. 2059–2068. doi: https://doi.org/10.1109/CVPR.2019.00216.
Liu Y., Stathopoulos S., Petukhova V. et al. DLI-IT: A Deep Learning Approach to Drug Label Identification through Image and Text Embedding. BMC Medical Informatics and Decision Making. 2020. Vol. 20, no. 1. P. 84. doi: https://doi.org/10.1186/s12911-020-1078-3.
Pettersson N., Falkman G., Karlsson M. Multimodal Fine-Grained Grocery Product Recognition Using Image and OCR Text. Machine Vision and Applications. 2024. Vol. 35, no. 5. doi: https://doi.org/10.1007/s00138-024-01549-9.
Huang X., Li Z., Wang Y. et al. OCR-Reasoning Benchmark for Multimodal Large Language Models. OpenReview. 2025. URL: https://openreview.net/forum?id=aH7eyx64pC (дата звернення: 12.05.2026).
Koponen J., Haataja K., Toivanen P. Recent Advancements in Machine Vision Methods for Product Code Recognition: A Systematic Review. F1000Research. 2022. Vol. 11. doi: https://doi.org/10.12688/f1000research.124796.1.
Koponen J., Haataja K., Toivanen P. Text Recognition of Cardboard Pharmaceutical Packages by Utilizing Machine Vision. IS&T International Symposium on Electronic Imaging. 2021. doi: https://doi.org/10.2352/ISSN.2470-1173.2021.10.IPAS-235.
Gromova A., Elangovan N. Automatic Extraction of Medication Information from Cylindrically Distorted Pill Bottle Labels. Machine Learning and Knowledge Extraction. 2022. Vol. 4, no. 4. Pp. 1045–1065. doi: https://doi.org/10.3390/make4040043.
Hou Q., Xie R., Yang M. et al. Text-Aware Single Image Specular Highlight Removal. arXiv preprint. 2021. arXiv:2108.06881. URL: https://arxiv.org/abs/2108.06881 (дата звернення: 16.05.2026).
Evaluating OCR Performance on Food Packaging Labels in South Africa. arXiv preprint. 2025. arXiv:2510.03570. URL: https://arxiv.org/abs/2510.03570 (дата звернення: 16.05.2026).
Sokol, Y., Avrunin, O., Kolisnyk, K., & Zamiatin, P. (2020). Using medical imaging in disaster medicine. Paper presented at the 2020 IEEE 4th International Conference on Intelligent Energy and Power Systems, IEPS 2020 - Proceedings, 287-290. doi:10.1109/IEPS51250.2020.9263175
Selivanova, K. G., Avrunin, O. G., Tymkovych, M. Y., & Manhora, T. V. (2021). 3D Visualization of Human Body Internal Structures Surface During StereoEndoscopic Operations Using Computer Vision Techniques. Przegląd Elektrotechniczny, (9), 30–33. DOI: 10.15199/48.2021.09.06.
Місоченко С. Ю. Дослідження використання вірогіднісних методів у сфері обробки біомедичних зображень / С. Ю.Місоченко, К. Г. Селіванова, О. Г. Аврунін // Інформаційні технології: наука, техніка, технологія, освіта, здоров’я: тези доповідей ХXХ міжнародної науково-практичної конференції MicroCAD2022, 19-21 жовтня 2022 р. – Харків : НТУ «ХПІ», 2022. – C. 902.
##submission.downloads##
-
pdf
Завантажень: 0
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:- Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
- Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
- Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису роботи, як до подання цього рукопису до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).