Вплив логарифмічної трансформації вхідних активацій у згорткових мережах на локалізацію ключових точок обличчя
DOI:
https://doi.org/10.31649/1681-7893-2026-51-1-108-116Ключові слова:
локалізація ключових точок, згортковий шар, глибоке навчання, функція втрат, градієнтний спуск, логарифмічне перетворенняАнотація
У роботі розглянуто застосування в моделях згорткових нейронних мереж принципу логарифмічного сприйняття, згідно з яким реакція системи визначається відносними змінами сигналу. У межах цього підходу досліджено вплив логарифмічної трансформації вхідних активацій нейронів першого згорткового шару на точність локалізації ключових точок обличчя та стійкість моделі до варіацій яскравості зображень. Експериментальна перевірка на наборі даних WFLW з використанням архітектури ResNet-34 показала, що така трансформація не має значного впливу на точність локалізації ключових точок на зображеннях з нормальною яскравістю, однак дещо підвищує стійкість моделі до її зниження. Зокрема, встановлено, що застосування логарифмічної трансформації дозволяє знизити значення нормалізованої середньої похибки NME порівняно з базовою моделлю в середньому на 0,0019 при трикратному та на 0,0071 при шестикратному зменшенні яскравості. Отже, логарифмічна трансформація вхідних активацій може розглядатися як один з інструментів підвищення стійкості згорткових нейронних мереж до змін інтенсивності вхідних сигналів без ускладнення їхньої архітектури.
Посилання
Colaco, S. & Han, D. S. (2020) Facial Keypoint Detection with Convolutional Neural Networks. In: International Conference on Artificial Intelligence in Information and Communication (ICAIIC), Fukuoka, Japan, 2020, pp. 671-674. doi: 10.1109/ICAIIC48513.2020.9065279.
Haq, M. U., Sethi, M. A. J., Ahmad, S. et al. (2025) A Comprehensive Review of Face Detection/Recognition Algorithms and Competitive Datasets to Optimize Machine Vision. Computers, Materials & Continua, vol. 84 (1), pp. 1–24. doi: org/10.32604/cmc.2025.063341
Dwivedi, P. & Sharan, B. (2022) Deep Inception Based Convolutional Neural Network Model for Facial Key-Points Detection. In: International Conference on Computing, Communication, and Intelligent Systems (ICCCIS), Greater Noida, India, 2022, pp. 792-799. doi: 10.1109/ICCCIS56430.2022.10037639.
Gao, J. & Yang, T. (2022) Research on Real-Time Face Key Point Detection Algorithm Based on Attention Mechanism. Computational Intelligence and Neuroscience, vol. 2022, article number 6205108. doi: 10.1155/2022/6205108.
Verma, S., Singhal, P., Gupta, R. et al. (2024) Facial Keypoint Detection using a Modified Convolutional Neural Network with RESNET50. In: 2nd International Conference on Advancements and Key Challenges in Green Energy and Computing (AKGEC), Ghaziabad, India, 2024, pp. 1-5. doi: 10.1109/AKGEC62572.2024.10868470.
Huang, Y., Chen, Y., Wang, J. et al. (2024) A Robust and Efficient Method for Effective Facial Keypoint Detection. Applied Sciences, vol. 14 (16), article number 7153. doi: 10.3390/app14167153.
Maes, C. (2025) Statistical Mechanical Foundation of Weber-Fechner Laws. Frontiers in Neuroscience, vol. 19, article number. 1532069. doi: 10.3389/fnins.2025.1532069.
Du, K.-L., Leung, C.-S., Mow, W.H., Swamy, M.N.S. (2022) Perceptron: Learning, Generalization, Model Selection, Fault Tolerance, and Role in the Deep Learning Era. Mathematics, vol. 10(24), article number 4730. doi: 10.3390/math10244730
Sendjasni, A., Traparic, D. & Larabi, M. -C. (2022) Investigating Normalization Methods for CNN-Based Image Quality Assessment. In: IEEE International Conference on Image Processing (ICIP), Bordeaux, France, 2022, pp. 4113-4117. doi: 10.1109/ICIP46576.2022.9897268.
Kim, Y.-S., Kim, M. K., Fu, N. et al. (2025) Investigating the impact of data normalization methods on predicting electricity consumption in a building using different artificial neural network models. Sustainable Cities and Society, vol. 118, article number 105570. doi: 10.1016/j.scs.2024.105570.
Bishop, C. M. (2006) Pattern Recognition and Machine Learning. New York : Springer, 738 p.
Khabarlak, K. & Koriashkina, L. (2022) Fast Facial Landmark Detection and Applications: A Survey. Journal of Computer Science & Technology, vol. 22 (1), рр. 12–41. doi: 10.24215/16666038.22.e02.
Prados-Torreblanca, A., Buenaposada, J. M. & Baumela, L. (2022) Shape preserving facial landmarks with graph attention networks. arXiv. doi: 10.48550/arXiv.2210.07233.
Terven, J., Cordova-Esparza, DM., Romero-González, JA., et al. (2025) A comprehensive survey of loss functions and metrics in deep learning. Artif Intell Rev, vol. 58, article number 195. doi: 10.1007/s10462-025-11198-7.
Feng, ZH., Kittler, J., Awais, M. et al. (2020) Rectified Wing Loss for Efficient and Robust Facial Landmark Localisation with Convolutional Neural Networks. International Journal of Computer Vision, vol. 128, рр. 2126–2145. doi: 10.1007/s11263-019-01275-0.
Benz, P., Zhang, C., Karjauv, A. & Kweon I. S. (2021) Revisiting Batch Normalization for Improving Corruption Robustness. In: 2021 IEEE Winter Conference on Applications of Computer Vision (WACV), Waikoloa, HI, USA, 2021, pp. 494-503, doi: 10.1109/WACV48630.2021.00054.
##submission.downloads##
-
pdf
Завантажень: 0
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:- Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
- Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
- Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису роботи, як до подання цього рукопису до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).