Метод автоматизованої стандартизації назв метизів на основі LLM-моделі
DOI:
https://doi.org/10.31649/1681-7893-2026-51-1-33-40Ключові слова:
великі мовні моделі (LLM), стандартизація даних, метизи, інженерія промптів (Prompt Engineering), Few-Shot Learning, автоматизація баз данихАнотація
У статті представлено метод автоматизованої стандартизації неструктурованих технічних назв метизної продукції на основі великих мовних моделей (LLM). Розглянуто архітектуру системи, що базується на локальному інференсі моделі Mistral-7B через сервер LM Studio, що забезпечує конфіденційність промислових даних. Проведено порівняльний аналіз методу «Instructor» із використанням Pydantic-валідації та авторського методу прямої JSON-серіалізації на основі Few-Shot Prompting. Результати експерименту демонструють, що прецизійне налаштування промптів та контекстне навчання дозволяють досягти 100% точності у формуванні назв згідно з міжнародними стандартами DIN/ISO та ДСТУ. Запропоноване рішення автоматизує процеси оновлення баз даних SQLite3, мінімізує «людський фактор» та забезпечує коректну багатомовну локалізацію технічної номенклатури.
Посилання
Hazen, B. T., Boone, C. A., Ezell, J. D., & Jones-Farmer, L. A. (2014). Data quality for data science, predictive analytics, and business intelligence in supply chain management: An introduction to the problem and suggestions for research. International Journal of Production Economics, 154, 72-80.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.
Friedl, J. E. (2006). Mastering Regular Expressions. O'Reilly Media. https://www.oreilly.com/library/view/mastering-regular-expressions/0596528124/
Liu, J. (2023). Instructor: Structured Extraction using LLMs. GitHub Repository. https://github.com/567-labs/instructor
Weng, L. (2023). LLM Powered Autonomous Agents. OpenAI Blog / Lil'Log. https://lilianweng.github.io/posts/2023-06-23-agent/
Pydantic Team. (2024). Validation Decorators and Models. URL: https://docs.pydantic.dev/latest/concepts/models/#basic-model-usage
Brown, T. B., et al. (2020). Language Models are Few-Shot Learners. arXiv:2005.14165. URL: https://arxiv.org/abs/2005.14165
JSON.org. (2024). The JSON Data Interchange Standard (ECMA-404). URL: https://www.json.org/json-en.html
Starzhynskyi, V., Bisikalo, O. (2025). Using local LLM models for standardization and multilingual translation of technical product names. Measuring and computing devices in technological processes, 84(4), pp. 407–415. doi: 10.31891/2219-9365-2025-84-49.
Starzhynskyi, V. Bisikalo, O. Using local LLM models for standardization of hardware names. VNTKP VNTU. Faculty of Intellectual Information Technologies and Automation, Ukraine, Mar. 2026. Available at: <https://conferences.vntu.edu.ua/index.php/all-fksa/all-fksa-2026/paper/view/27436/22723>. Date accessed: 06 Mar. 2026.
Bisikalo, O.; Kharchenko, V.; Kovtun, V.; Krak, I.; Pavlov, S. Parameterization of the Stochastic Model for Evaluating Variable Small Data in the Shannon Entropy Basis. Entropy 2023, 25, 184.
Intellectual technologies in medical diagnostics, treatment and rehabilitation: monograph / [S.V. Pavlov, O.G. Avrunin, S.M. Zlepko, E.V. Bodianskyi and others]; edited by S. Pavlov, O. Avrunin. – Vinnytsia: PP “TD “Edelweiss and K”, 2019. – 260 p.
##submission.downloads##
-
pdf
Завантажень: 2
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:- Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
- Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
- Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису роботи, як до подання цього рукопису до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).