ГІБРИДНА СИСТЕМА ВИЯВЛЕННЯ ТЕРМІНІВ В УКРАЇНСЬКОМОВНИХ ТЕКСТАХ ДЛЯ ЗАБЕЗПЕЧЕННЯ КОГНІТИВНОЇ ДОСТУПНОСТІ

Ключові слова: машинне навчання, виявлення термінів, українська мова, когнітивна доступність, BERT, термінологія

Анотація

Когнітивна доступність є критично важливою для забезпечення рівного доступу до інформації, особливо для користувачів із дислексією, розладами аутистичного спектра та віковими когнітивними змінами. Значна насиченість наукових і технічних текстів спеціалізованою термінологією, що може становити до половини всієї лексики, часто стає суттєвою перешкодою для розуміння змісту. Морфологічна складність української мови, що поєднує багатство відмінкових форм і активне використання запозичень, ускладнює автоматизоване виявлення термінів і потребує розроблення спеціалізованих методів. У статті представлено комплексне дослідження ефективності сучасних алгоритмів машинного навчання для автоматичного виявлення термінологічної лексики в українських текстах. Порівняння охоплює глибинні моделі на базі трансформерів, класичні алгоритми з лінгвістичним інжинірингом ознак і словникові рішення, засновані на правилах, інтегровані в гібридній ансамблевій системі з адаптивним розподілом ваг. Експерименти проведено на спеціально створеному корпусі з 537 фрагментів тексту з BIO-розміткою, який містить понад три тисячі токенів і характеризується високою часткою термінології. Валідація за допомогою стратифікованої п’ятикратної крос-перевірки засвідчила перевагу ансамблевого підходу, який досяг F1-метрики 0,847 і точності 0,903, перевищивши результати окремих моделей, зокрема finetuned BERT (F1 = 0,835), випадковий ліс (F1 = 0,774) та словникового пошуку (F1 = 0.744) Аналіз важливості ознак виявив, що ключовими індикаторами термінів є довжина слова та співвідношення голосних, а інтеграція цих характеристик із контекстуальним моделюванням забезпечує оптимальний баланс між точністю та швидкістю. Запропонована система здатна обробляти понад дві тисячі токенів на секунду, що дозволяє використовувати її в режимі реального часу для веб- та мобільних застосунків, спрямованих на підвищення когнітивної доступності контенту. Розроблена модель і відкритий корпус розміщені на платформі Hugging Face Hub та можуть стати базою для подальших досліджень і впровадження інструментів автоматичного спрощення текстів, орієнтованих на користувачів з особливими потребами.

Посилання

1. Hartley S. World Report on Disability (WHO). 2011. DOI: 10.13140/RG.2.1.4993.8644
2. Zha X., Wang X., Yan Y., Gao Y., Yan G. Exploring influencing mechanism of herd behavior in academic information use: The perspective of cognitive load. The Journal of Academic Librarianship. 2023. Vol. 49. № 3. DOI: 10.1016/j.acalib.2023.102705
3. Maharani A. A. An analysis of the readability level in Life Today textbook for twelfth grade of senior high school using Flesch Reading Ease formula by Rudolf Flesch. Diploma thesis. Bandar Lampung : UIN Raden Intan Lampung, 2025. 70 p. URL: https://repository.radenintan.ac.id/39235/
4. Chamovitz E., Abend O. Cognitive simplification operations improve text simplification. Proceedings of the 26th Conference on Computational Natural Language Learning (CoNLL). Abu Dhabi, United Arab Emirates (Hybrid), 2022. P. 241–265. DOI: 10.18653/v1/2022.conll-1.17
5. Lipianina-Honcharenko K., Soia M., Yurkiv K. Evaluation of the effectiveness of machine learning methods for detecting disinformation in Ukrainian text data. CEUR Workshop Proceedings. 2024. Vol. 3702. P. 1–8. URL: https://ceur-ws.org/Vol-3702/paper9.pdf
6. Krak I., Zalutska O., Molchanov M., Mazurets O., Bahrii R. Abusive speech detection method for Ukrainian language using recurrent neural network. CEUR Workshop Proceedings. 2024. Vol. 3688. P. 1–9. URL: https://ceur-ws.org/Vol-3688/paper2.pdf
7. Lomovatskyi A., Basyuk T. Methods of machine learning and design of a system for determining the emotional coloring of Ukrainian-language content. Scientific Bulletin of Lviv Polytechnic National University. 2024. № 2. P. 78–90. DOI: 10.23939/sisn2024.15.074
8. Uhryn D., Vysotska V., Chyrun L., Chyrun S., Hu C. Intelligent application for textual content authorship identification based on machine learning and sentiment analysis. International Journal of Intelligent Systems and Applications. 2024. Vol. 17. № 2. P. 44–53, DOI: 10.5815/ijisa.2025.02.05
9. Lytvyn V., Pukach P., Vysotska V., Vovk M., Kholodna N. Identification and correction of grammatical errors in Ukrainian texts based on machine learning technology. Mathematics. 2023. Vol. 11. № 4. Art. 904. DOI: 10.3390/math11040904
10. ParlaMint II: advancing comparable parliamentary corpora across Europe / T. Erjavec, M. Kopp, N. Ljubešić et al. Language Resources and Evaluation. 2025. Vol. 59. P. 2071–2102. DOI: 10.1007/s10579-024-09798-w
11. Mondal H., Mondal S., Majumber R., De R. Conduct Common Statistical Tests Online. Indian Dermatology Online Journal. 2022. Vol. 13. № 4. P. 539–542. DOI: 10.4103/idoj.idoj_605_21
Опубліковано
2025-12-31
Як цитувати
Савіцький, Р. С. (2025). ГІБРИДНА СИСТЕМА ВИЯВЛЕННЯ ТЕРМІНІВ В УКРАЇНСЬКОМОВНИХ ТЕКСТАХ ДЛЯ ЗАБЕЗПЕЧЕННЯ КОГНІТИВНОЇ ДОСТУПНОСТІ. Computer Science and Applied Mathematics, (2), 47-54. https://doi.org/10.26661/2786-6254-2025-2-06
Розділ
РОЗДІЛ II. ІНЖЕНЕРІЯ ПРОГРАМНОГО ЗАБЕЗПЕЧЕННЯ

Статті цього автора (авторів), які найбільше читають