МЕТОД АНАЛІЗУ ТА ФОРМУВАННЯ РЕПРЕЗЕНТАТИВНИХ ВИБІРОК ТЕКСТОВИХ ДАНИХ ІЗ ВИКОРИСТАННЯМ МОДЕЛЕЙ МАШИННОГО НАВЧАННЯ
Анотація
Розроблено метод аналізу та формування репрезентативних вибірок текстових даних, призначений для аналізу та формування репрезентативних текстових вибірок даних за принципом справедливості FATE для предметних областей. Метод виконує аналіз репрезентативності вибірки даних за етичними аспектами, за результатом чого виконується репрезентативне коригування датасету за етичними аспектами. При коригуванні датасету відбувається вирішення оптимізаційної задачі як для вибору надлишкових елементів для видалення, так і для формування вимог щодо приналежності за етичними аспектами до кожного елементу для аугментації даних. Для дослідження ефективності методу аналізу та формування репрезентативного подання текстового датасету було створено програмне забезпечення, яке використовує моделі машинного навчання для класифікації текстів за різними етичними аспектами – віку, гендеру, релігії, етнічності тощо. Для класифікації текстових зразків за етичними аспектами у вибірці було використано моделі машинного навчання: за віковим етичним аспектом SVM, гендерним – LSTM, релігійним – BERT, які кращі показники статистичних метрик. В результаті практичного застосування розробленого методу тестовий нерепрезентативний порівняно з об’єктивними даними демографічної статистики датасет було трансформовано у репрезентативний за віковим та гендерним етичними аспектами. Одержані відхилення розподілів зразків за класами етичних аспектів дата-сету, трансформованого за створеним методом, від ідеального репрезентативного розподілу склали: мінімальне – 0.00%, максимальне – 0.04%, середнє – 0.02%, за умов початкового обсягу датасету 47 692 елементів, мінімальної початкової кількості зразків у класі 1007 елементів, максимальної початкової кількості зразків у класі 28 112 елементів. Досліджена ефективність доводить, що розроблений метод дозволяє виконувати аналіз репрезентативності текстових датасетів та приведення їх до репрезентативного вигляду за різними аспектами принципу справедливості FATE.
Посилання
2. Kaggle.com. Cyberbullying Classification, 2021. URL: https://www.kaggle.com/datasets/andrewmvd/cyberbullying-classification?resource=download (дата звернення: 26.10.2024).
3. Kaggle.com. CyberBullying Detection Dataset, 2024. URL: https://www.kaggle.com/datasets/sayankr007/cyber-bullying-data-for-multi-label-classification (дата звернення: 26.10.2024).
4. Memarian B., Doleck T. Fairness, Accountability, Transparency, and Ethics (FATE) in Artificial Intelligence (AI) and Higher Education: A Systematic Review. Computers and Education: Artificial Intelligence. 2023, Vol. 5. DOI: https://doi.org/10.1016/j.caeai.2023.100152.
5. Manziuk E., Krak I., Barmak O., Mazurets O., Kuznetsov V., Pylypiak O. Structural Alignment Method of Conceptual Categories of Ontology and Formalized Domain. CEUR Workshop Proceedings. 2021, Vol. 3003, pp. 11–22.
6. Clemmensen L. K. H., Rune D. K. Data Representativity for Machine Learning and AI Systems. 2022. URL: https://ar5iv.labs.arxiv.org/html/2203.04706 (дата звернення: 26.10.2024).
7. Dablain D., Krawczyk B., Chawla N. Towards a Holistic View of Bias in Machine Learning: Bridging Algorithmic Fairness and Imbalanced Learning. Discov Data. 2024, Vol. 2(4). DOI: https://doi.org/10.1007/s44248-024-00007-1.
8. Chen H., Ji Y., Evans D. Addressing Both Statistical and Causal Gender Fairness in NLP Models. In Findings of the Association for Computational Linguistics: NAACL 2024. 2024, pp. 561–582. DOI: https://doi.org/10.48550/arXiv.2404.00463.
9. Молчанова М.О., Мазурець О.В., Собко О.В., Кліменко В.І., Андрощук В.І. Метод нейромережевого виявлення кібербулінгу з використанням хмарних сервісів та об'єктно-орієнтованої моделі. Науковий журнал «Вісник Хмельницького національного університету», серія: Технічні науки. 2024. № 2(333). С. 200–206. DOI: https://doi.org/10.31891/2307-5732-2024-333-2-32.
10. Rainio O., Teuho J., Klén R. Evaluation Metrics and Statistical Tests for Machine Learning. Scientific Reports. 2024, Vol. 14(1). DOI: https://doi.org/10.1038/s41598-024-56706-x.
11. Kaggle.com. Tweet Files for Gender Guessing, 2019. URL: https://www.kaggle.com/datasets/aharless/tweet-files-for-gender-guessing (дата звернення: 26.10.2024).
12. Kaggle.com. CyberBullying Detection Dataset, 2024. URL: https://www.kaggle.com/datasets/sayankr007/cyber-bullying-data-for-multi-label-classification (дата звернення: 26.10.2024).
13. Live.european-language-grid.eu. TAG-it Dataset Distribution, 2024. URL: https://live.european-languagegrid.eu/catalogue/corpus/8112/download (дата звернення: 26.10.2024).
14. Krak I., Zalutska O., Molchanova M., Mazurets O., Bahrii R., Sobko O., Barmak O. Abusive Speech Detection Method for Ukrainian Language Used Recurrent Neural Network. CEUR Workshop Proceedings. 2024. Vol. 3688, pp. 16–28.
15. Slobodzian V., Kovalchuk O., Molchanova M., Sobko O., Mazurets O., Barmak O., Krak I. Text Data Vectorization Model of Ukrainian-Language Internet Communication Content. CEUR Workshop Proceedings. 2022. Vol. 3171, pp. 561–571.