ПОРІВНЯННЯ КЛАСИФІКАТОРІВ ДЛЯ ЗАДАЧІ АНАЛІЗУ ТОНАЛЬНОСТІ ТЕКСТУ

Ключові слова: сентимент аналіз, наївний Баєс, логістична регресі, дерева рішень, випадковий ліс, машинне навчання, класифікатор, гіперпараметри

Анотація

Метою дослідження є визначення найбільш ефективного класифікатора для задачі аналізу тональності тексту. Серед вибраних у роботі для порівняння наводиться наївний Баєс, логістична регресія, дерево рішень, випадковий ліс. Для задачі аналізу тональності тексту вибрано сентимент аналіз. Основою для проведення дослідження вибрано набір відгуків на фільми, що надані критиками IMDB. Об’єктами дослідження є безпосередньо вибрані класифікатори, а предметом відповідно є визначення їх ефективності у разі застосування до вищезгаданої задачі. Задачею цього розділу є ознайомлення та оцінка методів класифікації у контексті задачі сентимент аналізу. Для порівняння було вибрано такі класифікатори, як наївний Баєс, логістична регресія, дерево рішень та випадковий ліс. Перейдемо до детальнішого опису кожного з них. Це дослідження дозволить визначити найефективніший алгоритм класифікації для аналізу тональності тексту. Це, своєю чергою, дає можливість програмам, які виконують такий аналіз, покращити якість розподілення тексту на різні групи. У цій роботі було визначено класифікатор, який серед вибраних є найефективнішим, – це метод логістичної регресії. Під час виконання такої роботи були проведені аналізи актуальності задачі та наукових джерел, серед яких було досліджено точність класифікаторів наївного Баєса, логістичної регресії, дерев рішень та випадкового лісу. Перед безпосередньою класифікацією наведений розподіл набору даних на навчальну та тестову вибірки. Проводиться Тренування кожного класифікатора з певними гіперпараметрами. Також був виконаний детальний аналіз та підготовка даних для задачі бінарної класифікації. Паралельно виконувалось безпосереднє тренування класифікаторів та проведення експериментів з кожним. Було обговорено результати дослідження за допомогою повної статистики всіх метрик та всіх вибраних класифікаторів. Для покращення точності класифікаторів необхідно підбирати відповідні гіперпараметри на кожен тип. Проводиться аналіз самих слів. Проведено статистичні обчислення слів, вживаних у позитивних та негативних відгуках, та побудовані, відповідно, «хмари слів» з найбільш вживаними словами. Для детальнішого аналізу побудовано також матриці невідповідностей по кожному методу.

Посилання

1. Мироненко С.С., Онищенко Є.А. Порівняльний аналіз методів для вирішення задачі сентимент аналізу тексту. Науковий журнал «Комп’ютерно-інтегровані технології: освіта, наука, виробництво», 2020. URL: https://cit-journal.com.ua/index.php/cit/article/view/170/243 (дата звернення: 30.05.2022).
2. Мороз Б., Кабак Л., Ширін A., Овчаренко С. Використання Data Mining в інформаційних бібліотечних системах. Сomputer-integrated technologies: education, science, production, 42, 2021, с. 177–184. URL: http://dx.doi.org/10.36910/6775-2524-0560-2021-42-26.
3. Qiang Ye., Ziqiong Z., Law R. Sentiment classification of online reviews to travel destinations by supervised machine learning approaches. Expert Systems with Applications, Vol. 36. Issue 3. Part 2, 2009, рр. 6527–6535. 2009. URL: https://doi.org/10.1016/j.eswa.2008.07.035.
4. Shi H.-X., Li X.-J. A Sentiment Analysis Model for Hotel Reviews Based on Supervised Learning. Machine Learning and Cybernetics (ICMLC), 2011. DOI: 10.1109/ICMLC.2011.6016866.
5. Zhang Z., Ye Q., Zhang Z., Li, Y. Sentiment Classification of Internet Restaurant Reviews Written in Cantonese. Expert Systems with Applications, 2011. URL: https://doi.org/10.1016/j.eswa.2010.12.147.
6. Литвинов М.Г. Дослідження моделей оцінювання тонального забарвлення тексту, 2018. URL: https://openarchive.nure.ua/bitstream/document/20018/1/2018_Vesnyana_shkola_42-49_PI.pdf (дата звернення: 30.05.2022).
7. Naіve Bayes classifier. Wikipedia. URL: https://en.wikipedia.org/wiki/Naive_Bayes_classifier (дата звернення: 01.02.2023).
8. What is logistic regression? IBM. URL: https://www.ibm.com/topics/logistic-regression. Дата звернення: 01.02.2023.
9. Kavita Ganesan. What are Stop Words? 2020. URL: https://kavita-ganesan.com/what-are-stop-words/#. YpxIp6hByUk (дата звернення: 15.12.2022).
10. Scikit-learn documentation. Scikit-learn. URL: https://scikit-learn.org/stable/ (дата звернення: 02.06.2022).
Опубліковано
2023-05-24
Як цитувати
Бойко, Н. І., Кулінченко, А.-М. Р., & Газдюк, К. П. (2023). ПОРІВНЯННЯ КЛАСИФІКАТОРІВ ДЛЯ ЗАДАЧІ АНАЛІЗУ ТОНАЛЬНОСТІ ТЕКСТУ. Computer Science and Applied Mathematics, (1), 36-46. https://doi.org/10.26661/2786-6254-2023-1-05
Розділ
РОЗДІЛ III. КОМП’ЮТЕРНІ НАУКИ