DOI: https://doi.org/10.20535/SRIT.2308-8893.2020.3.06

Методи машинного навчання в сентимент-аналізі текстової інформації на прикладі настроїв користувачів стосовно кандидатів у президенти України 2019

Anna-Mariia P. Rudzevych

Анотація


Описано основні методи машинного навчання для аналізу тональності тексту і виконано порівняльний аналіз їх ефективності. Розглянуто етапи попереднього оброблення тексту, такі як стемінг, видалення стоп-слів, алгоритми переведення тексту векторну форму: мішок слів (Bag-of-Words), TF-IDF векторайзер та Word2Vec. Дослідження полягало у визначенні тональності тексту коментарів під публікаціями кандидатів у Президенти України (В. Зеленського та П. Порошенка) у період передвиборчих перегонів 2019 р. Для визначення тональності тексту використано три алгоритми: наївний байєсівський класифікатор, метод опорних векторів та згорткову нейронну мережу. Для кожного кандидата побудовано окремі моделі та виконано порівняння якості класифікації (за метрикою F1). Найкращою моделлю для обох вибірок даних виявилась згорткова нейронна мережа.

Ключові слова


машинне навчання; сентимент-аналіз; аналіз тональності тексту; інтелектуальний аналіз тексту

Повний текст:

PDF

Посилання


T. Nasukawa and J.Yi, “Sentiment analysis: Capturing favorability using natural language processing”, Proc. of the 2nd Int. Conf. on Knowledge capture (KCAP), pp. 7077, 2003.

K. Dave, St. Lawrence, D. Pennock, “Mining the peanut gallery: Opinion extraction and semantic classification of product reviews”, Proc. of the Int. Conf. on World Wide Web (WWW), pp. 519528, 2003.

A.Barsegyan, Technologies of data analysis: Data Mining, Text Mining, Visual Mining, OLAP, 2nd ed. BHV-Petersburg, 2008, 384 p.

Vimala Balakrishnan, Stemming and Lemmatization: A Comparison of Retrieval Performances, 2014, 204 p.

Liu Bing, Sentiment Analysis and Opinion Mining, Morgan & Claypool Publishers, May 2012.

Vincent Ng, Claire Cardie, Weakly Supervised Natural Language Learning Without Redundant Views, 2003.

X. Fulin, D. Yihao, and T. Xiaosheng, “The Architecture of Word2vec and Its Applications”, Journal of Nanjing, 2015.

Bo Pang and Lillian Lee,Opinion Mining and Sentiment Analysis, 2008.

Bo Pang and Lillian Lee, A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts, 2004.

Janyce M. Wiebe, Rebecca F. Bruce, Thomas P. O’Hara, Development and use of a gold-standard data set for subjectivity classifications, 1999.

JindalLiu, Mining comparative sentences and relations, 2006.

Liu Bing, Sentiment analysis and subjectivity. Handbook of natural language processing, 2nd ed., Boca Raton: CRC Press, 2010.

Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean, Efficient estimation of word representations in vector space, arXiv preprint arXiv:1301.3781. ICLR Workshop, pp. 1–12, 2013.

N. Sebe, MS. Lew, I. Cohen, and A. Garg, “Emotion recognition using a cauchy naive bayes classifier”, in IEEE, Quebec, 2002.

Y. Kim, “Convolutional neural networks for sentence classification”, in Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), Doha, Qatar, Association for Computational Linguistics, October 2014, pp. 1746–1751.

G. Katz, N. Ofek, and B. Shapira, “Context-based sentiment analysis”, Knowledge-Based Systems. ConSent, vol. 84, no. 1, pp. 162–178, 2015.


Пристатейна бібліографія ГОСТ


1. T. Nasukawa and J.Yi, “Sentiment analysis: Capturing favorability using natural language processing”, Proc. of the 2nd Int. Conf. on Knowledge capture (KCAP), pp. 7077, 2003.

2. K. Dave, St. Lawrence, D. Pennock, “Mining the peanut gallery: Opinion extraction and semantic classification of product reviews”, Proc. of the Int. Conf. on World Wide Web (WWW), pp. 519528, 2003.

3. А. Барсегян, Технологии анализа данных: Data Mining, Text Mining, Visual Mining, OLAP, 2 изд., БХВ-Петербург, 2008, 384 p.

4. Vimala Balakrishnan, Stemming and Lemmatization: A Comparison of Retrieval Performances, 2014, 204 p.

5. Liu Bing, Sentiment Analysis and Opinion Mining, Morgan & Claypool Publishers, May 2012.

6. Vincent Ng, Claire Cardie, Weakly Supervised Natural Language Learning Without Redundant Views, 2003.

7. X. Fulin, D. Yihao, and T. Xiaosheng, “The Architecture of Word2vec and Its Applications”, Journal of Nanjing, 2015.

8. Bo Pang and Lillian Lee, Opinion Mining and Sentiment Analysis, 2008.

9. Bo Pang and Lillian Lee, A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts, 2004.

10. Janyce M. Wiebe, Rebecca F. Bruce, Thomas P. O’Hara, Development and use of a gold-standard data set for subjectivity classifications, 1999.

11. Jindal Liu, Mining comparative sentences and relations, 2006.

12. Liu Bing, Sentiment analysis and subjectivity. Handbook of natural language processing, 2nd ed, Boca Raton: CRC Press, 2010.

13. Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean, Efficient estimation of word representations in vector space, arXiv preprint arXiv:1301.3781. ICLR Workshop, pp. 1–12, 2013.

14. N. Sebe, MS. Lew, I. Cohen, and A. Garg, “Emotion recognition using a cauchy naive bayes classifier”, in IEEE, Quebec, 2002.

15. Y. Kim, “Convolutional neural networks for sentence classification”, in Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), Doha, Qatar, Association for Computational Linguistics, October 2014, pp. 1746—1751.

16. G. Katz, N. Ofek, and B. Shapira, “Context-based sentiment analysis”, Knowledge-Based Systems. ConSent, vol. 84, no. 1, pp. 162–178, 2015.