Preview

Шәкәрім Университетінің Хабаршысы. Техникалық ғылымдар сериясы

Кеңейтілген іздеу

ТАБИҒИ ТІЛДЕРДЕГІ МӘТІНДЕРДІҢ ТОНАЦИЯСЫН АНЫҚТАУ ӘДІСТЕРІН ҚАРАУ

https://doi.org/10.53360/2788-7995-2023-1(9)-8

Толық мәтін:

Аңдатпа

Пайдаланушы пікірлеріндегі сезімді талдау тауарлар мен қызметтердің сапасын бағалау, хабарламалардағы эмоцияларды талдау және фишингтік жарнамаларды анықтау сияқты көптеген салаларда қолданылады. Орыс тіліндегі мәтіндік мәліметтерді сезімдік талдаудың көптеген әдістері бар, бірақ орыс тіліндегі мәтіндердің көңіл-күйін автоматты түрде талдау әлемнің басқа негізгі тілдеріне қарағанда әлдеқайда аз дамыған. Бұл мақала Қазақстанның киберкеңістігіндегі қауіпті контентті анықтаудың ақпараттық жүйесін құру бойынша кеңірек зерттеудің бөлігі болып табылады. Бұл мақаланың мақсаты – орыс мәтіндеріндегі сезімді талдаудың әртүрлі тәсілдеріне аналитикалық шолу жасау және мәтінді жіктеу мәселесін шешудің заманауи әдістерін салыстыру. Сонымен қатар, мақала осы саладағы даму тенденцияларын анықтауға және одан әрі зерттеулерде пайдалану үшін ең жақсы алгоритмдерді таңдауға бағытталған. Шолу мәтіндік деректерді алдын ала өңдеудің, векторлаудың және мәтіндердің көңіл-күйін талдауға арналған машиналық классификацияның әртүрлі әдістерін қамтиды және осы тақырып бойынша бар дерекқорларды талдаумен аяқталады. Мақалада орыс тіліндегі мәтіндердегі көңіл-күйді талдаудың кейбір негізгі шешілмеген мәселелері айқындалып, алдағы уақытта жоспарланған зерттеулер талқыланады. 

Авторлар туралы

К. Е. Нурсакитов
Д.Серікбаев атындағы Шығыс Қазақстан техникалық университеті
Қазақстан

«Ақпараттық технологиялар және зияткерлік жүйелер мектебінің» докторанты,

070004, Өскемен, көш. Протозанова А.Қ., 69



А. Т. Бекишев
Д.Серікбаев атындағы Шығыс Қазақстан техникалық университеті
Қазақстан

«Ақпараттық технологиялар және зияткерлік жүйелер мектебінің» докторанты,

070004, Өскемен, көш. Протозанова А.Қ., 69



С. К. Кумаргажанова
Д.Серікбаев атындағы Шығыс Қазақстан техникалық университеті
Қазақстан

техника ғылымдарының кандидаты, «Ақпараттық технологиялар және интеллектуалды жүйелер мектебі» деканы,

070004, Өскемен, көш. Протозанова А.Қ., 69



А. М. Уркумбаева
Д.Серікбаев атындағы Шығыс Қазақстан техникалық университеті
Қазақстан

техника ғылымдарының кандидаты, «Ақпараттық технологиялар және интеллектуалды жүйелер мектебі» кафедрасының аға оқытушысы,

070004, Өскемен, көш. Протозанова А.Қ., 69



Әдебиет тізімі

1. Enikolopov S.N., Kuznetsova Y.M., Smirnov I.V., Stankevich M.A., Chudova N.V. Creating a text analysis tool for socio-humanitarian research. Part 1. Methodical and methodological aspects. Artificial Intelligence and Decision Making. – 2019. – no. 2, pp. 28-38. doi:10.14357/20718594190203. (In Russian).

2. Polyakov E. V., Voskov L. S., Abramov P. S., Polyakov S. V. Generalized approach to sentiment analysis of short text messages in natural language processing. Informatsionno-upravliaiushchie sistemy [Information and Control Systems], 2020, no. 1, pp. 2–14. doi:10.31799/1684-8853-2020-1-2-14. (In Russian).

3. Soumya G. K., Joseph S. Text classification by augmenting bag of words (BOW) representation with co-occurrence feature. IOSR Journal of Computer Engineering, 2014, vol. 16(1), pp. 34-38.

4. Potdar K., Pardawala T. S., Pai C. D. A comparative study of categorical variable encoding techniques for neural network classifiers. International Journal of Computer Applications, 2017, vol. 175, no. 4, pp. 7–9.

5. Steinberger J., Jezek K. Text summarization and singular value decomposition Proceedings of International Conference on Advances in Information Systems, Springer, Berlin, Heidelberg, 2004, pp. 245-254.

6. Mikolov T., Chen K., Corrado G., Dean J. Efficient estimation of word representations in vector space. Proceedings of the International Conference on Learning Representations (ICLR 2013), 2013. Available at: https://openreview.net/forum?id=idpCdOWtqXd60#7b076554-87ba-4e1e-b7cc2ac107ce8e4d (accessed 2 May 2020).

7. Pennington J., Socher R., Manning C. D. Glove: Global vectors for word representation. Proceedings of International Conference on Empirical Methods in Natural Language Processing (EMNLP-2014), 2014, pp. 1532-1543.

8. Pylieva H., Chernodub A., Grabar N., Hamon T. Improving automatic categorization of technical vs. Laymen medical words using fasttext word embeddings. Proceedings of the 1st International Workshop on Informatics and Data-Driven Medicine, IDDM 2018, 2018, pp. 93–102.

9. Devlin J., Chang M., Lee K., Toutanova K. Bert: Pre-training of deep bidirectional transformers for language understanding. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT), 2019, vol. 1 (Long and Short Papers), pp. 4171-4186. doi:10.18653/v1/N19-1423

10. Sanh V., Debut L., Chaumond J., Wolf T. DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. arXiv preprint arXiv:1910.01108 (accessed 05 April 2020).

11. Kuratov Yu., Arkhipov M. Adaptation of deep bidirectional multilingual transformers for russian language. Computational Linguistics and Intellectual Technologies, 2019, iss. 18, pp. 333-339 (In Russian).

12. Peters M., Neumann M., Iyyer M., Gardner M., Clark C., Lee K., Zettlemoyer L. Deep contextualized word representations. NAACL-HLT. – 2018, vol. 1 (Long Papers). – pp. 2227-2237. doi:10.18653/v1/N18-1202

13. Dvoynikova A., Verkholyak O., Karpov A. Analytical review of methods for identifying emotions in text data. CEUR-WS, 2020. – vol. 2552. – pp. 8-21.

14. Tutubalina Е. V., Ivanov V. V., Zagulova М. А., Mingazov N. R., Alimova I. S., Malykh V. А. Sentiment classification of reviews and twitter posts based on dictionaries. Russian Digital Libraries Journal, 2015, vol. 18, no. 3-4, pp. 138–162. (In Russian).

15. Panicheva P. V. ATEX: a rule-based sentiment analysis system processing texts in various topics. Computational Linguistics and Intellectual Technologies, 2013, iss. 12, vol. 2, pp. 101-113 (In Russian).

16. Kotelnikov E. V., Klekovkina M. V. Automatic text tonality analysis based on machine learning methods. Computational Linguistics and Intellectual Technologies, 2012. – iss. 11, vol. 2. – pp. 27- 36. (In Russian).

17. Maltseva A.V., Makhnytkina O.V., Shilkina N.E., Lizunova I.A. Social media sentiment analysis with context space model. Communications in Computer and Information Science, 2020. – vol. 1135, pp. 399-412. doi:10.1007/978-3-030-39296-3_29.

18. Aken B., Risch J., Krestel R., Loser A. Challenges for toxic comment classification: An in-depth error analysis. EMNLP, 2018. – pp. 33-42.

19. Voronina I.E., Goncharov V.A. Analysis of the emotional color of messages in social networks (for example, the “Vkontakte network”). Bulletin of the Voronezh State University. Series: System Analysis and Information Technologies. – 2015. – no. 4. – pp. 151-158. (In Russian).

20. Konig A.C., Brill E. Reducing the human overhead in text categorization. Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. – 2006. – pp. 598-603.

21. Lakshmi B.S., Raj P.S., Vikram R.R. Sentiment analysis using deep learning technique CNN with KMeans. International Journal of Pure and Applied Mathematics. – 2017. – vol. 114, no. 11. – pp. 47-57.

22. Kulagin D.I. Otkrytyj tonal'nyj slovar' russkogo yazyka KartaSlovSent // Komp'yuternaya lingvistika i intellektual'nye tekhnologii: materialy ezhegodnoj Mezhdunarodnoj konferencii «Dialog. – 2021. – №. 20. – S. 1106-1119.

23. Loukachevitch N., Levchik A. Creating a general Russian sentiment lexicon. Proceedings of the 10th International Conference on Language Resources and Evaluation (LREC’16). – 2016. – pp. 1171-1176.

24. Loukachevitch N., Dobrov B. RuThes linguistic ontology vs. Russian wordnets. Proceedings of the 7th Global Wordnet Conference. – 2014. – pp. 154-162.

25. Alexeeva S., Kolcov S., Koltsova O. Linis-crowd.org: A lexical resource for Russian sentiment analysis of social media. Trudy XVIII ob”edinennoj konferencii «Internet i sovremennoe obshchestvo» (IMS-2015) [Proceedings of the XVIII Joint Conference “Internet and Modern Society” (IMS2015)]. – 2015. – pp. 25-34. (In Russian).

26. Sokolova M., Bobicev V. Classification of emotion words in Russian and Romanian languages. Proceedings of the International Conference RANLP-2009. – 2009. – pp. 416-420.

27. Belyakov M.V. The analysis of news messages on the RF ministry of foreign affairs affairs website by the sentimental analysis (article 2). Bulletin of the Peoples’ Friendship University of Russia. Series: Theory of Language. Semiotics. Semantics. – 2016. – no. 4. – pp. 115-124. (In Russian).

28. Loukachevitch N., Blinov P., Kotelnikov E., Rubtsova Y., Ivanov V., Tutubalina E. SentiRuEval: testing object-oriented sentiment analysis systems in Russian. Computational Linguistics and Intellectual Technologies. – 2015. – iss. 14, vol. 2. – pp. 3-13.

29. Lukashevich N.V., Rubtsova Y. V. SentiRuEval-2016: overcoming time gap and data sparsity in tweet sentiment analysis. Computational Linguistics and Intellectual Technologies. – 2016. – iss. 15. – pp. 416-426.

30. Rubcova U.V. Building a text corpus for setting up a tone classifier. Software & Systems. – 2015. – no. 1(109), pp. 72–78. (In Russian).

31. Chetviorkin I., Braslavskiy P., Loukachevich N. Sentiment analysis track at ROMIP 2011. Computational Linguistics and Intellectual Technologies. – 2012. – iss. 11, vol. 2. – pp. 1-14.

32. Glazkova A.V. The evaluation of the proximity of text categories for solving electronic documents classification tasks. Bulletin of Tomsk State University. Management, Computer Engineering and Informatics. – 2015, no. 2(31). – pp. 18-25. doi:10.17223/19988605/31/2. (In Russian).

33. Perepelkina O., Kazimirova E., Konstantinova M. RAMAS: Russian multimodal corpus of dyadic interaction for affective computing. Proceedings of 20th International Conference on Speech and Computer SPECOM-2018, Springer, Cham. – 2018. – pp. 501-510.

34. Zafar L., Afzal M.T., Ahmed U. Exploiting polarity features for developing sentiment analysis tool. CEUR-WS, 2017, vol. 1874, no. 4. Available at: http://ceur-ws.org/Vol1874/paper_4.pdf (accessed 2 May 2020).

35. Zvereva P. Sentiment-analysis of text (texts about Russia and the Russians from The New York Times). Bulletin of the Moscow State Regional University. Series: Linguistics. – 2014. – no. 5. – pp. 32-37. (In Russian).

36. Krivonogova S.A. Psychoemotional color of the text: theory and research methods. Materialy 68-j nauchnoj konferencii «Nauka YUURGU» [Materials of the 68th Scientific Conference “Science of the South Ural State University”]. – 2016. – vol. 100. – pp. 368–375. (In Russian).

37. Thelwall M. The heart and soul of the web? Sentiment strength detection in the social web with SentiStrength. Cyberemotions, Springer, Cham. – 2017. – pp. 119-134.

38. Mayorov V., Andrianov I. MayAnd at SemEval-2016 Task 5: Syntactic and word2vec-based approach to aspect-based polarity detection in Russian. Proceedings of the 10th International Workshop on Semantic Evaluation (SemEval-2016). – 2016. – pp. 325-329.

39. Hercig T., Brychcin T., Svoboda L., Konkol M., Steinberger J. Unsupervised methods to improve aspect-based sentiment analysis in Czech. Computacion y Sistemas. – 2016. – vol. 20 (3), pp. 365-375. doi:10.13053/cys-20-3-2469

40. Hercig T., Brychcin T., Svoboda L., Konkol M. Uwb at semeval-2016 task 5: Aspect based sentiment analysis. SemEval-2016. – 2016. – pp. 342-349.


Рецензия

Дәйектеу үшін:


Нурсакитов К.Е., Бекишев А.Т., Кумаргажанова С.К., Уркумбаева А.М. ТАБИҒИ ТІЛДЕРДЕГІ МӘТІНДЕРДІҢ ТОНАЦИЯСЫН АНЫҚТАУ ӘДІСТЕРІН ҚАРАУ. Шәкәрім Университетінің Хабаршысы. Техникалық ғылымдар сериясы. 2023;(1(9)):57-66. https://doi.org/10.53360/2788-7995-2023-1(9)-8

For citation:


Nursakitov K., Bekishev A., Kumargazhanova S., Urkumbaeva A. REVIEW OF METHODS FOR DETERMINING THE TONATION OF TEXTS IN NATURAL LANGUAGES. Bulletin of Shakarim University. Technical Sciences. 2023;(1(9)):57-66. https://doi.org/10.53360/2788-7995-2023-1(9)-8

Қараулар: 332


ISSN 2788-7995 (Print)
ISSN 3006-0524 (Online)
X