Preview

Вестник Университета Шакарима. Серия технические науки

Расширенный поиск

ОБНАРУЖЕНИЕ ЯЗЫКА НЕНАВИСТИ НА КАЗАХСКОМ ЯЗЫКЕ НА ОСНОВЕ ГЛУБОКОГО ОБУЧЕНИЯ: ГИБРИДНАЯ СИСТЕМА ДЛЯ НАДЕЖНОГО АНАЛИЗА ТЕКСТОВ

https://doi.org/10.53360/2788-7995-2025-4(20)-25

Аннотация

В данном исследовании представлена новая интеллектуальная система, основанная на методах глубокого обучения, предназначенная для автоматического обнаружения языка ненависти на казахском языке. Особое внимание уделено специфике казахского языка как малоресурсного, где ограниченность лингвистических данных создает значительные трудности при построении надежных моделей. На основе различных онлайн-источников – социальных сетей, форумов и новостных порталов – был сформирован и предобработан многоязычный корпус данных, охватывающий широкий спектр речевых контекстов. Для повышения эффективности предложена гибридная архитектура, включающая свёрточные нейронные сети (CNN), двунаправленные долгосрочные краткосрочные памяти (BiLSTM) и механизмы внимания Transformer. Проведённая оценка по метрикам точности, полноты, F1-критерия и достоверности показала превосходство предложенной модели над традиционными алгоритмами машинного обучения. Результаты исследования вносят значимый вклад в развитие систем автоматической модерации контента, технологий анализа текстов на казахском языке и способствуют формированию более безопасного, инклюзивного и устойчивого цифрового пространства для казахскоязычных пользователей.

Об авторах

Д. Султан
Университет Нархоз
Казахстан

Данияр Султан – PhD, доцент факультета цифровых технологий

050035, Республика Казахстан, г. Алматы, ул. Жандосова, 55 



Р. Абдрахманов
Международный университет туризма и гостеприимства
Казахстан

Рустам Абдрахманов – кандидат технических наук, доцент

161205, Республика Казахстан, г.Туркестан, ул. Рабиги Султан Бегим, 14 А



Эшреф Адалы
Стамбульский технический университет
Турция

Эшреф Адалы – PhD, профессор факультета вычислительной техники и информатики

34010, Стамбул



Т. Tурымбетов
Международный университет туризма и гостеприимства
Казахстан

Турсынбай Турымбетов – кандидат технических наук, доцент

161205, Республика Казахстан, г. Туркестан, ул. Рабиги Султан Бегим, 14 А



Г. Бекешова
Евразийский национальный университет им. Л.Н. Гумилева
Казахстан

Гульвира Бауыржановна Бекешова – магистр технических наук, старший преподаватель кафедры Информационной безопасности факультета  информационных технологий 

010000, Республика Казахстан, г. Астана, ул. К. Сатпаева, 2



Список литературы

1. Data-Driven Morphological Analysis and Disambiguation for Kazakh / O. Makhambetov et al // Computational Linguistics and Intelligent Text Processing. – 2015. – Р. 151-163. https://doi.org/10.1007/978-3-319-18111-0_12.

2. Assembling the Kazakh Language Corpus / O. Makhambetov et al // in Proc. 2013 Conf. Empirical Methods in Natural Language Processing (EMNLP), Seattle, WA, USA. – 2013. – Р. 1022-1031. [Online]. Available: https://aclanthology.org/D13-1104.

3. Yessenbayev Z. KazNLP: A Pipeline for Automated Processing of Texts Written in Kazakh Language / Z. Yessenbayev, Z. Kozhirbayev, A. Makazhanov // in Speech and Computer. Switzerland: Springer. – 2020. – Р. 657-666. https://doi.org/10.1007/978-3-030-60276-5_63.

4. Document and Word-level Language Identification for Noisy User Generated Text / Z. Kozhirbayev, Z. Yessenbayev, A. Makazhanov // in Proc. 12th Int. Conf. Application of Information and Communication Technologies (AICT), Almaty, Kazakhstan. – 2018. – Р. 1-4. https://doi.org/10.1109/ICAICT.2018.8747138.

5. Yessenbayev Z. KazNLP: A Pipeline for Automated Processing of Texts Written in Kazakh Language / Z. Yessenbayev, Z. Kozhirbayev, A. Makazhanov // in Speech and Computer. LNCS. – 2020. – vol. 12335. – Р. 657-666. https://doi.org/10.1007/978-3-030-60276-5_63.

6. Data-Driven Morphological Analysis and Disambiguation for Kazakh / O. Makhambetov et al // in CICLing. – 2015. – vol. 9041. – Р. 151-163. https://doi.org/10.1007/978-3-319-18111-0_12.

7. Yessenbayev Z. KazNLP: A Pipeline for Automated Processing of Texts Written in Kazakh Language / Z. Yessenbayev, Z. Kozhirbayev, A. Makazhanov // in SPECOM. – 2020. – vol. 12335. – Р. 657-666. https://doi.org/10.1007/978-3-030-60276-5_63.

8. Development of CRF and CTC Based End-To-End Kazakh Speech Recognition System / D. Oralbekova et al // in Intelligent Information and Database Systems. – 2022. – vol. 13757. – Р. 519-531. https://doi.org/10.1007/978-3-031-21743-2_41.

9. A Comparative Analysis of LSTM and BERT Models for Named Entity Recognition in Kazakh Language: A Multi-classification Approach / D. Oralbekova et al // in Modeling and Simulation of Social-Behavioral Phenomena in Creative Societies (MSBC 2024), CCIS. – 2024. – vol. 2211. – Р. 116-128. https://doi.org/10.1007/978-3-031-72260-8_10.

10. Neurocomputer System of Semantic Analysis of the Text in the Kazakh Language / A. Akanova et al // ACM Trans. Asian and Low-Resource Language Information Processing. – 2024. – vol. 23, № 4. https://doi.org/10.1145/3652159.

11. Automatic Recognition of Kazakh Speech Using Deep Neural Networks / O. Mamyrbayev et al // in Asian Conf. Intelligent Information and Database Systems. – 2019. – vol. 11432. – Р. 465-474. https://doi.org/10.1007/978-3-030-14802-7_40.

12. End-to-End Speech Recognition in Agglutinative Languages / O. Mamyrbayev et al // in Intelligent Information and Database Systems. – 2020. – vol. 12034. – Р. 391-401. https://doi.org/10.1007/978-3-030-42058-1_33.

13. A Comparative Analysis of LSTM and BERT Models for Named Entity Recognition in Kazakh Language: A Multi-classification Approach / D. Oralbekova et al // in MSBC. – 2024. – vol. 2211. – Р. 116-128. https://doi.org/10.1007/978-3-031-72260-8_10.

14. Advanced Implementation of a Multilevel Model for Text Summarization in Kazakh Using Pretrained Models / D. Oralbekova et al // Engineering, Technology & Applied Science Research. – 2025. – vol. 15, № 5. – Р. 26711-26721. https://doi.org/10.48084/etasr.12799.

15. A Comparative Analysis of LSTM and BERT Models for Named Entity Recognition in Kazakh Language: A Multi-classification Approach / D. Oralbekova et al // in MSBC 2024, CCIS. – 2024. – vol. 2211. – Р. 116-128. https://doi.org/10.1007/978-3-031-72260-8_10.

16. Development of CRF and CTC Based End-To-End Kazakh Speech Recognition System / D. Oralbekova et al // in ACIIDS. – 2022. – vol. 13757. – Р. 519-531. https://doi.org/10.1007/978-3-031-21743-2_41.


Рецензия

Для цитирования:


Султан Д., Абдрахманов Р., Адалы Э., Tурымбетов Т., Бекешова Г. ОБНАРУЖЕНИЕ ЯЗЫКА НЕНАВИСТИ НА КАЗАХСКОМ ЯЗЫКЕ НА ОСНОВЕ ГЛУБОКОГО ОБУЧЕНИЯ: ГИБРИДНАЯ СИСТЕМА ДЛЯ НАДЕЖНОГО АНАЛИЗА ТЕКСТОВ. Вестник Университета Шакарима. Серия технические науки. 2025;1(4(20)):210-219. https://doi.org/10.53360/2788-7995-2025-4(20)-25

For citation:


Sultan D., Abdrakhmanov R., Adali E., Turymbetov T., Bekeshova G. DEEP LEARNING-BASED HATE SPEECH DETECTION IN KAZAKH: A HYBRID FRAMEWORK FOR ROBUST TEXT ANALYSIS. Bulletin of Shakarim University. Technical Sciences. 2025;1(4(20)):210-219. https://doi.org/10.53360/2788-7995-2025-4(20)-25

Просмотров: 6

JATS XML


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2788-7995 (Print)
ISSN 3006-0524 (Online)
X