АҒЫНДАҒЫ СӨЙЛЕУ ӘРЕКЕТІН АНЫҚТАУДАҒЫ КОНВОЛЮЦИЯЛЫҚ НЕЙРОНДЫҚ ЖЕЛІЛЕР
https://doi.org/10.53360/2788-7995-2024-4(16)-5
Аннотация
Осы мақалада ұсынылған зерттеулер конволюциялық нейрондық желілерді (Cnn) пайдалана отырып, аудио ағындардағы сөйлеу белсенділігін анықтау жүйесін әзірлеуге бағытталған. Сөйлеу әрекетін анықтау дауыспен белсендірілген көмекшілер, нақты уақыттағы байланыс платформалары және автоматтандырылған транскрипция қызметтері сияқты көптеген заманауи қолданбаларда шешуші рөл атқарады. Зерттеу CNNs-тің күрделі аудио деректерді өңдеудегі, сөйлеу сигналдарын шудан оқшаулаудағы және анықтаудың жалпы дәлдігін жақсартудағы тиімділігін көрсететін тоғыз негізгі зерттеудің нәтижелерін синтездейді.
Зерттеу VGG, ResNet және AlexNet сияқты терең CNN үлгілерінің архитектуралық артықшылықтарын атап көрсетеді, олардың күрделі аудио мүмкіндіктерін түсіру және әртүрлі орталарда өнімділікті жақсарту қабілетін көрсетеді. Зерттеу сонымен қатар осы модельдердің сенімділігі мен тиімділігін одан әрі арттыратын деректерді арттыру және оңтайландыру алгоритмдері сияқты әдістерді зерттейді.
ӘРТҮРЛІ CNN архитектураларының тиімділігін бағалау және әртүрлі бағалау көрсеткіштерін салыстыру арқылы зерттеу НАҚТЫ уақыттағы ҚОЛДАНБАЛАР үшін CNN үлгілерін оңтайландыру және гибридті архитектураларды зерттеу сияқты болашақ зерттеулердің әлеуетті бағыттарын анықтайды. Тұтастай алғанда, бұл зерттеу CNN негізіндегі сөйлеу әрекетін анықтаудың жай-күйі және оның нақты әлемдегі қолданбаларға әсері туралы құнды түсінік береді.
Автор туралы
Н. М. ТаубакабылҚазақстан
Нурлыбек Мурабекулы Таубакабыл – магистрант
010000, Қазақстан Республикасы, Астана, Мәңгілік Ел даңғылы, С1
Әдебиет тізімі
1. Deep speech 2: End-to-end speech recognition in English and Mandarin / D. Amodei et al // Computation and Language (cs.CL). – 2015. https://doi.org/10.48550/arXiv.1512.02595.
2. CNN architectures for large-scale audio classification / S. Hershey et al // In 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). – 2017. – Р. 131-135. https://arxiv.org/pdf/1609.09430.
3. Very deep multilingual convolutional neural networks for LVCSR / T. Sercu et al // arXiv preprint arXiv:1509.08967. – 2016. https://arxiv.org/pdf/1509.08967.
4. Luo Y. Conv-tasnet: Surpassing ideal time-frequency magnitude masking for speech separation / Y. Luo, N. Mesgarani // IEEE/ACM Transactions on Audio, Speech, and Language Processing. – 2018. – № 27(8). – Р. 1256-1266. https://arxiv.org/pdf/1809.07454.
5. Grill T. Two convolutional neural networks for bird detection in audio signals / T. Grill, J. Schlüter, // In 2017 25th European Signal Processing Conference (EUSIPCO). – 2017. – Р. 1764-1768. https://www.ofai.at/~jan.schlueter/pubs/2017_eusipco.pdf.
6. Joint training of deep neural networks for audio-visual automatic speech recognition / Y. Qian et al // IEEE/ACM Transactions on Audio, Speech, and Language Processing. – 2017. – № 25(12). – Р. 2381-2393. https://arxiv.org/pdf/2205.13293.
7. Vincent E. Performance measurement in blind audio source separation / E. Vincent, R. Gribonval, C. Févotte // IEEE Transactions on Audio, Speech, and Language Processing. – 2006. – № 14(4). – Р. 1462-1469. https://inria.hal.science/inria-00544230/document.
8. Convolutional neural networks for speech recognition / O. Abdel-Hamidet al // IEEE/ACM Transactions on Audio, Speech, and Language Processing. – 2014. – № 22(10). – Р. 1533-1545. https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/CNN_ASLPTrans2-14.pdf
9. Accelerating very deep convolutional networks for classification and detection / X. Zhang et al // IEEE Transactions on Pattern Analysis and Machine Intelligence. – 2016. – № 38(10). – Р. 1943-1955. https://arxiv.org/pdf/1505.06798.
10. VanderPlas J. Python Data Science Handbook / J. VanderPlas // Essential Tools for Working with Data. O'Reilly Media. https://jakevdp.github.io/PythonDataScienceHandbook.
Рецензия
Дәйектеу үшін:
Таубакабыл Н.М. АҒЫНДАҒЫ СӨЙЛЕУ ӘРЕКЕТІН АНЫҚТАУДАҒЫ КОНВОЛЮЦИЯЛЫҚ НЕЙРОНДЫҚ ЖЕЛІЛЕР. Шәкәрім Университетінің Хабаршысы. Техникалық ғылымдар сериясы. 2024;1(4(16)):33-40. https://doi.org/10.53360/2788-7995-2024-4(16)-5
For citation:
Taubakabyl N.M. CONVOLUTIONAL NEURAL NETWORKS IN DETECTING SPEECH ACTIVITY IN A STREAM. Bulletin of Shakarim University. Technical Sciences. 2024;1(4(16)):33-40. https://doi.org/10.53360/2788-7995-2024-4(16)-5