Preview

Вестник Университета Шакарима. Серия технические науки

Расширенный поиск

СВЕРТОЧНЫЕ НЕЙРОННЫЕ СЕТИ ДЛЯ ОБНАРУЖЕНИЯ РЕЧЕВОЙ АКТИВНОСТИ В ПОТОКЕ

https://doi.org/10.53360/2788-7995-2024-4(16)-5

Аннотация

Исследование, представленное в этой статье, посвящено разработке системы обнаружения речевой активности в аудио потоках с использованием сверточных нейронных сетей (CNNS). Распознавание речевой активности играет решающую роль во многих современных приложениях, таких как голосовые помощники, коммуникационные платформы в режиме реального времени и службы автоматической транскрипции. В исследовании обобщены результаты девяти ключевых исследований, демонстрирующих эффективность CNNS в обработке сложных аудиоданных, отделении речевых сигналов от шума и повышении общей точности обнаружения.
Исследование подчеркивает архитектурные преимущества моделей deep CNN, таких как VGG, ResNet и AlexNet, подчеркивая их способность улавливать сложные звуковые характеристики и повышать производительность в различных средах. В исследовании также рассматриваются такие методы, как увеличение объема данных и алгоритмы оптимизации, которые еще больше повышают надежность и эффективность этих моделей.
Оценивая эффективность различных архитектур CNN и сравнивая различные оценочные показатели, исследователи выявляют потенциальные области для будущих исследований, такие как оптимизация моделей CNN для приложений реального времени и изучение гибридных архитектур. В целом, это исследование дает ценную информацию о состоянии распознавания речевой активности на основе CNN и его значении для реальных приложений.

Об авторе

Н. М. Таубакабыл
Астана IT Университет
Казахстан

Нурлыбек Мурабекулы Таубакабыл – магистрант 

010000, Республика Казахстан, г. Астана, пр. Мәңгілік Ел, С1 



Список литературы

1. Deep speech 2: End-to-end speech recognition in English and Mandarin / D. Amodei et al // Computation and Language (cs.CL). – 2015. https://doi.org/10.48550/arXiv.1512.02595.

2. CNN architectures for large-scale audio classification / S. Hershey et al // In 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). – 2017. – Р. 131-135. https://arxiv.org/pdf/1609.09430.

3. Very deep multilingual convolutional neural networks for LVCSR / T. Sercu et al // arXiv preprint arXiv:1509.08967. – 2016. https://arxiv.org/pdf/1509.08967.

4. Luo Y. Conv-tasnet: Surpassing ideal time-frequency magnitude masking for speech separation / Y. Luo, N. Mesgarani // IEEE/ACM Transactions on Audio, Speech, and Language Processing. – 2018. – № 27(8). – Р. 1256-1266. https://arxiv.org/pdf/1809.07454.

5. Grill T. Two convolutional neural networks for bird detection in audio signals / T. Grill, J. Schlüter, // In 2017 25th European Signal Processing Conference (EUSIPCO). – 2017. – Р. 1764-1768. https://www.ofai.at/~jan.schlueter/pubs/2017_eusipco.pdf.

6. Joint training of deep neural networks for audio-visual automatic speech recognition / Y. Qian et al // IEEE/ACM Transactions on Audio, Speech, and Language Processing. – 2017. – № 25(12). – Р. 2381-2393. https://arxiv.org/pdf/2205.13293.

7. Vincent E. Performance measurement in blind audio source separation / E. Vincent, R. Gribonval, C. Févotte // IEEE Transactions on Audio, Speech, and Language Processing. – 2006. – № 14(4). – Р. 1462-1469. https://inria.hal.science/inria-00544230/document.

8. Convolutional neural networks for speech recognition / O. Abdel-Hamidet al // IEEE/ACM Transactions on Audio, Speech, and Language Processing. – 2014. – № 22(10). – Р. 1533-1545. https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/CNN_ASLPTrans2-14.pdf

9. Accelerating very deep convolutional networks for classification and detection / X. Zhang et al // IEEE Transactions on Pattern Analysis and Machine Intelligence. – 2016. – № 38(10). – Р. 1943-1955. https://arxiv.org/pdf/1505.06798.

10. VanderPlas J. Python Data Science Handbook / J. VanderPlas // Essential Tools for Working with Data. O'Reilly Media. https://jakevdp.github.io/PythonDataScienceHandbook.


Рецензия

Для цитирования:


Таубакабыл Н.М. СВЕРТОЧНЫЕ НЕЙРОННЫЕ СЕТИ ДЛЯ ОБНАРУЖЕНИЯ РЕЧЕВОЙ АКТИВНОСТИ В ПОТОКЕ. Вестник Университета Шакарима. Серия технические науки. 2024;1(4(16)):33-40. https://doi.org/10.53360/2788-7995-2024-4(16)-5

For citation:


Taubakabyl N.M. CONVOLUTIONAL NEURAL NETWORKS IN DETECTING SPEECH ACTIVITY IN A STREAM. Bulletin of Shakarim University. Technical Sciences. 2024;1(4(16)):33-40. https://doi.org/10.53360/2788-7995-2024-4(16)-5

Просмотров: 84


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2788-7995 (Print)
ISSN 3006-0524 (Online)
X