АЛГОРИТМ ПОСЛЕДОВАТЕЛЬНОГО ПОДАВЛЕНИЯ ШУМОВ ИЗ РЕЧЕВОГО СИГНАЛА
Аннотация
Проблема очистки речевого сигнала от шума является актуальной задачей для систем распознавания речи, мобильных коммуникационных устройств и голосовых интерфейсов. В данном исследовании предлагается новый подход, объединяющий методы Self - Organizing Map (SOM) и Spectral Subtraction. Этот подход эффективно очищает речь, используя нейронную сеть SOM для идентификации шумных кластеров и комбинируя энергетические и частотные характеристики. В ходе исследования использовался метод Minimum Statistics Noise Estimation для оценки шума, а также стратегия адаптивного выбора признаков, и были проведены эксперименты при различных уровнях шума (от 1% до 25%). Оцененные с помощью метрики PESQ результаты показали, что предложенный подход превосходит по эффективности традиционные методы, такие как вейвлет-преобразование и Spectral Subtraction. Преимущество данного подхода заключается в усовершенствованном алгоритме идентификации шумных кластеров и оптимизированной постобработке, направленной на сохранение естественности речи. Результаты исследования показывают, что комбинация методов SOM и Spectral Subtraction является эффективным решением для очистки речевых сигналов в зашумленных условиях.
Ключевые слова
Как цитировать
Стиль журналаЛитература
- Mamatov, N., Niyozmatova, N., & Samijonov, A. (2021). Software for preprocessing voice signals. International Journal of Applied Science and Engineering, 18(1), 1 - 8. INNOVA TSI ON TEXNOLOGIYALAR INNOVATIVE TECHNOLOGIES ИННОВАЦИОННЫЕ ТЕХНОЛОГИИ 2025 - yil 1(58) - son 2025 volume 58, number 2 Том 58 No 2, 2025 ISSN 2181 - 4732 ISSN 2181 - 4732 129
- Niyozmatova, N. N., Jalelov, N. K., Samijonov, N. B., & Madrahimova, N. M. (2024). Eliminating noise from a speech signal based on a pair of filters. International Journal of Science and Research Archive, 13(2), 401 – 410. https://doi.org/10.30574/ijsra.2024.13.2.2058
- Boll, S.F. (1979). Suppression of acoustic noise in speech using spectral subtraction. IEEE Transactions on Acoustics, Speech, and Signal Processing, 27(2), 113 - 120.
- Lim, J.S., & Oppenheim, A.V. (1979). Enhancement and bandwidth compression of noisy speech. Proceedings of the IEEE, 67(12), 1586 - 1604.
- Ephraim, Y., & Malah, D. (1984). Speech enhancement using a minimum - mean square error short - time spectral amplitude estimator. IEEE Transactions on Acoustics, Speech, and Signal Processing, 32(6), 1109 - 1121.
- Ramirez, J., Górriz, J.M., & Segura, J.C. (2007). Voice activity detection: fundamentals and speech recognition system robustness. In M. Grimm & K. Kroschel (Eds.), Robust Speech Recognition and Understanding (pp. 1 - 22). I - Tech Education and Publishing.
- Martin, R. (2001). Noise power spectral density estimation based on optimal smoothing and minimum statistics. IEEE Transactions on Speech and Audio Processing, 9(5), 504 - 512.
- Kohonen, T. (1982). Self - organized formation of topologically correct feature maps. Biological Cybernetics, 43(1), 59 - 69.
- Zhang, X.L., & Wu, J. (2013). Deep belief networks based voice activity detection. IEEE Transactions on Audio, Speech, and Language Processing, 21(4), 697 - 710.
- Ramírez, J., Segura, J.C., Benítez, C., De La Torre, A., & Rubio, A. (2004). Efficient voice activity detection algorithms using long - term speech information. Speech Communication, 42(3 - 4), 271 - 287.