Assessing the effectiveness of transfer learning strategies in BLSTM networks for speech denoising

Coto-Jiménez, Marvin; González-Salazar, Astryd; Gutiérrez-Muñoz, Michelle

Evaluación de la eficacia de las estrategias de aprendizaje por transferencia en las redes BLSTM para la reducción del ruido

dc.creator	Coto-Jiménez, Marvin
dc.creator	González-Salazar, Astryd
dc.creator	Gutiérrez-Muñoz, Michelle
dc.date	2022-11-16
dc.date.accessioned	2023-02-16T16:05:36Z
dc.date.available	2023-02-16T16:05:36Z
dc.identifier	https://revistas.tec.ac.cr/index.php/tec_marcha/article/view/6448
dc.identifier	10.18845/tm.v35i8.6448
dc.identifier.uri	https://hdl.handle.net/2238/14146
dc.description	Denoising speech signals represent a challenging task due to the increasing number of applications and technologies currently implemented in communication and portable devices. In those applications, challenging environmental conditions such as background noise, reverberation, and other sound artifacts can affect the quality of the signals. As a result, it also impacts the systems for speech recognition, speaker identification, and sound source localization, among many others. For denoising the speech signals degraded with the many kinds and possibly different levels of noise, several algorithms have been proposed during the past decades, with recent proposals based on deep learning presented as state-of-the-art, in particular those based on Long Short-Term Memory Networks (LSTM and Bidirectional-LSMT). In this work, a comparative study on different transfer learning strategies for reducing training time and increase the effectiveness of this kind of network is presented. The reduction in training time is one of the most critical challenges due to the high computational cost of training LSTM and BLSTM. Those strategies arose from the different options to initialize the networks, using clean or noisy information of several types. Results show the convenience of transferring information from a single case of denoising network to the rest, with a significant reduction in training time and denoising capabilities of the BLSTM networks.	en-US
dc.description	La eliminación de ruido de las señales de voz representa una tarea desafiante debido al creciente número de aplicaciones y tecnologías implementadas actualmente en los dispositivos portátiles y de comunicación. En esas aplicaciones, las condiciones ambientales desafiantes como el ruido de fondo, la reverberación y otros artefactos de sonido pueden afectar la calidad de las señales. Como resultado, también afecta a los sistemas de reconocimiento de voz, identificación de hablantes y localización de fuentes de sonido, entre muchos otros. Para eliminar el ruido de las señales de voz degradadas con los muchos tipos y posiblemente diferentes niveles de ruido, se han propuesto varios algoritmos durante las últimas décadas, con propuestas recientes basadas en el aprendizaje profundo presentadas como vanguardistas, en particular las basadas en redes de memoria a corto plazo (LSTM y LSMT bidireccional). En este trabajo se presenta un estudio comparativo de diferentes estrategias de transferencia de aprendizaje para reducir el tiempo de formación y aumentar la efectividad de este tipo de redes. La reducción del tiempo de entrenamiento es uno de los desafíos más críticos debido al alto costo computacional de entrenar LSTM y BLSTM. Esas estrategias surgieron de las diferentes opciones para inicializar las redes, utilizando información limpia o ruidosa de varios tipos. Los resultados muestran la conveniencia de transferir información de un solo caso de eliminación de ruido de la red al resto, con una reducción significativa en el tiempo de entrenamiento y las capacidades de eliminación de ruido de las redes BLSTM.	es-ES
dc.format	application/pdf
dc.language	eng
dc.publisher	Editorial Tecnológica de Costa Rica (entidad editora)	es-ES
dc.relation	https://revistas.tec.ac.cr/index.php/tec_marcha/article/view/6448/6267
dc.rights	https://creativecommons.org/licenses/by-nc-nd/4.0	es-ES
dc.source	Tecnología en marcha Journal; 2022: Vol. 35 special issue, October. International Work Conference on Bioinspired Intelligence ; Pág. 42-49	en-US
dc.source	Revista Tecnología en Marcha; 2022: Vol. 35 special issue, October. International Work Conference on Bioinspired Intelligence ; Pág. 42-49	es-ES
dc.source	2215-3241
dc.source	0379-3982
dc.subject	BLSTM	en-US
dc.subject	deep learning	en-US
dc.subject	transfer learning	en-US
dc.subject	speech processing	en-US
dc.subject	BLSTM	es-ES
dc.subject	aprendizaje profundo	es-ES
dc.subject	procesamiento del habla	es-ES
dc.subject	aprendizaje por transferencia	es-ES
dc.title	Assessing the effectiveness of transfer learning strategies in BLSTM networks for speech denoising	en-US
dc.title	Evaluación de la eficacia de las estrategias de aprendizaje por transferencia en las redes BLSTM para la reducción del ruido	es-ES
dc.type	info:eu-repo/semantics/article
dc.type	info:eu-repo/semantics/publishedVersion

Ficheros en el ítem

Ficheros	Tamaño	Formato	Ver
No hay ficheros asociados a este ítem.

Este ítem aparece en la(s) siguiente(s) colección(ones)

Tecnología en Marcha [2043]
Es una revista que se publica por trimestres

Mostrar el registro sencillo del ítem