Application of Fischer semi discriminant analysis for speaker diarization in costa rican radio broadcasts

Sánchez Cárdenas, Roberto; Coto-Jiménez, Marvin

Aplicación del análisis semi discriminante de Fischer para la diarización de locutores en transmisiones de radio costarricenses

dc.creator	Sánchez Cárdenas, Roberto
dc.creator	Coto-Jiménez, Marvin
dc.date	2022-11-16
dc.date.accessioned	2023-02-16T16:05:38Z
dc.date.available	2023-02-16T16:05:38Z
dc.identifier	https://revistas.tec.ac.cr/index.php/tec_marcha/article/view/6464
dc.identifier	10.18845/tm.v35i8.6464
dc.identifier.uri	https://hdl.handle.net/2238/14156
dc.description	Automatic segmentation and classification of audio streams is a challenging problem, with many applications, such as indexing multi – media digital libraries, information retrieving, and the building of speech corpus or spoken corpus) for particular languages and accents. Those corpus is a database of speech audio files and the corresponding text transcriptions. Among the several steps and tasks required for any of those applications, the speaker diarization is one of the most relevant, because it pretends to find boundaries in the audio recordings according to who speaks in each fragment. Speaker diarization can be performed in a supervised or unsupervised way and is commonly applied in audios consisting of pure speech. In this work, a first annotated dataset and analysis of speaker diarization for Costa Rican radio broadcasting is performed, using two approaches: a classic one based on k-means clustering, and the more recent Fischer Semi Discriminant. We chose publicly available radio broadcast and decided to compare those systems’ applicability in the complete audio files, which also contains some segments of music and challenging acoustic conditions. Results show a dependency on the results according to the number of speakers in each broadcast, especially in the average cluster purity. The results also show the necessity of further exploration and combining with other classification and segmentation algorithms to better extract useful information from the dataset and allow further development of speech corpus.	en-US
dc.description	La segmentación y clasificación automática de transmisiones de audio es un problema desafiante, con muchas aplicaciones, como la indexación de bibliotecas digitales multimedia, la recuperación de información y la construcción de corpus de voz (o corpus hablado) para idiomas y acentos particulares. Ese corpus es una base de datos de archivos de audio de voz y las transcripciones de texto correspondientes. Entre los varios pasos y tareas requeridos para cualquiera de esas aplicaciones, la diarización del hablante es una de las más relevantes, porque pretende encontrar límites en las grabaciones de audio según quién habla en cada fragmento. La diarización del hablante se puede realizar de forma supervisada o no supervisada y se aplica comúnmente en audios que consisten en habla pura. En este trabajo, se realiza un primer conjunto de datos anotados y análisis de la diarización de locutores para la radiodifusión de Costa Rica, utilizando dos enfoques: uno clásico basado en la agrupación de k-medias y el más reciente Fischer Semi Discriminant. Elegimos la transmisión de radio disponible públicamente y decidimos comparar la aplicabilidad de esos sistemas en los archivos de audio completos, que también contienen algunos segmentos de música y condiciones acústicas desafiantes. Los resultados muestran una dependencia de los resultados de acuerdo con el número de hablantes en cada transmisión, especialmente en la pureza promedio del clúster. Los resultados también muestran la necesidad de una mayor exploración y combinación con otros algoritmos de clasificación y segmentación para extraer mejor información útil del conjunto de datos y permitir un mayor desarrollo del corpus del habla.	es-ES
dc.format	application/pdf
dc.language	eng
dc.publisher	Editorial Tecnológica de Costa Rica (entidad editora)	es-ES
dc.relation	https://revistas.tec.ac.cr/index.php/tec_marcha/article/view/6464/6277
dc.rights	https://creativecommons.org/licenses/by-nc-nd/4.0	es-ES
dc.source	Tecnología en marcha Journal; 2022: Vol. 35 special issue, October. International Work Conference on Bioinspired Intelligence ; Pág. 128-136	en-US
dc.source	Revista Tecnología en Marcha; 2022: Vol. 35 special issue, October. International Work Conference on Bioinspired Intelligence ; Pág. 128-136	es-ES
dc.source	2215-3241
dc.source	0379-3982
dc.subject	Broadcasting	en-US
dc.subject	clustering	en-US
dc.subject	speaker diarization	en-US
dc.subject	speech technologies	en-US
dc.subject	Radiodifusión	es-ES
dc.subject	agrupación	es-ES
dc.subject	registro de locutores	es-ES
dc.subject	tecnologías del habla	es-ES
dc.title	Application of Fischer semi discriminant analysis for speaker diarization in costa rican radio broadcasts	en-US
dc.title	Aplicación del análisis semi discriminante de Fischer para la diarización de locutores en transmisiones de radio costarricenses	es-ES
dc.type	info:eu-repo/semantics/article
dc.type	info:eu-repo/semantics/publishedVersion

Ficheros en el ítem

Ficheros	Tamaño	Formato	Ver
No hay ficheros asociados a este ítem.

Este ítem aparece en la(s) siguiente(s) colección(ones)

Tecnología en Marcha [2043]
Es una revista que se publica por trimestres

Mostrar el registro sencillo del ítem