Mostrar el registro sencillo del ítem

Aplicación del análisis semi discriminante de Fischer para la diarización de locutores en transmisiones de radio costarricenses

dc.creatorSánchez Cárdenas, Roberto
dc.creatorCoto-Jiménez, Marvin
dc.date2022-11-16
dc.date.accessioned2023-02-16T16:05:38Z
dc.date.available2023-02-16T16:05:38Z
dc.identifierhttps://revistas.tec.ac.cr/index.php/tec_marcha/article/view/6464
dc.identifier10.18845/tm.v35i8.6464
dc.identifier.urihttps://hdl.handle.net/2238/14156
dc.descriptionAutomatic segmentation and classification of audio streams is a challenging problem, with many applications, such as indexing multi – media digital libraries, information retrieving, and the building of speech corpus or spoken corpus) for particular languages and accents. Those corpus is a database of speech audio files and the corresponding text transcriptions. Among the several steps and tasks required for any of those applications, the speaker diarization is one of the most relevant, because it pretends to find boundaries in the audio recordings according to who speaks in each fragment. Speaker diarization can be performed in a supervised or unsupervised way and is commonly applied in audios consisting of pure speech. In this work, a first annotated dataset and analysis of speaker diarization for Costa Rican radio broadcasting is performed, using two approaches: a classic one based on k-means clustering, and the more recent Fischer Semi Discriminant. We chose publicly available radio broadcast and decided to compare those systems’ applicability in the complete audio files, which also contains some segments of music and challenging acoustic conditions. Results show a dependency on the results according to the number of speakers in each broadcast, especially in the average cluster purity. The results also show the necessity of further exploration and combining with other classification and segmentation algorithms to better extract useful information from the dataset and allow further development of speech corpus.en-US
dc.descriptionLa segmentación y clasificación automática de transmisiones de audio es un problema desafiante, con muchas aplicaciones, como la indexación de bibliotecas digitales multimedia, la recuperación de información y la construcción de corpus de voz (o corpus hablado) para idiomas y acentos particulares. Ese corpus es una base de datos de archivos de audio de voz y las transcripciones de texto correspondientes. Entre los varios pasos y tareas requeridos para cualquiera de esas aplicaciones, la diarización del hablante es una de las más relevantes, porque pretende encontrar límites en las grabaciones de audio según quién habla en cada fragmento. La diarización del hablante se puede realizar de forma supervisada o no supervisada y se aplica comúnmente en audios que consisten en habla pura. En este trabajo, se realiza un primer conjunto de datos anotados y análisis de la diarización de locutores para la radiodifusión de Costa Rica, utilizando dos enfoques: uno clásico basado en la agrupación de k-medias y el más reciente Fischer Semi Discriminant. Elegimos la transmisión de radio disponible públicamente y decidimos comparar la aplicabilidad de esos sistemas en los archivos de audio completos, que también contienen algunos segmentos de música y condiciones acústicas desafiantes. Los resultados muestran una dependencia de los resultados de acuerdo con el número de hablantes en cada transmisión, especialmente en la pureza promedio del clúster. Los resultados también muestran la necesidad de una mayor exploración y combinación con otros algoritmos de clasificación y segmentación para extraer mejor información útil del conjunto de datos y permitir un mayor desarrollo del corpus del habla.es-ES
dc.formatapplication/pdf
dc.languageeng
dc.publisherEditorial Tecnológica de Costa Rica (entidad editora)es-ES
dc.relationhttps://revistas.tec.ac.cr/index.php/tec_marcha/article/view/6464/6277
dc.rightshttps://creativecommons.org/licenses/by-nc-nd/4.0es-ES
dc.sourceTecnología en marcha Journal; 2022: Vol. 35 special issue, October. International Work Conference on Bioinspired Intelligence ; Pág. 128-136en-US
dc.sourceRevista Tecnología en Marcha; 2022: Vol. 35 special issue, October. International Work Conference on Bioinspired Intelligence ; Pág. 128-136es-ES
dc.source2215-3241
dc.source0379-3982
dc.subjectBroadcastingen-US
dc.subjectclusteringen-US
dc.subjectspeaker diarizationen-US
dc.subjectspeech technologiesen-US
dc.subjectRadiodifusiónes-ES
dc.subjectagrupaciónes-ES
dc.subjectregistro de locutoreses-ES
dc.subjecttecnologías del hablaes-ES
dc.titleApplication of Fischer semi discriminant analysis for speaker diarization in costa rican radio broadcastsen-US
dc.titleAplicación del análisis semi discriminante de Fischer para la diarización de locutores en transmisiones de radio costarricenseses-ES
dc.typeinfo:eu-repo/semantics/article
dc.typeinfo:eu-repo/semantics/publishedVersion


Ficheros en el ítem

FicherosTamañoFormatoVer

No hay ficheros asociados a este ítem.

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem