Descripción
According to several studies, children’s speech is more dynamic and inconsistent compared to an adult’s speech. This aspect can be considered in the task of recognizing the age of the person who speaks and of great importance in many applications, such as humancomputer interaction, security on Internet and education assistants. Those applications have a dependency on language and accent, due to the different sounds and styles that characterize the speakers. This paper presents the initial results on the identification of Costa Rican children’s speech, in a database created for this purpose, consisting of words pronounced by adults and children of several ages. For this first study we chose the most common vowel of the language, and extract a set of common acoustic features to determine its applicability in distinguishing between adults and children of an age range. The outcome results shows promising results in the classification using a single vowel, that improves according to the number of vowels used to extract the acoustic features. This means that an automatic system could be able to improve its capacity to identify age as more speech information is received and transcribed, but cannot be very accurate in short interactions.
Según varios estudios, el habla de los niños es más dinámica e inconsistente en comparación con el habla de un adulto. Este aspecto se puede considerar en la tarea de reconocer la edad de la persona que habla y de gran importancia en muchas aplicaciones, como la interacción humano-computadora, la seguridad en Internet y los asistentes educativos. Esas aplicaciones tienen una dependencia del lenguaje y el acento, debido a los diferentes sonidos y estilos que caracterizan a los hablantes. Este trabajo presenta los resultados iniciales sobre la identificación del habla infantil costarricense, en una base de datos creada para tal fin, que consta de palabras pronunciadas por adultos y niños de distintas edades. Para este primer estudio, elegimos la vocal más común del idioma y extraemos un conjunto de características acústicas comunes para determinar su aplicabilidad para distinguir entre adultos y niños de un rango de edad. Los resultados obtenidos muestran resultados prometedores en la clasificación utilizando una sola vocal, que mejora según el número de vocales utilizadas para extraer las características acústicas. Esto significa que un sistema automático podría mejorar su capacidad para identificar la edad a medida que se recibe y transcribe más información del habla, pero no puede ser muy preciso en interacciones breves.