Evaluation of different text representation techniques and distance metrics using KNN for documents classification

Evaluación de distintas técnicas de representación de texto y medidas de distancia de texto usando KNN para clasificación de documentos

dc.date	2020-02-27
dc.date.accessioned	2020-09-25T23:12:47Z
dc.date.available	2020-09-25T23:12:47Z
dc.identifier	https://revistas.tec.ac.cr/index.php/tec_marcha/article/view/5022
dc.identifier	10.18845/tm.v33i1.5022
dc.identifier.uri	https://hdl.handle.net/2238/12052
dc.description	Nowadays, text data is a fundamental part in databases around the world and one of the biggest challenges has been the extraction of meaningful information from large sets of text. Existing literature about text classification is extensive, however, during the last 25 years the statistical methods (where similarity functions are applied over vectors of words) have achieved good results in many areas of text mining. Additionally, several models have been proposed to achieve dimensional reduction and incorporate the semantic factor, such as the topic modelling. In this paper we evaluate different text representation techniques including traditional bag of words and topics modelling. The evaluation is done by testing different combinations of text representations and text distance metrics (Cosine, Jaccard and Kullback-Leibler Divergence) using K-Nearest-Neighbors in order to determine the effectiveness of using topic modelling representations for dimensional reduction when classifying text. The results show that the simplest version of bag of words and the Jaccard similarity outperformed the rest of combinations in most of the cases. A statistical test showed that the accuracy values obtained when using supervised Latent Dirichlet Allocation representations, combined with the relative entropy metric, were no significantly different to the ones obtained by using traditional text classification techniques. LDA managed to abstract thousands of words in less than 60 topics for the main set of experiments. Additional experiments suggest that topic modelling can perform better when used for short text documents or when increasing the parameter of number of topics (dimensions) at the moment of generating the model.	en-US
dc.description	Actualmente, los datos textuales constituyen una parte fundamental de las bases de datos de todo el mundo y uno de los mayores desafíos ha sido la extracción de información útil a partir de conjuntos grandes de documentos de texto. La literatura existente sobre métodos para resolver este problema es muy extensa, sin embargo, los métodos estadísticos (que utilizan métricas de similitud sobre vectores de palabras) han mostrado resultados muy favorables en el campo de la minería de texto durante los últimos 25 años. Adicionalmente, otros modelos han surgido como una prometedora alternativa para lograr reducción dimensional e incorporación de la semántica en la clasificación de documentos, tal como el modelado de temas. Este proyecto se enfoca en la evaluación de técnicas de representación y medidas de similitud de texto (Coseno, Jaccard y Kullback-Leibler) usando el algoritmo de Vecinos más Cercanos (KNN por sus siglas en inglés), con el fin de medir la efectividad del modelado de temas para reducción dimensional al clasificar texto. Los resultados muestran que la versión más tradicional del vector de palabras y la similitud Jaccard superaron al resto de las combinaciones en la mayoría de los casos de uso. Sin embargo, el análisis estadístico mostró que no hubo una diferencia significativa entre la exactitud obtenida al usar representaciones generadas por la Asignación de Dirichlet Latente (técnica de modelado de temas más conocida como LDA por sus siglas en inglés), y la obtenida usando técnicas tradicionales de clasificación de texto. LDA logró abstraer miles de palabras en menos de 60 temas para el primer conjunto de pruebas. Experimentos adicionales sugieren que el modelado de temas puede llegar a lograr un mejor rendimiento al ser usado para clasificar textos cortos y al incrementar el número de temas permitidos al momento de generar el modelo.	es-ES
dc.format	application/pdf
dc.language	spa
dc.publisher	Editorial Tecnológica de Costa Rica (entidad editora)	es-ES
dc.relation	https://revistas.tec.ac.cr/index.php/tec_marcha/article/view/5022/4741
dc.source	Tecnología en marcha Journal; Vol. 33 Núm. 1: Enero-Marzo 2020; Pág. 64-79	en-US
dc.source	Revista Tecnología en Marcha; Vol. 33 Núm. 1: Enero-Marzo 2020; Pág. 64-79	es-ES
dc.source	2215-3241
dc.source	0379-3982
dc.subject	Text similarity	en-US
dc.subject	text classification	en-US
dc.subject	KNN	en-US
dc.subject	topic modeling	en-US
dc.subject	Similitud de texto	es-ES
dc.subject	clasificación de texto	es-ES
dc.subject	KNN	es-ES
dc.subject	modelado de temas	es-ES
dc.title	Evaluation of different text representation techniques and distance metrics using KNN for documents classification	en-US
dc.title	Evaluación de distintas técnicas de representación de texto y medidas de distancia de texto usando KNN para clasificación de documentos	es-ES
dc.type	info:eu-repo/semantics/article
dc.type	info:eu-repo/semantics/publishedVersion

Ficheros en el ítem

Ficheros	Tamaño	Formato	Ver
No hay ficheros asociados a este ítem.

Este ítem aparece en la(s) siguiente(s) colección(ones)

Tecnología en Marcha [2043]
Es una revista que se publica por trimestres

Mostrar el registro sencillo del ítem