Mostrar el registro sencillo del ítem

dc.contributor.authorMéndez-Vásquez, Luis Javier
dc.date.accessioned2013-02-01T21:28:53Z
dc.date.available2013-02-01T21:28:53Z
dc.date.issued2010
dc.identifier.urihttps://hdl.handle.net/2238/2919
dc.descriptionProyecto de Graduación (Bachillerato en Ingeniería en Computación). Instituto Tecnológico de Costa Rica. Escuela de Ingeniería en Computación, 2010.es
dc.description.abstractEste proyecto tiene como objetivo analizar una serie de procesos realizados para un cliente de la empresa Search Technologies. Estos procesos transforman documentos electrónicos a un formato más estructurado que permita su posterior indexación y publicación, ya sea tanto en línea como fuera de línea por medio de herramientas como Rocket NXT y Folio. Una vez analizados estos procesos, se han migrado a Aspire, una plataforma para procesamiento de documentos de alto rendimiento perteneciente a Search Technologies. Los procesos escritos en Perl originalmente tienen como entrada documentos en formato Microsoft Word 2003, PDF y HTML. Estos documentos deben ser convertidos a formato HTML si no lo estuvieran y luego recibir una serie de transformaciones textuales mediante el uso de expresiones regulares, con el fin de que su posterior indexación y publicación pueda ser llevada a cabo satisfactoriamente. Este proceso es actualmente semiautomático, es decir, una parte del proceso debe ser realizada manualmente. Este proyecto fue capaz de automatizar el proceso en su totalidad y facilitar futuras implementaciones para otros clientes con necesidades similares. La migración realizada consiste en la creación de pipelines de procesamiento en un ambiente de ejecución concurrente de muchos hilos y el uso extensivo de expresiones regulares. ______________________________________________________________ ABSTRACT The goal of this project is to analyze a series of processes done for a particular client of Search Technologies Company. Those processes transform electronic documents to a more structured format that will allow them to be indexed and published online or offline using Rocket NXT and Folio products. Once analyzed, those processes have been migrated to Aspire, a high performance document processing framework property of Search Technologies. The processes originally written in Perl have as input Microsoft Word 2003 documents, PDF and HTML files. Those documents must be converted to HTML format, if they were not yet, and then passed through a series of text transformations using regular expressions, with the intention of a later successful indexation and publication. This process is semiautomatic, i.e., part of the process is done manually. This project was capable of automate the process entirely and facilitate future implementations for other clients with similar needs. The migration consists of the creation of processing pipelines in a multithread concurrent environment and the extensive use of regular expressions.es
dc.language.isoeses
dc.publisherInstituto Tecnológico de Costa Rica, Escuela de Ingeniería en Computaciónes
dc.subjectProcesoses
dc.subjectConversiónes
dc.subjectExpresiones regulareses
dc.subjectPerles
dc.subjectJavaes
dc.subjectMigraciónes
dc.subjectConcurrenciaes
dc.subjectPipeline de procesamientoes
dc.subjectTransformaciónes
dc.subjectExtracción de metadatoses
dc.subjectProcesses
dc.subjectConversiónes
dc.subjectRegular expressionses
dc.subjectMigrationes
dc.subjectConcurrencyes
dc.subjectProcesses
dc.titleMigración de procesos de conversión en Perl a Aspirees
dc.typeinfo:eu-repo/semantics/bachelorThesises


Ficheros en el ítem

Thumbnail

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem