Migración de procesos de conversión en Perl a Aspire
Abstract
Este proyecto tiene como objetivo analizar una serie de procesos realizados para un cliente de la empresa Search Technologies. Estos procesos transforman documentos electrónicos a un formato más estructurado que permita su posterior indexación y publicación, ya sea tanto en línea como fuera de línea por medio de herramientas como Rocket NXT y Folio. Una vez analizados estos procesos, se han migrado a Aspire, una plataforma para procesamiento de documentos de alto rendimiento perteneciente a Search Technologies.
Los procesos escritos en Perl originalmente tienen como entrada documentos en formato
Microsoft Word 2003, PDF y HTML. Estos documentos deben ser convertidos a formato
HTML si no lo estuvieran y luego recibir una serie de transformaciones textuales mediante el uso de expresiones regulares, con el fin de que su posterior indexación y publicación pueda ser llevada a cabo satisfactoriamente. Este proceso es actualmente semiautomático, es decir, una parte del proceso debe ser realizada manualmente. Este proyecto fue capaz de automatizar el proceso en su totalidad y facilitar futuras implementaciones para otros clientes con necesidades similares.
La migración realizada consiste en la creación de pipelines de procesamiento en un ambiente de ejecución concurrente de muchos hilos y el uso extensivo de expresiones regulares. ______________________________________________________________
ABSTRACT
The goal of this project is to analyze a series of processes done for a particular client of
Search Technologies Company. Those processes transform electronic documents to a more
structured format that will allow them to be indexed and published online or offline using
Rocket NXT and Folio products. Once analyzed, those processes have been migrated to
Aspire, a high performance document processing framework property of Search
Technologies.
The processes originally written in Perl have as input Microsoft Word 2003 documents, PDF
and HTML files. Those documents must be converted to HTML format, if they were not yet,
and then passed through a series of text transformations using regular expressions, with the
intention of a later successful indexation and publication. This process is semiautomatic, i.e.,
part of the process is done manually. This project was capable of automate the process
entirely and facilitate future implementations for other clients with similar needs.
The migration consists of the creation of processing pipelines in a multithread concurrent
environment and the extensive use of regular expressions.
Description
Proyecto de Graduación (Bachillerato en Ingeniería en Computación). Instituto Tecnológico de Costa Rica. Escuela de Ingeniería en Computación, 2010.