Tecnológico de Costa Rica
  • How to publish in Repositorio TEC?
  • Policies
  • Educational Resources
  • Contact us
    • español
    • English
  • English 
    • español
    • English
  • Login
View Item 
  •   Repository Home
  • Trabajos de Graduación
  • Biblioteca José Figueres Ferrer
  • Escuela de Ingeniería en Computación
  • Bachillerato en Ingeniería en Computación
  • View Item
  •   Repository Home
  • Trabajos de Graduación
  • Biblioteca José Figueres Ferrer
  • Escuela de Ingeniería en Computación
  • Bachillerato en Ingeniería en Computación
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Browse

All RepositoryCommunities & CollectionsBy Issue DateAuthorsTitlesKeywordEducational Resource TypeIntended UserThis CollectionBy Issue DateAuthorsTitlesKeywordEducational Resource TypeIntended User

My Account

LoginRegister

Statistics

View Usage Statistics

Migración de procesos de conversión en Perl a Aspire

Thumbnail
View/Open
Informe_Final.pdf (619.2Kb)
Date
2010
Author
Méndez-Vásquez, Luis Javier
Metadata
Show full item record
Abstract
Este proyecto tiene como objetivo analizar una serie de procesos realizados para un cliente de la empresa Search Technologies. Estos procesos transforman documentos electrónicos a un formato más estructurado que permita su posterior indexación y publicación, ya sea tanto en línea como fuera de línea por medio de herramientas como Rocket NXT y Folio. Una vez analizados estos procesos, se han migrado a Aspire, una plataforma para procesamiento de documentos de alto rendimiento perteneciente a Search Technologies. Los procesos escritos en Perl originalmente tienen como entrada documentos en formato Microsoft Word 2003, PDF y HTML. Estos documentos deben ser convertidos a formato HTML si no lo estuvieran y luego recibir una serie de transformaciones textuales mediante el uso de expresiones regulares, con el fin de que su posterior indexación y publicación pueda ser llevada a cabo satisfactoriamente. Este proceso es actualmente semiautomático, es decir, una parte del proceso debe ser realizada manualmente. Este proyecto fue capaz de automatizar el proceso en su totalidad y facilitar futuras implementaciones para otros clientes con necesidades similares. La migración realizada consiste en la creación de pipelines de procesamiento en un ambiente de ejecución concurrente de muchos hilos y el uso extensivo de expresiones regulares. ______________________________________________________________ ABSTRACT The goal of this project is to analyze a series of processes done for a particular client of Search Technologies Company. Those processes transform electronic documents to a more structured format that will allow them to be indexed and published online or offline using Rocket NXT and Folio products. Once analyzed, those processes have been migrated to Aspire, a high performance document processing framework property of Search Technologies. The processes originally written in Perl have as input Microsoft Word 2003 documents, PDF and HTML files. Those documents must be converted to HTML format, if they were not yet, and then passed through a series of text transformations using regular expressions, with the intention of a later successful indexation and publication. This process is semiautomatic, i.e., part of the process is done manually. This project was capable of automate the process entirely and facilitate future implementations for other clients with similar needs. The migration consists of the creation of processing pipelines in a multithread concurrent environment and the extensive use of regular expressions.
Description
Proyecto de Graduación (Bachillerato en Ingeniería en Computación). Instituto Tecnológico de Costa Rica. Escuela de Ingeniería en Computación, 2010.
URI
https://hdl.handle.net/2238/2919
Share
       
Metrics
Collections
  • Bachillerato en Ingeniería en Computación [11]

|Contact us

Repositorio Institucional del Tecnológico de Costa Rica

Sistema de Bibliotecas del TEC | SIBITEC

© DERECHOS RESERVADOS. Un sitio soportado por DSpace(v. 6.3)

RT-1

 

 


|Contact us

Repositorio Institucional del Tecnológico de Costa Rica

Sistema de Bibliotecas del TEC | SIBITEC

© DERECHOS RESERVADOS. Un sitio soportado por DSpace(v. 6.3)

RT-1