Tecnológico de Costa Rica
  • ¿Cómo publicar en el Repositorio TEC?
  • Políticas
  • Recursos Educativos
  • Contáctenos
    • español
    • English
  • español 
    • español
    • English
  • Login
Ver ítem 
  •   Página Principal
  • Escuelas y Departamentos
  • Escuela de Ingeniería en Computación
  • Artículos
  • Ver ítem
  •   Página Principal
  • Escuelas y Departamentos
  • Escuela de Ingeniería en Computación
  • Artículos
  • Ver ítem
JavaScript is disabled for your browser. Some features of this site may not work without it.

Listar

Todo el RepositorioComunidades & ColeccionesPor fecha de publicaciónAutoresTítulosPalabras clavesTipo de Recurso EducativoDestinatarioEsta colecciónPor fecha de publicaciónAutoresTítulosPalabras clavesTipo de Recurso EducativoDestinatario

Mi cuenta

AccederRegistro

Estadísticas

Ver Estadísticas de uso

A fault-tolerance protocol for parallel applications with communication imbalance

Thumbnail
Ver/
a_fault_tolerance_protocol.pdf (537.3Kb)
https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7379847
Fecha
2015
Autor
Meneses-Rojas, Esteban
Metadatos
Mostrar el registro completo del ítem
Resumen
The predicted failure rates of future supercomputers loom the groundbreaking research large machines are expected to foster. Therefore, resilient extreme-scale applications are an absolute necessity to effectively use the new generation of supercomputers. Rollback-recovery techniques have been traditionally used in HPC to provide resilience. Among those techniques, message logging provides the appealing features of saving energy, accelerating recovery, and having low performance penalty. Its increased memory consumption is, however, an important downside. This paper introduces memory-constrained message logging (MCML), a general framework for decreasing the memory footprint of message-logging protocols. In particular, we demonstrate the effectiveness of MCML in maintaining message logging feasible for applications with substantial communication imbalance. This type of applications appear in many scientific fields. We present experimental results with several parallel codes running on up to 4,096 cores. Using those results and an analytical model, we predict MCML can reduce execution time up to 25% and energy consumption up to 15%, at extreme scale.
Descripción
Articulo
Fuente
27th International Symposium on Computer Architecture and High Performance Computing
URI
https://hdl.handle.net/2238/9676
DOI
10.1109/SBAC-PAD.2015.25
Compartir
       
Métricas
Colecciones
  • Artículos [19]

|Contáctenos

Repositorio Institucional del Tecnológico de Costa Rica

Sistema de Bibliotecas del TEC | SIBITEC

© DERECHOS RESERVADOS. Un sitio soportado por DSpace(v. 6.3)

RT-1

 

 


|Contáctenos

Repositorio Institucional del Tecnológico de Costa Rica

Sistema de Bibliotecas del TEC | SIBITEC

© DERECHOS RESERVADOS. Un sitio soportado por DSpace(v. 6.3)

RT-1