Caracterização do consumo energético do Hadoop MapReduce

O crescimento exponencial do poder computacional, das fontes de geração de dados e da capacidade de comunicação em tecnologias recentes criou uma nova categoria de aplicações computacionais: aplicações intensivas em dados. O aumento dos conjuntos de dados é verificado em diversas áreas do conhecimento e atuação humanas. Deste contexto surge a necessidade do desenvolvimento de frameworks capazes de armazenar e processar dados em larga escala em um tempo aceitável. MapReduce, desenvolvido pelo Google, é um modelo de programação paralelo com uma implementação associada criado para o processamento de grandes quantidades de dados. O usuário deste framework precisa definir somente duas funções (map e reduce) e o runtime se encarrega de lidar de forma transparente ao programador com questões advindas da paralelização da computação, como a distribuição dos dados, escalonamento de tarefas, comunicação entre processos e tolerância a falhas. Porém, esta demanda pelo processamento de quantidades crescentes de dados tem como consequência uma demanda maior por recursos computacionais para processar uma mesma aplicação. O grande problema que esta demanda crescente por recursos computacionais gera é um - também - crescente consumo energético. Esta situação é crítica por duas razões - uma de motivação financeira e outra de motivação ambiental. Por estas razões, é imperativo que sistemas computacionais sejam projetados para serem cientes do consumo energético. A partir destas considerações, este trabalho tem como objetivo caracterizar o consumo energético de um sistema de processamento de grandes quantidades de dados. Hadoop - implementação de código aberto do modelo de programação MapReduce - é o sistema escolhido para a caracterização. A caracterização do consumo de energia deste sistema é acompanhada de considerações sobre o desempenho do framework para que o consumo de energia não seja considerado de maneira isolada e, sim, sob uma perspectiva mais ampla. ...

Abstract

The exponential growth of computing power, sources of data generation and communication capabilities in recent technologies created a new category of computer applications: data-intensive applications. The increase of data sets can be found in inumerous areas of human activities and knowledge. In such a context, arises a necessity of developing frameworks capable of storing and processing large-scale data in an acceptable time. MapReduce, developed by Google, is a parallel programming model with an associated implementation created for the the processing of vasts amounts of data. The user of this framework has only to define two functions (map and reduce) and the runtime deals with issues that arise due to the parallelization of the computation, such as data distribution, task scheduling, process communication and fault tolerance. However, this demand for the processing of growing amounts of data results in a higher demand for computing resources to process a single application. The major problem that this growing demand for computing resources generates is an increasing energy consumption. This is critical for two reasons - one of financial motivation and the other of environmental motivation. For these reasons, it is imperative that computer systems are designed to be aware of energy consumption. Motivated by these considerations, this study aims to characterize the power consumption of a system for processing large amounts of data. Hadoop - an open source implementation of the MapReduce programming model - is the chosen system for the proposed characterization. The energy consumption characterization of this system is accompanied by performance considerations of the framework so that energy consumption is not considered as an isolated issue, but in a broader perspective. ...

Instituição

Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Engenharia da Computação: Bacharelado.

Coleções

Trabalhos de Conclusão de Curso de Graduação (35859)

TCC Ciência da Computação (992)

Outras opções

Mostrar todos os metadados

Estatísticas

Este item está licenciado na Creative Commons License