分布式环境下大图迭代算法的设计与性能分析

IF 0.1 Q4 COMPUTER SCIENCE, INTERDISCIPLINARY APPLICATIONS Revista Brasileira de Computacao Aplicada Pub Date : 2019-04-15 DOI:10.5335/RBCA.V11I1.8738

J. L. B. Nascimento, Daniel de Oliveira Capanema, Adriano M. Pereira

{"title":"分布式环境下大图迭代算法的设计与性能分析","authors":"J. L. B. Nascimento, Daniel de Oliveira Capanema, Adriano M. Pereira","doi":"10.5335/RBCA.V11I1.8738","DOIUrl":null,"url":null,"abstract":"Atualmente grandes volumes de dados são gerados e coletados por meio de sensores, dispositivos e redes sociais. A capacidade de lidar com grandes massas de dados tornou-se um importante fator para o sucesso de muitas organizações, exigindo, cada vez mais, a utilização de processamento paralelo e distribuído. Para auxiliar os desenvolvedores a projetar programas distribuídos, existem várias ferramentas (frameworks), como Apache Hadoop e Spark. Esses frameworks fornecem diversos parâmetros de configuração (por exemplo, o Hadoop tem mais de 200) e atribuir valores otimizados a todos eles não é uma tarefa simples. Este trabalho investiga a influência desses parâmetros no desempenho do Apache Hadoop, utilizando o algoritmo HEDA, um algoritmo iterativo que calcula métricas de centralidade em grandes grafos. A execução do HEDA em uma rede complexa é extremamente importante, pois existem várias medidas de centralidade que determinam a importância de um vértice dentro do grafo. Observou-se que, em alguns casos, a melhoria no tempo de execução atingiu aproximadamente 80% aplicando os valores propostos por este trabalho aos parâmetros de configuração do Hadoop. Além disso, foi possível aumentar em cinco vezes o uso dos processadores e melhorar consideravelmente a escalabilidade. O trabalho também apresenta os métodos aplicados para preparar, executar e analisar os experimentos, o que poderá auxiliar em novos estudos.","PeriodicalId":41711,"journal":{"name":"Revista Brasileira de Computacao Aplicada","volume":"1 1","pages":""},"PeriodicalIF":0.1000,"publicationDate":"2019-04-15","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"https://sci-hub-pdf.com/10.5335/RBCA.V11I1.8738","citationCount":"0","resultStr":"{\"title\":\"Projeto e análise de desempenho de um algoritmo iterativo para grandes grafos em um ambiente distribuído\",\"authors\":\"J. L. B. Nascimento, Daniel de Oliveira Capanema, Adriano M. Pereira\",\"doi\":\"10.5335/RBCA.V11I1.8738\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Atualmente grandes volumes de dados são gerados e coletados por meio de sensores, dispositivos e redes sociais. A capacidade de lidar com grandes massas de dados tornou-se um importante fator para o sucesso de muitas organizações, exigindo, cada vez mais, a utilização de processamento paralelo e distribuído. Para auxiliar os desenvolvedores a projetar programas distribuídos, existem várias ferramentas (frameworks), como Apache Hadoop e Spark. Esses frameworks fornecem diversos parâmetros de configuração (por exemplo, o Hadoop tem mais de 200) e atribuir valores otimizados a todos eles não é uma tarefa simples. Este trabalho investiga a influência desses parâmetros no desempenho do Apache Hadoop, utilizando o algoritmo HEDA, um algoritmo iterativo que calcula métricas de centralidade em grandes grafos. A execução do HEDA em uma rede complexa é extremamente importante, pois existem várias medidas de centralidade que determinam a importância de um vértice dentro do grafo. Observou-se que, em alguns casos, a melhoria no tempo de execução atingiu aproximadamente 80% aplicando os valores propostos por este trabalho aos parâmetros de configuração do Hadoop. Além disso, foi possível aumentar em cinco vezes o uso dos processadores e melhorar consideravelmente a escalabilidade. O trabalho também apresenta os métodos aplicados para preparar, executar e analisar os experimentos, o que poderá auxiliar em novos estudos.\",\"PeriodicalId\":41711,\"journal\":{\"name\":\"Revista Brasileira de Computacao Aplicada\",\"volume\":\"1 1\",\"pages\":\"\"},\"PeriodicalIF\":0.1000,\"publicationDate\":\"2019-04-15\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"https://sci-hub-pdf.com/10.5335/RBCA.V11I1.8738\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Revista Brasileira de Computacao Aplicada\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.5335/RBCA.V11I1.8738\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"Q4\",\"JCRName\":\"COMPUTER SCIENCE, INTERDISCIPLINARY APPLICATIONS\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Revista Brasileira de Computacao Aplicada","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.5335/RBCA.V11I1.8738","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q4","JCRName":"COMPUTER SCIENCE, INTERDISCIPLINARY APPLICATIONS","Score":null,"Total":0}

引用次数: 0

摘要

目前，大量的数据是通过传感器、设备和社交网络生成和收集的。处理大量数据的能力已经成为许多组织成功的重要因素，越来越需要使用并行和分布式处理。为了帮助开发人员设计分布式程序，有许多工具(框架)，如Apache Hadoop和Spark。这些框架提供了许多配置参数(例如，Hadoop有超过200个)，为所有这些参数分配优化值不是一项简单的任务。本文使用HEDA算法研究了这些参数对Apache Hadoop性能的影响，HEDA算法是一种计算大图中心性指标的迭代算法。在复杂网络中执行HEDA是非常重要的，因为有几个中心性度量来决定图中顶点的重要性。观察到，在某些情况下，将本工作提出的值应用于Hadoop配置参数，运行时间提高了80%左右。此外，可以将处理器的使用增加5倍，并大大提高可伸缩性。本文还介绍了用于准备、执行和分析实验的方法，这可能有助于进一步的研究。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

查看原文

微信好友朋友圈 QQ好友复制链接

本刊更多论文

Projeto e análise de desempenho de um algoritmo iterativo para grandes grafos em um ambiente distribuído

Atualmente grandes volumes de dados são gerados e coletados por meio de sensores, dispositivos e redes sociais. A capacidade de lidar com grandes massas de dados tornou-se um importante fator para o sucesso de muitas organizações, exigindo, cada vez mais, a utilização de processamento paralelo e distribuído. Para auxiliar os desenvolvedores a projetar programas distribuídos, existem várias ferramentas (frameworks), como Apache Hadoop e Spark. Esses frameworks fornecem diversos parâmetros de configuração (por exemplo, o Hadoop tem mais de 200) e atribuir valores otimizados a todos eles não é uma tarefa simples. Este trabalho investiga a influência desses parâmetros no desempenho do Apache Hadoop, utilizando o algoritmo HEDA, um algoritmo iterativo que calcula métricas de centralidade em grandes grafos. A execução do HEDA em uma rede complexa é extremamente importante, pois existem várias medidas de centralidade que determinam a importância de um vértice dentro do grafo. Observou-se que, em alguns casos, a melhoria no tempo de execução atingiu aproximadamente 80% aplicando os valores propostos por este trabalho aos parâmetros de configuração do Hadoop. Além disso, foi possível aumentar em cinco vezes o uso dos processadores e melhorar consideravelmente a escalabilidade. O trabalho também apresenta os métodos aplicados para preparar, executar e analisar os experimentos, o que poderá auxiliar em novos estudos.

求助全文

通过发布文献求助，成功后即可免费获取论文全文。去求助

来源期刊

Revista Brasileira de Computacao Aplicada COMPUTER SCIENCE, INTERDISCIPLINARY APPLICATIONS-

自引率

50.00%

发文量