首页 > 最新文献

Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)最新文献

英文 中文
Compilação Dinâmica com Seleção Inteligente de Otimizações 动态编译与智能优化选择
Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8661
T. Camacho, Anderson Faustino, V. M. Rosario, Edson Borin
Sistemas que utilizam compilação dinâmica geram código alvo em tempo de execução, fazendo com que o tempo de compilação seja incluı́do no tempo total do sistema. Portanto, é crucial que o sistema de compilação dinâmico tenham ao mesmo tempo um baixo custo e seja capaz de gerar código de boa qualidade. Neste artigo apresentamos um sistema de aprendizado de máquina para seleção inteligente de otimizações que aprende quais as melhores sequências de otimizações para cada região de código compilado por um compilador dinâmico. O sistema foi implementado e testado em um tradutor dinâmico de binários, o OI-DBT, trazendo um ganho médio de desempenho de 26,32%.
系统使用动态编译生成目标代码在运行时,编译时间应包括ı́的系统的总时间。因此,动态编译系统具有低成本和生成高质量代码的能力是至关重要的。在本文中,我们提出了一个用于智能优化选择的机器学习系统,该系统学习由动态编译器编译的每个代码区域的最佳优化序列。该系统在动态二进制转换器hi -DBT中实现并测试,平均性能增益为26.32%。
{"title":"Compilação Dinâmica com Seleção Inteligente de Otimizações","authors":"T. Camacho, Anderson Faustino, V. M. Rosario, Edson Borin","doi":"10.5753/wscad.2019.8661","DOIUrl":"https://doi.org/10.5753/wscad.2019.8661","url":null,"abstract":"Sistemas que utilizam compilação dinâmica geram código alvo em tempo de execução, fazendo com que o tempo de compilação seja incluı́do no tempo total do sistema. Portanto, é crucial que o sistema de compilação dinâmico tenham ao mesmo tempo um baixo custo e seja capaz de gerar código de boa qualidade. Neste artigo apresentamos um sistema de aprendizado de máquina para seleção inteligente de otimizações que aprende quais as melhores sequências de otimizações para cada região de código compilado por um compilador dinâmico. O sistema foi implementado e testado em um tradutor dinâmico de binários, o OI-DBT, trazendo um ganho médio de desempenho de 26,32%.","PeriodicalId":117711,"journal":{"name":"Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)","volume":"11 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-11-08","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"125415090","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 1
Identification and Characterization of Memory Allocation Anomalies in High-Performance Computing Applications 高性能计算应用中内存分配异常的识别与表征
Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8652
A. A. Gomes, Enzo Molion, R. Souto, J. Méhaut
A memory allocation anomaly occurs when the allocation of a set of heap blocks imposes an unnecessary overhead on the execution of an application. In this paper, we propose a method for identifying, locating, characterizing and fixing allocation anomalies, and a tool for developers to apply the method. We experiment our method and tool with a numerical simulator aimed at approximating the solutions to partial differential equations using a finite element method. We show that taming allocation anomalies in this simulator reduces the memory footprint of its processes by 37.27% and the execution time by 16.52%. We conclude that the developer of high-performance computing applications can benefit from the method and tool during the software development cycle.
当一组堆块的分配给应用程序的执行带来不必要的开销时,就会出现内存分配异常。在本文中,我们提出了一种识别、定位、表征和修复分配异常的方法,并为开发人员提供了一个应用该方法的工具。我们用数值模拟器来实验我们的方法和工具,目的是用有限元法近似解偏微分方程。我们表明,在这个模拟器中驯服分配异常可以减少进程的内存占用37.27%,执行时间减少16.52%。我们得出结论,高性能计算应用程序的开发人员可以在软件开发周期中受益于该方法和工具。
{"title":"Identification and Characterization of Memory Allocation Anomalies in High-Performance Computing Applications","authors":"A. A. Gomes, Enzo Molion, R. Souto, J. Méhaut","doi":"10.5753/wscad.2019.8652","DOIUrl":"https://doi.org/10.5753/wscad.2019.8652","url":null,"abstract":"A memory allocation anomaly occurs when the allocation of a set of heap blocks imposes an unnecessary overhead on the execution of an application. In this paper, we propose a method for identifying, locating, characterizing and fixing allocation anomalies, and a tool for developers to apply the method. We experiment our method and tool with a numerical simulator aimed at approximating the solutions to partial differential equations using a finite element method. We show that taming allocation anomalies in this simulator reduces the memory footprint of its processes by 37.27% and the execution time by 16.52%. We conclude that the developer of high-performance computing applications can benefit from the method and tool during the software development cycle.","PeriodicalId":117711,"journal":{"name":"Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)","volume":"1119 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-11-08","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"116070493","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 1
Implementação e Avaliação do Algoritmo de Leilão nas Arquiteturas Xeon Phi 在Xeon Phi架构中实现和评估拍卖算法
Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8663
Alexandre C. Sena, Aline De Sousa Nascimento, Leandro A. J. Marzulo
O algoritmo de leilão tem sido amplamente utilizado para resolver problemas de várias áreas. Com seus vários núcleos de processamento e instruções vetorizadas de 512 bits, arquiteturas Xeon Phi tem potencial para aumentar consideravelmente o desempenho desse algoritmo. O objetivo deste trabalho é executar eficientemente o algoritmo de leilão nessas arquiteturas. As principais contribuições são: implementação de uma versão vetorizada; Análise de desempenho da versões vetorizada e paralela; comparação do desempenho entre Xeon e Xeon Phi. Resultados mostram que a versão vetorizada paralela é capaz de aproveitar todo o potencial das arquiteturas Xeon Phi, atingindo um desempenho até 750 vezes melhor do que a versão sequencial.
拍卖算法已被广泛应用于解决多个领域的问题。Xeon Phi架构具有多个处理核心和512位矢量指令,有潜力大大提高该算法的性能。这项工作的目标是在这些架构中有效地执行拍卖算法。主要贡献有:矢量版本的实现;矢量和并行版本的性能分析;Xeon与Xeon Phi的性能比较。结果表明,并行矢量版本能够充分利用Xeon Phi架构的潜力,达到比顺序版本高出750倍的性能。
{"title":"Implementação e Avaliação do Algoritmo de Leilão nas Arquiteturas Xeon Phi","authors":"Alexandre C. Sena, Aline De Sousa Nascimento, Leandro A. J. Marzulo","doi":"10.5753/wscad.2019.8663","DOIUrl":"https://doi.org/10.5753/wscad.2019.8663","url":null,"abstract":"O algoritmo de leilão tem sido amplamente utilizado para resolver problemas de várias áreas. Com seus vários núcleos de processamento e instruções vetorizadas de 512 bits, arquiteturas Xeon Phi tem potencial para aumentar consideravelmente o desempenho desse algoritmo. O objetivo deste trabalho é executar eficientemente o algoritmo de leilão nessas arquiteturas. As principais contribuições são: implementação de uma versão vetorizada; Análise de desempenho da versões vetorizada e paralela; comparação do desempenho entre Xeon e Xeon Phi. Resultados mostram que a versão vetorizada paralela é capaz de aproveitar todo o potencial das arquiteturas Xeon Phi, atingindo um desempenho até 750 vezes melhor do que a versão sequencial.","PeriodicalId":117711,"journal":{"name":"Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)","volume":"1 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-11-08","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"129347374","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
Arquitetura Heterogênea CPU+FPGA para Análise Formal de Conceitos 用于形式化概念分析的异构CPU+FPGA架构
Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8659
Lucas Maciel, João Paulo Guedes Novais, M. Souza, Mark A. J. Song, H.C.F. Freitas
Algoritmos para análise formal de conceitos são amplamente estudados para extrair padrões de inteligência computacional e descoberta de conhecimento. No entanto, eles exigem processamento de alto desempenho devido às suas caracterı́sticas combinatórias. Neste trabalho, foi projetada e avaliada uma arquitetura heterogênea de CPU+FPGA para acelerar a extração de conceitos em grandes conjuntos de dados. Os resultados encontrados mostram um speedup de até 3,95x com até 120,63x mais operações por Watt em relação a uma versão executada em CPU. Em comparação com o software In-Close2-BDD, essa arquitetura é mais rápida (e.g. 4,06x) para vários conjuntos de dados, processando até 1 milhão de objetos.
概念形式分析的算法被广泛研究,以提取计算智能模式和知识发现。然而,他们需要高性能的处理字ı́组合信息。在这项工作中,设计和评估了一个异构CPU+FPGA架构,以加速概念提取在大数据集。结果显示,与在CPU上运行的版本相比,加速速度高达3.95倍,每瓦特的操作速度高达120.63倍。与In-Close2-BDD软件相比,这种架构对于多个数据集更快(例如4.06倍),可以处理多达100万个对象。
{"title":"Arquitetura Heterogênea CPU+FPGA para Análise Formal de Conceitos","authors":"Lucas Maciel, João Paulo Guedes Novais, M. Souza, Mark A. J. Song, H.C.F. Freitas","doi":"10.5753/wscad.2019.8659","DOIUrl":"https://doi.org/10.5753/wscad.2019.8659","url":null,"abstract":"Algoritmos para análise formal de conceitos são amplamente estudados para extrair padrões de inteligência computacional e descoberta de conhecimento. No entanto, eles exigem processamento de alto desempenho devido às suas caracterı́sticas combinatórias. Neste trabalho, foi projetada e avaliada uma arquitetura heterogênea de CPU+FPGA para acelerar a extração de conceitos em grandes conjuntos de dados. Os resultados encontrados mostram um speedup de até 3,95x com até 120,63x mais operações por Watt em relação a uma versão executada em CPU. Em comparação com o software In-Close2-BDD, essa arquitetura é mais rápida (e.g. 4,06x) para vários conjuntos de dados, processando até 1 milhão de objetos.","PeriodicalId":117711,"journal":{"name":"Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)","volume":"25 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-11-08","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"126793445","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 1
Poluição de Cache e Thrashing em Aplicações Paralelas de Alto Desempenho 高性能并行应用中的缓存污染和破坏
Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8683
Arthur M. Krause, F. B. Moreira, Valéria Girelli, P. Navaux
Conforme os processadores evoluem, o desempenho dos sistemas computacionais se torna cada vez mais limitado pelo tempo de acesso à memória. Caches são empregadas a fim de contornar este problema, mas é necessária uma gerência inteligente dos dados que são armazenados nelas para impedir que problemas como poluição e thrashing degradem seu desempenho. Neste trabalho é apresentada uma análise da poluição de cache e thrashing em aplicações paralelas de alto desempenho. Os resultados mostram que caches com maior associatividade sofrem mais com estes problemas. Até 28% dos cache misses na L1 poderiam ser evitados com uma política de substituição de cache mais inteligente, chegando a até 62% na cache L2 e 98% na LLC. As processors evolve, the performance of computer systems becomes increasingly limited by the memory access time. Caches are employed in order to get around this problem, but an intelligent management of the data that is stored in them is necessary to prevent problems such as pollution and thrashing from degrading their performance. In this work, an analysis of cache and thrashing pollution in high performance parallel applications is presented. The results show that caches with greater associativity suffer more from these problems. Up to 28% of cache misses in the L1 cache could be avoided with a smarter replacement policy, up to 62% in the L2 cache and 98% in the LLC.
随着处理器的发展,计算系统的性能越来越受到内存访问时间的限制。使用缓存是为了解决这个问题,但是需要对存储在缓存中的数据进行智能管理,以防止污染和打乱等问题降低缓存的性能。在这项工作中,我们分析了高性能并行应用程序中的缓存和破坏污染。结果表明,具有较高联想性的缓存更容易受到这些问题的影响。通过更智能的缓存替换策略,L1上高达28%的缓存丢失可以避免,L2上高达62%,LLC上高达98%。随着处理器的发展,计算机系统的性能越来越受到内存访问时间的限制。使用缓存是为了解决这个问题,但需要对存储在缓存中的数据进行智能管理,以防止污染和破坏等问题,从而降低缓存的性能。本文对高性能并行应用中的缓存和破坏污染进行了分析。= =地理= =根据美国人口普查,这个县的面积为。高达28%的缓存任务在L1缓存可以avoided德斯替代政策,多达62%的L2缓存和98%的有限责任公司。
{"title":"Poluição de Cache e Thrashing em Aplicações Paralelas de Alto Desempenho","authors":"Arthur M. Krause, F. B. Moreira, Valéria Girelli, P. Navaux","doi":"10.5753/wscad.2019.8683","DOIUrl":"https://doi.org/10.5753/wscad.2019.8683","url":null,"abstract":"Conforme os processadores evoluem, o desempenho dos sistemas computacionais se torna cada vez mais limitado pelo tempo de acesso à memória. Caches são empregadas a fim de contornar este problema, mas é necessária uma gerência inteligente dos dados que são armazenados nelas para impedir que problemas como poluição e thrashing degradem seu desempenho. Neste trabalho é apresentada uma análise da poluição de cache e thrashing em aplicações paralelas de alto desempenho. Os resultados mostram que caches com maior associatividade sofrem mais com estes problemas. Até 28% dos cache misses na L1 poderiam ser evitados com uma política de substituição de cache mais inteligente, chegando a até 62% na cache L2 e 98% na LLC. As processors evolve, the performance of computer systems becomes increasingly limited by the memory access time. Caches are employed in order to get around this problem, but an intelligent management of the data that is stored in them is necessary to prevent problems such as pollution and thrashing from degrading their performance. In this work, an analysis of cache and thrashing pollution in high performance parallel applications is presented. The results show that caches with greater associativity suffer more from these problems. Up to 28% of cache misses in the L1 cache could be avoided with a smarter replacement policy, up to 62% in the L2 cache and 98% in the LLC.","PeriodicalId":117711,"journal":{"name":"Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)","volume":"46 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-11-08","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"115924688","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
Impulsionando Árvores Extremamente Aleatórias em Paralelo para a Classificação de Dados Textuais 并行驱动极端随机树对文本数据进行分类
Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8678
J. Pires, W. S. Martins
Os algoritmos de aprendizado usando conjuntos de árvores de decisão têm se destacado na classificação de documentos, mas não sem pagar um alto custo computacional. A exploração de paralelismo tem sido uma alternativa para viabilizar o uso destes algoritmos mais sofisticados. Neste trabalho propomos um algoritmo paralelo para acelerar a construção destas árvores de decisão utilizadas num método recente que demonstrou superar os classificadores de última geração para dados textuais. Resultados experimentais, utilizando bases de dados textuais padronizadas, mostram que o algoritmo implementado em uma arquitetura manycore (GPU) é capaz de reduzir o tempo de execução em até 26 vezes em comparação a um algoritmo sequencial equivalente.
使用决策树集的学习算法在文档分类中脱颖而出,但并非没有很高的计算成本。利用并行性已经成为使用这些更复杂算法的一种选择。在这项工作中,我们提出了一种并行算法来加速这些决策树的构建,该算法使用了最近的一种方法,证明了对文本数据的最新一代分类器的改进。使用标准化文本数据库的实验结果表明,在多核架构(GPU)上实现的算法比等效的顺序算法减少了26倍的执行时间。
{"title":"Impulsionando Árvores Extremamente Aleatórias em Paralelo para a Classificação de Dados Textuais","authors":"J. Pires, W. S. Martins","doi":"10.5753/wscad.2019.8678","DOIUrl":"https://doi.org/10.5753/wscad.2019.8678","url":null,"abstract":"Os algoritmos de aprendizado usando conjuntos de árvores de decisão têm se destacado na classificação de documentos, mas não sem pagar um alto custo computacional. A exploração de paralelismo tem sido uma alternativa para viabilizar o uso destes algoritmos mais sofisticados. Neste trabalho propomos um algoritmo paralelo para acelerar a construção destas árvores de decisão utilizadas num método recente que demonstrou superar os classificadores de última geração para dados textuais. Resultados experimentais, utilizando bases de dados textuais padronizadas, mostram que o algoritmo implementado em uma arquitetura manycore (GPU) é capaz de reduzir o tempo de execução em até 26 vezes em comparação a um algoritmo sequencial equivalente.","PeriodicalId":117711,"journal":{"name":"Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)","volume":"3 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-11-08","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"132735220","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 1
Aplicação da técnica Paramount Iteration nas aplicações BLAST e DNN-ROM na nuvem computacional 派拉蒙迭代技术在BLAST和DNN-ROM云应用中的应用
Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8671
William Tavares, Lucas Manuel Mazuquieri Reis, J. Brunetta, Edson Borin
O crescimento da tendência da computação em nuvem traz novos desafios para a comunidade de computação de alto desempenho. Por possuir um amplo número de recursos, predizer a melhor configuração para uma aplicação especı́fica é uma tarefa custosa e de alto consumo de tempo e principalmente financeiro. A técnica paramount iteration consiste em executar uma parcela da aplicação a fim de determinar o comportamento esperado neste ambiente computacional quando executado por completo. Este artigo valida e utiliza a técnica paramount iteration para as aplicações BLAST e DNN-ROM, sendo possı́vel determinar o melhor ambiente de computação em nuvem para estas.
云计算趋势的发展给高性能计算社区带来了新的挑战。拥有大量的资源,预测的最佳配置应用规范ı́它是一项昂贵的和高消耗的时间和主要金融。派拉蒙迭代技术包括执行应用程序的一部分,以确定在整个计算环境中预期的行为。本文验证和使用BLAST和DNN的派拉蒙迭代技术的应用对于作为具有ı́或者确定这些最好的云计算环境。
{"title":"Aplicação da técnica Paramount Iteration nas aplicações BLAST e DNN-ROM na nuvem computacional","authors":"William Tavares, Lucas Manuel Mazuquieri Reis, J. Brunetta, Edson Borin","doi":"10.5753/wscad.2019.8671","DOIUrl":"https://doi.org/10.5753/wscad.2019.8671","url":null,"abstract":"O crescimento da tendência da computação em nuvem traz novos desafios para a comunidade de computação de alto desempenho. Por possuir um amplo número de recursos, predizer a melhor configuração para uma aplicação especı́fica é uma tarefa custosa e de alto consumo de tempo e principalmente financeiro. A técnica paramount iteration consiste em executar uma parcela da aplicação a fim de determinar o comportamento esperado neste ambiente computacional quando executado por completo. Este artigo valida e utiliza a técnica paramount iteration para as aplicações BLAST e DNN-ROM, sendo possı́vel determinar o melhor ambiente de computação em nuvem para estas.","PeriodicalId":117711,"journal":{"name":"Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)","volume":"2004 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-11-08","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"127314101","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 1
Portabilidade e Eficiência do Método Fletcher de Aplicações Sísmicas em Arquiteturas Multicore e GPU 多核和GPU架构中地震应用的弗莱彻方法的可移植性和效率
Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8666
M. Serpa, P. J. Pavan, Jairo Panetta, A. Azambuja, A. Carissimi, P. Navaux
A simulação da propagação de ondas acústicas é a base das ferramentas de imagem sı́smica utilizadas pela indústria de petróleo e gás. Para realizar tais simulações, arquiteturas de CAD são empregadas, fornecendo resultados mais rápidos e com maior precisão a cada geração de processadores. Entretanto, para atingir alto desempenho nessas arquiteturas, vários desafios devem ser levados em consideração no momento do desenvolvimento da aplicação. Neste artigo, a Modelagem Fletcher foi otimizada para multicore e GPU e o desempenho, o consumo de energia e a eficiência energética de oito versões do código foram avaliados. Os resultados mostram que a versão CUDA tem o melhor desempenho e eficiência energética; no entanto, a versão OpenACC que tem a vantagem da portabilidade, tem um desempenho e degradação de eficiência energética de apenas 10 e 8% comparado com CUDA. ∗
模拟声波的传播形象的基础工具的ı́smica所使用的石油和天然气工业。为了执行这些模拟,使用CAD架构,为每一代处理器提供更快和更准确的结果。然而,为了在这些体系结构中实现高性能,在开发应用程序时必须考虑几个挑战。在本文中,针对多核和GPU优化了Fletcher建模,并评估了8个版本代码的性能、功耗和能源效率。结果表明,CUDA版本具有最佳的性能和能源效率;然而,具有可移植性优势的OpenACC版本的性能和能源效率下降仅为CUDA的10 - 8%。∗
{"title":"Portabilidade e Eficiência do Método Fletcher de Aplicações Sísmicas em Arquiteturas Multicore e GPU","authors":"M. Serpa, P. J. Pavan, Jairo Panetta, A. Azambuja, A. Carissimi, P. Navaux","doi":"10.5753/wscad.2019.8666","DOIUrl":"https://doi.org/10.5753/wscad.2019.8666","url":null,"abstract":"A simulação da propagação de ondas acústicas é a base das ferramentas de imagem sı́smica utilizadas pela indústria de petróleo e gás. Para realizar tais simulações, arquiteturas de CAD são empregadas, fornecendo resultados mais rápidos e com maior precisão a cada geração de processadores. Entretanto, para atingir alto desempenho nessas arquiteturas, vários desafios devem ser levados em consideração no momento do desenvolvimento da aplicação. Neste artigo, a Modelagem Fletcher foi otimizada para multicore e GPU e o desempenho, o consumo de energia e a eficiência energética de oito versões do código foram avaliados. Os resultados mostram que a versão CUDA tem o melhor desempenho e eficiência energética; no entanto, a versão OpenACC que tem a vantagem da portabilidade, tem um desempenho e degradação de eficiência energética de apenas 10 e 8% comparado com CUDA. ∗","PeriodicalId":117711,"journal":{"name":"Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)","volume":"1 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-11-08","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"123526325","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 1
A structural testing tool for MPI programs with loops 具有循环的MPI程序的结构测试工具
Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8686
Sílvia M. D. Diaz, P. L. D. Souza, S. Souza
Há uma alta demanda por programas paralelos corretos, principalmente devido às arquiteturas paralelas atuais, como clusters e processadores multi/many cores. O teste estrutural permite identificar defeitos pela cobertura de estruturas internas de programas paralelos. O não determinismo em programas paralelos traz novos desafios ao teste estrutural. Ele requer ferramentas e modelos de teste especı́ficos, capazes de cobrir primitivas de comunicação e sincronização com comportamentos dinâmicos, tais como os presentes em loops. Este artigo propõe uma nova ferramenta de software para o teste estrutural, com o objetivo de auxiliar testadores na revelação de defeitos desconhecidos associados a comunicação e presentes em estruturas de repetição de programas paralelos em C/MPI. Baseando-se na cobertura obtida, testadores podem escolher casos de teste especı́ficos e avaliar o progresso da atividade de teste. A ferramenta de teste proposta é validada com a ingestão de defeitos no código de um programa, e com a análise do suporte dado pela ferramenta para a geração de elementos requeridos e seleção de casos de teste. A ferramenta proposta automatiza parte da atividade de teste, especificamente a geração de elementos requeridos e guia a execução dos testes, reduzindo o tempo para a aplicação da atividade de teste. Nossos resultados mostram que a ferramenta de teste é capaz de revelar defeitos desconhecidos em primitivas de comunicação presentes em iterações de loops. There is a growing demand for correct parallel programs, mainly due to nowadays parallel architectures, such as clusters and multi/many-core processors. Structural testing allows the identification of defects by covering internal structures of parallel programs. Nondeterminism in parallel programs brings new challenges to the structural testing. It requires specific test model and tools, capable to cover communication and synchronization primitives with dynamic behaviors, such as those present inside of loops. This paper proposes a novel software tool for the structural testing, aiming to help testers in revealing defects associated to communication present in repetition structures of C/MPI parallel programs. Based on the obtained coverage, testers can choose specific test cases and evaluate the progress of the testing activity. We validate the proposed testing software tool by injecting a defect in a program code, and analyzing the support for generation of required elements and selection of test cases. ValiMPI tool automates part of the test activity, specifically the generation of required elements to guide test case selection, reducing the application cost of the testing activity. Our results demonstrate that the testing tool is capable to reveal unknown defects from communication in different loop iterations.
对正确的并行程序有很高的需求,这主要是由于当前的并行体系结构,如集群和多核处理器。结构测试允许通过并行程序覆盖内部结构来识别缺陷。并行程序的非确定性给结构测试带来了新的挑战。他需要测试工具和模型规范ı́领土,能够覆盖原始的通信和同步等动态行为的循环中。本文提出了一种新的结构测试软件工具,旨在帮助测试人员发现C/MPI并行程序重复结构中与通信相关的未知缺陷。基于先前报道,测试人员可以选择测试用例规范ı́做测试和评估活动的进展。提出的测试工具通过在程序代码中吸收缺陷来验证,并分析工具对生成所需元素和选择测试用例的支持。提出的工具自动化了部分测试活动,特别是所需元素的生成和指导测试的执行,减少了应用测试活动的时间。我们的结果表明,测试工具能够揭示循环迭代中通信原语中的未知缺陷。有不断增长的需求是正确的并行程序,主要由于nowadays并行体系结构,这样的集群和多/许多系列处理器。结构测试允许通过覆盖并行程序的内部结构来识别缺陷。Nondeterminism在并行程序的结构性测试带来了新的挑战。它需要特定的测试模型和工具,能够覆盖通信和同步原语与动态行为,例如那些存在于循环中的行为。本文提出了一种新的结构测试软件工具,旨在帮助测试人员揭示C/MPI并行程序重复结构中存在的通信缺陷。根据所取得的覆盖范围,测试人员可以选择具体的测试用例并评估测试活动的进展情况。我们通过在程序代码中注入缺陷和分析生成所需元素和选择测试用例的支持来验证所提议的测试软件工具。ValiMPI工具自动化是测试活动的一部分,特别是生成指导测试用例选择所需的元素,降低测试活动的应用成本。我们的结果表明,测试工具能够在不同的循环迭代中揭示通信的未知缺陷。
{"title":"A structural testing tool for MPI programs with loops","authors":"Sílvia M. D. Diaz, P. L. D. Souza, S. Souza","doi":"10.5753/wscad.2019.8686","DOIUrl":"https://doi.org/10.5753/wscad.2019.8686","url":null,"abstract":"Há uma alta demanda por programas paralelos corretos, principalmente devido às arquiteturas paralelas atuais, como clusters e processadores multi/many cores. O teste estrutural permite identificar defeitos pela cobertura de estruturas internas de programas paralelos. O não determinismo em programas paralelos traz novos desafios ao teste estrutural. Ele requer ferramentas e modelos de teste especı́ficos, capazes de cobrir primitivas de comunicação e sincronização com comportamentos dinâmicos, tais como os presentes em loops. Este artigo propõe uma nova ferramenta de software para o teste estrutural, com o objetivo de auxiliar testadores na revelação de defeitos desconhecidos associados a comunicação e presentes em estruturas de repetição de programas paralelos em C/MPI. Baseando-se na cobertura obtida, testadores podem escolher casos de teste especı́ficos e avaliar o progresso da atividade de teste. A ferramenta de teste proposta é validada com a ingestão de defeitos no código de um programa, e com a análise do suporte dado pela ferramenta para a geração de elementos requeridos e seleção de casos de teste. A ferramenta proposta automatiza parte da atividade de teste, especificamente a geração de elementos requeridos e guia a execução dos testes, reduzindo o tempo para a aplicação da atividade de teste. Nossos resultados mostram que a ferramenta de teste é capaz de revelar defeitos desconhecidos em primitivas de comunicação presentes em iterações de loops. There is a growing demand for correct parallel programs, mainly due to nowadays parallel architectures, such as clusters and multi/many-core processors. Structural testing allows the identification of defects by covering internal structures of parallel programs. Nondeterminism in parallel programs brings new challenges to the structural testing. It requires specific test model and tools, capable to cover communication and synchronization primitives with dynamic behaviors, such as those present inside of loops. This paper proposes a novel software tool for the structural testing, aiming to help testers in revealing defects associated to communication present in repetition structures of C/MPI parallel programs. Based on the obtained coverage, testers can choose specific test cases and evaluate the progress of the testing activity. We validate the proposed testing software tool by injecting a defect in a program code, and analyzing the support for generation of required elements and selection of test cases. ValiMPI tool automates part of the test activity, specifically the generation of required elements to guide test case selection, reducing the application cost of the testing activity. Our results demonstrate that the testing tool is capable to reveal unknown defects from communication in different loop iterations.","PeriodicalId":117711,"journal":{"name":"Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)","volume":"27 3 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-11-08","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"126053194","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 4
Exploring Opportunities for Performance Improvement in a Global Climate Model 探索全球气候模式性能改进的机会
Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8660
Rhuan E. C. Costa, C. Mendes
The Brazilian Earth System Model (BESM) is a Global Climate Model (GCM) developed by the Brazilian National Institute for Space Research (INPE). The main purpose of a GCM is to simulate Earth’s climate in a decadal or centennial scale. The simulations usually include representations of the main elements of the Earth, such as atmosphere, ocean, ice and land. Since its first release, BESM has provided support materials for contributions to the Intergovernmental Panel on Climate Change (IPCC). This paper evaluates BESM’s performance and explores optimization possibilities, aiming to speed up the model execution. Our study started with a detailed analysis that characterized the performance of BESM executions on hundreds of processors, which served to reveal the major performance bottlenecks. Next, we worked on schemes to mitigate some of those bottlenecks. The changes made so far resulted on performance gains up to a factor of 4 in some cases, when compared to the way it was previously being executed in production. We also describe ongoing work towards additional performance improvements. Despite presenting results only for BESM, our optimization techniques are applicable to other scientific, multi-physics models as well.
巴西地球系统模式(BESM)是由巴西国家空间研究所(INPE)开发的全球气候模式(GCM)。GCM的主要目的是模拟十年或百年尺度的地球气候。模拟通常包括地球的主要元素,如大气、海洋、冰和陆地。自第一次发布以来,BESM一直为政府间气候变化专门委员会(IPCC)的贡献提供支持材料。本文评估了BESM的性能并探索了优化的可能性,旨在加快模型的执行速度。我们的研究从详细分析开始,分析了在数百个处理器上执行BESM的性能特征,从而揭示了主要的性能瓶颈。接下来,我们制定了缓解这些瓶颈的方案。与之前在生产环境中执行的方式相比,到目前为止所做的更改在某些情况下导致性能提高了4倍。我们还描述了正在进行的其他性能改进工作。尽管目前的结果只适用于BESM,但我们的优化技术也适用于其他科学的多物理场模型。
{"title":"Exploring Opportunities for Performance Improvement in a Global Climate Model","authors":"Rhuan E. C. Costa, C. Mendes","doi":"10.5753/wscad.2019.8660","DOIUrl":"https://doi.org/10.5753/wscad.2019.8660","url":null,"abstract":"The Brazilian Earth System Model (BESM) is a Global Climate Model (GCM) developed by the Brazilian National Institute for Space Research (INPE). The main purpose of a GCM is to simulate Earth’s climate in a decadal or centennial scale. The simulations usually include representations of the main elements of the Earth, such as atmosphere, ocean, ice and land. Since its first release, BESM has provided support materials for contributions to the Intergovernmental Panel on Climate Change (IPCC). This paper evaluates BESM’s performance and explores optimization possibilities, aiming to speed up the model execution. Our study started with a detailed analysis that characterized the performance of BESM executions on hundreds of processors, which served to reveal the major performance bottlenecks. Next, we worked on schemes to mitigate some of those bottlenecks. The changes made so far resulted on performance gains up to a factor of 4 in some cases, when compared to the way it was previously being executed in production. We also describe ongoing work towards additional performance improvements. Despite presenting results only for BESM, our optimization techniques are applicable to other scientific, multi-physics models as well.","PeriodicalId":117711,"journal":{"name":"Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)","volume":"20 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-11-08","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"116634751","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
期刊
Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)
全部 Acc. Chem. Res. ACS Applied Bio Materials ACS Appl. Electron. Mater. ACS Appl. Energy Mater. ACS Appl. Mater. Interfaces ACS Appl. Nano Mater. ACS Appl. Polym. Mater. ACS BIOMATER-SCI ENG ACS Catal. ACS Cent. Sci. ACS Chem. Biol. ACS Chemical Health & Safety ACS Chem. Neurosci. ACS Comb. Sci. ACS Earth Space Chem. ACS Energy Lett. ACS Infect. Dis. ACS Macro Lett. ACS Mater. Lett. ACS Med. Chem. Lett. ACS Nano ACS Omega ACS Photonics ACS Sens. ACS Sustainable Chem. Eng. ACS Synth. Biol. Anal. Chem. BIOCHEMISTRY-US Bioconjugate Chem. BIOMACROMOLECULES Chem. Res. Toxicol. Chem. Rev. Chem. Mater. CRYST GROWTH DES ENERG FUEL Environ. Sci. Technol. Environ. Sci. Technol. Lett. Eur. J. Inorg. Chem. IND ENG CHEM RES Inorg. Chem. J. Agric. Food. Chem. J. Chem. Eng. Data J. Chem. Educ. J. Chem. Inf. Model. J. Chem. Theory Comput. J. Med. Chem. J. Nat. Prod. J PROTEOME RES J. Am. Chem. Soc. LANGMUIR MACROMOLECULES Mol. Pharmaceutics Nano Lett. Org. Lett. ORG PROCESS RES DEV ORGANOMETALLICS J. Org. Chem. J. Phys. Chem. J. Phys. Chem. A J. Phys. Chem. B J. Phys. Chem. C J. Phys. Chem. Lett. Analyst Anal. Methods Biomater. Sci. Catal. Sci. Technol. Chem. Commun. Chem. Soc. Rev. CHEM EDUC RES PRACT CRYSTENGCOMM Dalton Trans. Energy Environ. Sci. ENVIRON SCI-NANO ENVIRON SCI-PROC IMP ENVIRON SCI-WAT RES Faraday Discuss. Food Funct. Green Chem. Inorg. Chem. Front. Integr. Biol. J. Anal. At. Spectrom. J. Mater. Chem. A J. Mater. Chem. B J. Mater. Chem. C Lab Chip Mater. Chem. Front. Mater. Horiz. MEDCHEMCOMM Metallomics Mol. Biosyst. Mol. Syst. Des. Eng. Nanoscale Nanoscale Horiz. Nat. Prod. Rep. New J. Chem. Org. Biomol. Chem. Org. Chem. Front. PHOTOCH PHOTOBIO SCI PCCP Polym. Chem.
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1