Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)最新文献

英文中文

Compilação Dinâmica com Seleção Inteligente de Otimizações 动态编译与智能优化选择

Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)

Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8661

T. Camacho, Anderson Faustino, V. M. Rosario, Edson Borin

Sistemas que utilizam compilação dinâmica geram código alvo em tempo de execução, fazendo com que o tempo de compilação seja incluı́do no tempo total do sistema. Portanto, é crucial que o sistema de compilação dinâmico tenham ao mesmo tempo um baixo custo e seja capaz de gerar código de boa qualidade. Neste artigo apresentamos um sistema de aprendizado de máquina para seleção inteligente de otimizações que aprende quais as melhores sequências de otimizações para cada região de código compilado por um compilador dinâmico. O sistema foi implementado e testado em um tradutor dinâmico de binários, o OI-DBT, trazendo um ganho médio de desempenho de 26,32%.

系统使用动态编译生成目标代码在运行时,编译时间应包括ı́的系统的总时间。因此，动态编译系统具有低成本和生成高质量代码的能力是至关重要的。在本文中，我们提出了一个用于智能优化选择的机器学习系统，该系统学习由动态编译器编译的每个代码区域的最佳优化序列。该系统在动态二进制转换器hi -DBT中实现并测试，平均性能增益为26.32%。

引用次数: 1

Identification and Characterization of Memory Allocation Anomalies in High-Performance Computing Applications 高性能计算应用中内存分配异常的识别与表征

Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)

Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8652

A. A. Gomes, Enzo Molion, R. Souto, J. Méhaut

A memory allocation anomaly occurs when the allocation of a set of heap blocks imposes an unnecessary overhead on the execution of an application. In this paper, we propose a method for identifying, locating, characterizing and fixing allocation anomalies, and a tool for developers to apply the method. We experiment our method and tool with a numerical simulator aimed at approximating the solutions to partial differential equations using a finite element method. We show that taming allocation anomalies in this simulator reduces the memory footprint of its processes by 37.27% and the execution time by 16.52%. We conclude that the developer of high-performance computing applications can benefit from the method and tool during the software development cycle.

当一组堆块的分配给应用程序的执行带来不必要的开销时，就会出现内存分配异常。在本文中，我们提出了一种识别、定位、表征和修复分配异常的方法，并为开发人员提供了一个应用该方法的工具。我们用数值模拟器来实验我们的方法和工具，目的是用有限元法近似解偏微分方程。我们表明，在这个模拟器中驯服分配异常可以减少进程的内存占用37.27%，执行时间减少16.52%。我们得出结论，高性能计算应用程序的开发人员可以在软件开发周期中受益于该方法和工具。

引用次数: 1

Implementação e Avaliação do Algoritmo de Leilão nas Arquiteturas Xeon Phi 在Xeon Phi架构中实现和评估拍卖算法

Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)

Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8663

Alexandre C. Sena, Aline De Sousa Nascimento, Leandro A. J. Marzulo

O algoritmo de leilão tem sido amplamente utilizado para resolver problemas de várias áreas. Com seus vários núcleos de processamento e instruções vetorizadas de 512 bits, arquiteturas Xeon Phi tem potencial para aumentar consideravelmente o desempenho desse algoritmo. O objetivo deste trabalho é executar eficientemente o algoritmo de leilão nessas arquiteturas. As principais contribuições são: implementação de uma versão vetorizada; Análise de desempenho da versões vetorizada e paralela; comparação do desempenho entre Xeon e Xeon Phi. Resultados mostram que a versão vetorizada paralela é capaz de aproveitar todo o potencial das arquiteturas Xeon Phi, atingindo um desempenho até 750 vezes melhor do que a versão sequencial.

拍卖算法已被广泛应用于解决多个领域的问题。Xeon Phi架构具有多个处理核心和512位矢量指令，有潜力大大提高该算法的性能。这项工作的目标是在这些架构中有效地执行拍卖算法。主要贡献有:矢量版本的实现;矢量和并行版本的性能分析;Xeon与Xeon Phi的性能比较。结果表明，并行矢量版本能够充分利用Xeon Phi架构的潜力，达到比顺序版本高出750倍的性能。

引用次数: 0

Arquitetura Heterogênea CPU+FPGA para Análise Formal de Conceitos 用于形式化概念分析的异构CPU+FPGA架构

Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)

Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8659

Lucas Maciel, João Paulo Guedes Novais, M. Souza, Mark A. J. Song, H.C.F. Freitas

Algoritmos para análise formal de conceitos são amplamente estudados para extrair padrões de inteligência computacional e descoberta de conhecimento. No entanto, eles exigem processamento de alto desempenho devido às suas caracterı́sticas combinatórias. Neste trabalho, foi projetada e avaliada uma arquitetura heterogênea de CPU+FPGA para acelerar a extração de conceitos em grandes conjuntos de dados. Os resultados encontrados mostram um speedup de até 3,95x com até 120,63x mais operações por Watt em relação a uma versão executada em CPU. Em comparação com o software In-Close2-BDD, essa arquitetura é mais rápida (e.g. 4,06x) para vários conjuntos de dados, processando até 1 milhão de objetos.

概念形式分析的算法被广泛研究，以提取计算智能模式和知识发现。然而,他们需要高性能的处理字ı́组合信息。在这项工作中，设计和评估了一个异构CPU+FPGA架构，以加速概念提取在大数据集。结果显示，与在CPU上运行的版本相比，加速速度高达3.95倍，每瓦特的操作速度高达120.63倍。与In-Close2-BDD软件相比，这种架构对于多个数据集更快(例如4.06倍)，可以处理多达100万个对象。

引用次数: 1

Poluição de Cache e Thrashing em Aplicações Paralelas de Alto Desempenho 高性能并行应用中的缓存污染和破坏

Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)

Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8683

Arthur M. Krause, F. B. Moreira, Valéria Girelli, P. Navaux

Conforme os processadores evoluem, o desempenho dos sistemas computacionais se torna cada vez mais limitado pelo tempo de acesso à memória. Caches são empregadas a fim de contornar este problema, mas é necessária uma gerência inteligente dos dados que são armazenados nelas para impedir que problemas como poluição e thrashing degradem seu desempenho. Neste trabalho é apresentada uma análise da poluição de cache e thrashing em aplicações paralelas de alto desempenho. Os resultados mostram que caches com maior associatividade sofrem mais com estes problemas. Até 28% dos cache misses na L1 poderiam ser evitados com uma política de substituição de cache mais inteligente, chegando a até 62% na cache L2 e 98% na LLC. As processors evolve, the performance of computer systems becomes increasingly limited by the memory access time. Caches are employed in order to get around this problem, but an intelligent management of the data that is stored in them is necessary to prevent problems such as pollution and thrashing from degrading their performance. In this work, an analysis of cache and thrashing pollution in high performance parallel applications is presented. The results show that caches with greater associativity suffer more from these problems. Up to 28% of cache misses in the L1 cache could be avoided with a smarter replacement policy, up to 62% in the L2 cache and 98% in the LLC.

随着处理器的发展，计算系统的性能越来越受到内存访问时间的限制。使用缓存是为了解决这个问题，但是需要对存储在缓存中的数据进行智能管理，以防止污染和打乱等问题降低缓存的性能。在这项工作中，我们分析了高性能并行应用程序中的缓存和破坏污染。结果表明，具有较高联想性的缓存更容易受到这些问题的影响。通过更智能的缓存替换策略，L1上高达28%的缓存丢失可以避免，L2上高达62%，LLC上高达98%。随着处理器的发展，计算机系统的性能越来越受到内存访问时间的限制。使用缓存是为了解决这个问题，但需要对存储在缓存中的数据进行智能管理，以防止污染和破坏等问题，从而降低缓存的性能。本文对高性能并行应用中的缓存和破坏污染进行了分析。= =地理= =根据美国人口普查，这个县的面积为。高达28%的缓存任务在L1缓存可以avoided德斯替代政策,多达62%的L2缓存和98%的有限责任公司。

{"title":"Poluição de Cache e Thrashing em Aplicações Paralelas de Alto Desempenho","authors":"Arthur M. Krause, F. B. Moreira, Valéria Girelli, P. Navaux","doi":"10.5753/wscad.2019.8683","DOIUrl":"https://doi.org/10.5753/wscad.2019.8683","url":null,"abstract":"Conforme os processadores evoluem, o desempenho dos sistemas computacionais se torna cada vez mais limitado pelo tempo de acesso à memória. Caches são empregadas a fim de contornar este problema, mas é necessária uma gerência inteligente dos dados que são armazenados nelas para impedir que problemas como poluição e thrashing degradem seu desempenho. Neste trabalho é apresentada uma análise da poluição de cache e thrashing em aplicações paralelas de alto desempenho. Os resultados mostram que caches com maior associatividade sofrem mais com estes problemas. Até 28% dos cache misses na L1 poderiam ser evitados com uma política de substituição de cache mais inteligente, chegando a até 62% na cache L2 e 98% na LLC. As processors evolve, the performance of computer systems becomes increasingly limited by the memory access time. Caches are employed in order to get around this problem, but an intelligent management of the data that is stored in them is necessary to prevent problems such as pollution and thrashing from degrading their performance. In this work, an analysis of cache and thrashing pollution in high performance parallel applications is presented. The results show that caches with greater associativity suffer more from these problems. Up to 28% of cache misses in the L1 cache could be avoided with a smarter replacement policy, up to 62% in the L2 cache and 98% in the LLC.","PeriodicalId":117711,"journal":{"name":"Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)","volume":"46 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-11-08","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"115924688","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 0

Impulsionando Árvores Extremamente Aleatórias em Paralelo para a Classificação de Dados Textuais 并行驱动极端随机树对文本数据进行分类

Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)

Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8678

J. Pires, W. S. Martins

Os algoritmos de aprendizado usando conjuntos de árvores de decisão têm se destacado na classificação de documentos, mas não sem pagar um alto custo computacional. A exploração de paralelismo tem sido uma alternativa para viabilizar o uso destes algoritmos mais sofisticados. Neste trabalho propomos um algoritmo paralelo para acelerar a construção destas árvores de decisão utilizadas num método recente que demonstrou superar os classificadores de última geração para dados textuais. Resultados experimentais, utilizando bases de dados textuais padronizadas, mostram que o algoritmo implementado em uma arquitetura manycore (GPU) é capaz de reduzir o tempo de execução em até 26 vezes em comparação a um algoritmo sequencial equivalente.

使用决策树集的学习算法在文档分类中脱颖而出，但并非没有很高的计算成本。利用并行性已经成为使用这些更复杂算法的一种选择。在这项工作中，我们提出了一种并行算法来加速这些决策树的构建，该算法使用了最近的一种方法，证明了对文本数据的最新一代分类器的改进。使用标准化文本数据库的实验结果表明，在多核架构(GPU)上实现的算法比等效的顺序算法减少了26倍的执行时间。

引用次数: 1

Aplicação da técnica Paramount Iteration nas aplicações BLAST e DNN-ROM na nuvem computacional 派拉蒙迭代技术在BLAST和DNN-ROM云应用中的应用

Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)

Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8671

William Tavares, Lucas Manuel Mazuquieri Reis, J. Brunetta, Edson Borin

O crescimento da tendência da computação em nuvem traz novos desafios para a comunidade de computação de alto desempenho. Por possuir um amplo número de recursos, predizer a melhor configuração para uma aplicação especı́fica é uma tarefa custosa e de alto consumo de tempo e principalmente financeiro. A técnica paramount iteration consiste em executar uma parcela da aplicação a fim de determinar o comportamento esperado neste ambiente computacional quando executado por completo. Este artigo valida e utiliza a técnica paramount iteration para as aplicações BLAST e DNN-ROM, sendo possı́vel determinar o melhor ambiente de computação em nuvem para estas.

云计算趋势的发展给高性能计算社区带来了新的挑战。拥有大量的资源,预测的最佳配置应用规范ı́它是一项昂贵的和高消耗的时间和主要金融。派拉蒙迭代技术包括执行应用程序的一部分，以确定在整个计算环境中预期的行为。本文验证和使用BLAST和DNN的派拉蒙迭代技术的应用对于作为具有ı́或者确定这些最好的云计算环境。

引用次数: 1

Portabilidade e Eficiência do Método Fletcher de Aplicações Sísmicas em Arquiteturas Multicore e GPU 多核和GPU架构中地震应用的弗莱彻方法的可移植性和效率

Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)

Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8666

M. Serpa, P. J. Pavan, Jairo Panetta, A. Azambuja, A. Carissimi, P. Navaux

A simulação da propagação de ondas acústicas é a base das ferramentas de imagem sı́smica utilizadas pela indústria de petróleo e gás. Para realizar tais simulações, arquiteturas de CAD são empregadas, fornecendo resultados mais rápidos e com maior precisão a cada geração de processadores. Entretanto, para atingir alto desempenho nessas arquiteturas, vários desafios devem ser levados em consideração no momento do desenvolvimento da aplicação. Neste artigo, a Modelagem Fletcher foi otimizada para multicore e GPU e o desempenho, o consumo de energia e a eficiência energética de oito versões do código foram avaliados. Os resultados mostram que a versão CUDA tem o melhor desempenho e eficiência energética; no entanto, a versão OpenACC que tem a vantagem da portabilidade, tem um desempenho e degradação de eficiência energética de apenas 10 e 8% comparado com CUDA. ∗

模拟声波的传播形象的基础工具的ı́smica所使用的石油和天然气工业。为了执行这些模拟，使用CAD架构，为每一代处理器提供更快和更准确的结果。然而，为了在这些体系结构中实现高性能，在开发应用程序时必须考虑几个挑战。在本文中，针对多核和GPU优化了Fletcher建模，并评估了8个版本代码的性能、功耗和能源效率。结果表明，CUDA版本具有最佳的性能和能源效率;然而，具有可移植性优势的OpenACC版本的性能和能源效率下降仅为CUDA的10 - 8%。∗

引用次数: 1

A structural testing tool for MPI programs with loops 具有循环的MPI程序的结构测试工具

Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)

Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8686

Sílvia M. D. Diaz, P. L. D. Souza, S. Souza

Há uma alta demanda por programas paralelos corretos, principalmente devido às arquiteturas paralelas atuais, como clusters e processadores multi/many cores. O teste estrutural permite identificar defeitos pela cobertura de estruturas internas de programas paralelos. O não determinismo em programas paralelos traz novos desafios ao teste estrutural. Ele requer ferramentas e modelos de teste especı́ficos, capazes de cobrir primitivas de comunicação e sincronização com comportamentos dinâmicos, tais como os presentes em loops. Este artigo propõe uma nova ferramenta de software para o teste estrutural, com o objetivo de auxiliar testadores na revelação de defeitos desconhecidos associados a comunicação e presentes em estruturas de repetição de programas paralelos em C/MPI. Baseando-se na cobertura obtida, testadores podem escolher casos de teste especı́ficos e avaliar o progresso da atividade de teste. A ferramenta de teste proposta é validada com a ingestão de defeitos no código de um programa, e com a análise do suporte dado pela ferramenta para a geração de elementos requeridos e seleção de casos de teste. A ferramenta proposta automatiza parte da atividade de teste, especificamente a geração de elementos requeridos e guia a execução dos testes, reduzindo o tempo para a aplicação da atividade de teste. Nossos resultados mostram que a ferramenta de teste é capaz de revelar defeitos desconhecidos em primitivas de comunicação presentes em iterações de loops. There is a growing demand for correct parallel programs, mainly due to nowadays parallel architectures, such as clusters and multi/many-core processors. Structural testing allows the identification of defects by covering internal structures of parallel programs. Nondeterminism in parallel programs brings new challenges to the structural testing. It requires specific test model and tools, capable to cover communication and synchronization primitives with dynamic behaviors, such as those present inside of loops. This paper proposes a novel software tool for the structural testing, aiming to help testers in revealing defects associated to communication present in repetition structures of C/MPI parallel programs. Based on the obtained coverage, testers can choose specific test cases and evaluate the progress of the testing activity. We validate the proposed testing software tool by injecting a defect in a program code, and analyzing the support for generation of required elements and selection of test cases. ValiMPI tool automates part of the test activity, specifically the generation of required elements to guide test case selection, reducing the application cost of the testing activity. Our results demonstrate that the testing tool is capable to reveal unknown defects from communication in different loop iterations.

对正确的并行程序有很高的需求，这主要是由于当前的并行体系结构，如集群和多核处理器。结构测试允许通过并行程序覆盖内部结构来识别缺陷。并行程序的非确定性给结构测试带来了新的挑战。他需要测试工具和模型规范ı́领土,能够覆盖原始的通信和同步等动态行为的循环中。本文提出了一种新的结构测试软件工具，旨在帮助测试人员发现C/MPI并行程序重复结构中与通信相关的未知缺陷。基于先前报道,测试人员可以选择测试用例规范ı́做测试和评估活动的进展。提出的测试工具通过在程序代码中吸收缺陷来验证，并分析工具对生成所需元素和选择测试用例的支持。提出的工具自动化了部分测试活动，特别是所需元素的生成和指导测试的执行，减少了应用测试活动的时间。我们的结果表明，测试工具能够揭示循环迭代中通信原语中的未知缺陷。有不断增长的需求是正确的并行程序,主要由于nowadays并行体系结构,这样的集群和多/许多系列处理器。结构测试允许通过覆盖并行程序的内部结构来识别缺陷。Nondeterminism在并行程序的结构性测试带来了新的挑战。它需要特定的测试模型和工具，能够覆盖通信和同步原语与动态行为，例如那些存在于循环中的行为。本文提出了一种新的结构测试软件工具，旨在帮助测试人员揭示C/MPI并行程序重复结构中存在的通信缺陷。根据所取得的覆盖范围，测试人员可以选择具体的测试用例并评估测试活动的进展情况。我们通过在程序代码中注入缺陷和分析生成所需元素和选择测试用例的支持来验证所提议的测试软件工具。ValiMPI工具自动化是测试活动的一部分，特别是生成指导测试用例选择所需的元素，降低测试活动的应用成本。我们的结果表明，测试工具能够在不同的循环迭代中揭示通信的未知缺陷。

{"title":"A structural testing tool for MPI programs with loops","authors":"Sílvia M. D. Diaz, P. L. D. Souza, S. Souza","doi":"10.5753/wscad.2019.8686","DOIUrl":"https://doi.org/10.5753/wscad.2019.8686","url":null,"abstract":"Há uma alta demanda por programas paralelos corretos, principalmente devido às arquiteturas paralelas atuais, como clusters e processadores multi/many cores. O teste estrutural permite identificar defeitos pela cobertura de estruturas internas de programas paralelos. O não determinismo em programas paralelos traz novos desafios ao teste estrutural. Ele requer ferramentas e modelos de teste especı́ficos, capazes de cobrir primitivas de comunicação e sincronização com comportamentos dinâmicos, tais como os presentes em loops. Este artigo propõe uma nova ferramenta de software para o teste estrutural, com o objetivo de auxiliar testadores na revelação de defeitos desconhecidos associados a comunicação e presentes em estruturas de repetição de programas paralelos em C/MPI. Baseando-se na cobertura obtida, testadores podem escolher casos de teste especı́ficos e avaliar o progresso da atividade de teste. A ferramenta de teste proposta é validada com a ingestão de defeitos no código de um programa, e com a análise do suporte dado pela ferramenta para a geração de elementos requeridos e seleção de casos de teste. A ferramenta proposta automatiza parte da atividade de teste, especificamente a geração de elementos requeridos e guia a execução dos testes, reduzindo o tempo para a aplicação da atividade de teste. Nossos resultados mostram que a ferramenta de teste é capaz de revelar defeitos desconhecidos em primitivas de comunicação presentes em iterações de loops. There is a growing demand for correct parallel programs, mainly due to nowadays parallel architectures, such as clusters and multi/many-core processors. Structural testing allows the identification of defects by covering internal structures of parallel programs. Nondeterminism in parallel programs brings new challenges to the structural testing. It requires specific test model and tools, capable to cover communication and synchronization primitives with dynamic behaviors, such as those present inside of loops. This paper proposes a novel software tool for the structural testing, aiming to help testers in revealing defects associated to communication present in repetition structures of C/MPI parallel programs. Based on the obtained coverage, testers can choose specific test cases and evaluate the progress of the testing activity. We validate the proposed testing software tool by injecting a defect in a program code, and analyzing the support for generation of required elements and selection of test cases. ValiMPI tool automates part of the test activity, specifically the generation of required elements to guide test case selection, reducing the application cost of the testing activity. Our results demonstrate that the testing tool is capable to reveal unknown defects from communication in different loop iterations.","PeriodicalId":117711,"journal":{"name":"Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)","volume":"27 3 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-11-08","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"126053194","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 4

Exploring Opportunities for Performance Improvement in a Global Climate Model 探索全球气候模式性能改进的机会

Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)

Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8660

Rhuan E. C. Costa, C. Mendes

The Brazilian Earth System Model (BESM) is a Global Climate Model (GCM) developed by the Brazilian National Institute for Space Research (INPE). The main purpose of a GCM is to simulate Earth’s climate in a decadal or centennial scale. The simulations usually include representations of the main elements of the Earth, such as atmosphere, ocean, ice and land. Since its first release, BESM has provided support materials for contributions to the Intergovernmental Panel on Climate Change (IPCC). This paper evaluates BESM’s performance and explores optimization possibilities, aiming to speed up the model execution. Our study started with a detailed analysis that characterized the performance of BESM executions on hundreds of processors, which served to reveal the major performance bottlenecks. Next, we worked on schemes to mitigate some of those bottlenecks. The changes made so far resulted on performance gains up to a factor of 4 in some cases, when compared to the way it was previously being executed in production. We also describe ongoing work towards additional performance improvements. Despite presenting results only for BESM, our optimization techniques are applicable to other scientific, multi-physics models as well.

巴西地球系统模式(BESM)是由巴西国家空间研究所(INPE)开发的全球气候模式(GCM)。GCM的主要目的是模拟十年或百年尺度的地球气候。模拟通常包括地球的主要元素，如大气、海洋、冰和陆地。自第一次发布以来，BESM一直为政府间气候变化专门委员会(IPCC)的贡献提供支持材料。本文评估了BESM的性能并探索了优化的可能性，旨在加快模型的执行速度。我们的研究从详细分析开始，分析了在数百个处理器上执行BESM的性能特征，从而揭示了主要的性能瓶颈。接下来，我们制定了缓解这些瓶颈的方案。与之前在生产环境中执行的方式相比，到目前为止所做的更改在某些情况下导致性能提高了4倍。我们还描述了正在进行的其他性能改进工作。尽管目前的结果只适用于BESM，但我们的优化技术也适用于其他科学的多物理场模型。

{"title":"Exploring Opportunities for Performance Improvement in a Global Climate Model","authors":"Rhuan E. C. Costa, C. Mendes","doi":"10.5753/wscad.2019.8660","DOIUrl":"https://doi.org/10.5753/wscad.2019.8660","url":null,"abstract":"The Brazilian Earth System Model (BESM) is a Global Climate Model (GCM) developed by the Brazilian National Institute for Space Research (INPE). The main purpose of a GCM is to simulate Earth’s climate in a decadal or centennial scale. The simulations usually include representations of the main elements of the Earth, such as atmosphere, ocean, ice and land. Since its first release, BESM has provided support materials for contributions to the Intergovernmental Panel on Climate Change (IPCC). This paper evaluates BESM’s performance and explores optimization possibilities, aiming to speed up the model execution. Our study started with a detailed analysis that characterized the performance of BESM executions on hundreds of processors, which served to reveal the major performance bottlenecks. Next, we worked on schemes to mitigate some of those bottlenecks. The changes made so far resulted on performance gains up to a factor of 4 in some cases, when compared to the way it was previously being executed in production. We also describe ongoing work towards additional performance improvements. Despite presenting results only for BESM, our optimization techniques are applicable to other scientific, multi-physics models as well.","PeriodicalId":117711,"journal":{"name":"Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)","volume":"20 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-11-08","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"116634751","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 0

下一页尾页

类型

全部化学•材料生命科学医学物理工程技术环境•农林材料科学地球科学法学管理学化学环境科学与生态学计算机科学教育学经济学农林科学人文科学生物学数学物理与天体物理心理学综合性期刊其他工业工程理学历史学农学文学信息工程

数据库

全部 ACS Publications Elsevier ieeexplore Springer The Royal Society of Chemistry Wiley

期刊

Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)

全部 Acc. Chem. Res. ACS Applied Bio Materials ACS Appl. Electron. Mater. ACS Appl. Energy Mater. ACS Appl. Mater. Interfaces ACS Appl. Nano Mater. ACS Appl. Polym. Mater. ACS BIOMATER-SCI ENG ACS Catal. ACS Cent. Sci. ACS Chem. Biol. ACS Chemical Health & Safety ACS Chem. Neurosci. ACS Comb. Sci. ACS Earth Space Chem. ACS Energy Lett. ACS Infect. Dis. ACS Macro Lett. ACS Mater. Lett. ACS Med. Chem. Lett. ACS Nano ACS Omega ACS Photonics ACS Sens. ACS Sustainable Chem. Eng. ACS Synth. Biol. Anal. Chem. BIOCHEMISTRY-US Bioconjugate Chem. BIOMACROMOLECULES Chem. Res. Toxicol. Chem. Rev. Chem. Mater. CRYST GROWTH DES ENERG FUEL Environ. Sci. Technol. Environ. Sci. Technol. Lett. Eur. J. Inorg. Chem. IND ENG CHEM RES Inorg. Chem. J. Agric. Food. Chem. J. Chem. Eng. Data J. Chem. Educ. J. Chem. Inf. Model. J. Chem. Theory Comput. J. Med. Chem. J. Nat. Prod. J PROTEOME RES J. Am. Chem. Soc. LANGMUIR MACROMOLECULES Mol. Pharmaceutics Nano Lett. Org. Lett. ORG PROCESS RES DEV ORGANOMETALLICS J. Org. Chem. J. Phys. Chem. J. Phys. Chem. A J. Phys. Chem. B J. Phys. Chem. C J. Phys. Chem. Lett. Analyst Anal. Methods Biomater. Sci. Catal. Sci. Technol. Chem. Commun. Chem. Soc. Rev. CHEM EDUC RES PRACT CRYSTENGCOMM Dalton Trans. Energy Environ. Sci. ENVIRON SCI-NANO ENVIRON SCI-PROC IMP ENVIRON SCI-WAT RES Faraday Discuss. Food Funct. Green Chem. Inorg. Chem. Front. Integr. Biol. J. Anal. At. Spectrom. J. Mater. Chem. A J. Mater. Chem. B J. Mater. Chem. C Lab Chip Mater. Chem. Front. Mater. Horiz. MEDCHEMCOMM Metallomics Mol. Biosyst. Mol. Syst. Des. Eng. Nanoscale Nanoscale Horiz. Nat. Prod. Rep. New J. Chem. Org. Biomol. Chem. Org. Chem. Front. PHOTOCH PHOTOBIO SCI PCCP Polym. Chem.

﹀