首页 > 最新文献

Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)最新文献

英文 中文
Towards an Autonomous Framework for HPC Optimization: Using Machine Learning for Energy and Performance Modeling 迈向高性能计算优化的自主框架:使用机器学习进行能源和性能建模
Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8689
Vinícius Klôh, Matheus Gritz, B. Schulze, Mariza Ferro
Performance and energy efficiency are now critical concerns in high performance scientific computing. It is expected that requirements of the scientific problem should guide the orchestration of different techniques of energy saving, in order to improve the balance between energy consumption and application performance. To enable this balance, we propose the development of an autonomous framework to make this orchestration and present the ongoing research to this development, more specifically, focusing in the characterization of the scientific applications and the performance modeling tasks using Machine Learning.
性能和能源效率现在是高性能科学计算的关键问题。期望科学问题的要求能够指导不同节能技术的编排,以改善能耗与应用性能之间的平衡。为了实现这种平衡,我们建议开发一个自治框架来进行这种编排,并为这一发展提供正在进行的研究,更具体地说,关注科学应用的特征和使用机器学习的性能建模任务。
{"title":"Towards an Autonomous Framework for HPC Optimization: Using Machine Learning for Energy and Performance Modeling","authors":"Vinícius Klôh, Matheus Gritz, B. Schulze, Mariza Ferro","doi":"10.5753/wscad.2019.8689","DOIUrl":"https://doi.org/10.5753/wscad.2019.8689","url":null,"abstract":"Performance and energy efficiency are now critical concerns in high performance scientific computing. It is expected that requirements of the scientific problem should guide the orchestration of different techniques of energy saving, in order to improve the balance between energy consumption and application performance. To enable this balance, we propose the development of an autonomous framework to make this orchestration and present the ongoing research to this development, more specifically, focusing in the characterization of the scientific applications and the performance modeling tasks using Machine Learning.","PeriodicalId":117711,"journal":{"name":"Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)","volume":"1 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-11-08","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"129021195","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 4
O Impacto da Interconexão de Rede no Desempenho de Programas Paralelos 网络互连对并行程序性能的影响
Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8658
Anderson M. Maliszewski, Eduardo Roloff, Dalvan Griebler, P. Navaux
O desempenho de aplicações paralelas depende de dois componentes principais do ambiente; o poder de processamento e a interconexão de rede. Neste trabalho, foi avaliado o impacto de uma interconexão de alto desempenho em programas paralelos em um cluster homogêneo de servidores interconectados por Gigabit Ethernet 1 Gbps e InfiniBand FDR 56 Gbps. Foi realizada uma caracterização do NAS Parallel Benchmarks em relação à computação, comunicação e custo de execução em instâncias da Microsoft Azure. Os resultados mostraram que, em aplicações altamente dependentes de rede, o desempenho pode ser significativamente melhorado ao utilizar InfiniBand a um custo de execução melhor, mesmo com o preço superior da instância.
并行应用程序的性能取决于环境的两个主要组件;处理能力和网络互连。在这项工作中,我们评估了在一个由1gbps千兆以太网和56gbps InfiniBand FDR互连的同质服务器集群中并行程序的高性能互连的影响。在Microsoft Azure实例中对NAS并行基准进行了计算、通信和执行成本方面的描述。结果表明,在高度依赖网络的应用程序中,即使实例价格较高,使用InfiniBand也可以以更好的执行成本显著提高性能。
{"title":"O Impacto da Interconexão de Rede no Desempenho de Programas Paralelos","authors":"Anderson M. Maliszewski, Eduardo Roloff, Dalvan Griebler, P. Navaux","doi":"10.5753/wscad.2019.8658","DOIUrl":"https://doi.org/10.5753/wscad.2019.8658","url":null,"abstract":"O desempenho de aplicações paralelas depende de dois componentes principais do ambiente; o poder de processamento e a interconexão de rede. Neste trabalho, foi avaliado o impacto de uma interconexão de alto desempenho em programas paralelos em um cluster homogêneo de servidores interconectados por Gigabit Ethernet 1 Gbps e InfiniBand FDR 56 Gbps. Foi realizada uma caracterização do NAS Parallel Benchmarks em relação à computação, comunicação e custo de execução em instâncias da Microsoft Azure. Os resultados mostraram que, em aplicações altamente dependentes de rede, o desempenho pode ser significativamente melhorado ao utilizar InfiniBand a um custo de execução melhor, mesmo com o preço superior da instância.","PeriodicalId":117711,"journal":{"name":"Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)","volume":"141 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-11-08","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"122856317","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
Simulação de Redes Reguladoras de Genes com Lógica Booleana e Limiar em Plataformas Alto Desempenho 在高性能平台上用布尔逻辑和阈值模拟基因调节网络
Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8680
W. Rosa, H. P. Baranda, Michael Canesche, M. M. Menezes, Lucas Bragança, S.T.V. Magalhães, J. Nacif, Ricardo Ferreira
As redes reguladoras de genes são modelos baseados em grafos muito utilizadas para estudar o comportamento de células, processos de diferenciação celular ou tratamento e evolução de doenças. Uma rede pode ser implementada por um grafo com equações booleanas. Os algoritmos usados nas simulações das redes avaliam estas equações várias vezes ao longo da execução. Este artigo propõe um estudo das implementações em CPU, GPU e FPGA da operação básica que é o cálculo do próximo estado. Exploramos as técnicas de vetorização e paralelização com AVX e OpenMP para os processadores e uma nova arquitetura dinâmica é proposta para simplificar o uso das soluções com FPGA. Além do modelo booleano, mostramos como as redes podem ser transformadas em equações com somas de peso e limiares. Finalmente, 16 redes biológicas usados na literatura foram avaliadas, onde as implementações em CPU com OMP apresentaram uma aceleração de 3x em comparação com a CPU, as implementações em GPU foram em média 57,3x mais rápidas que a CPU e finalmente as implementações em FPGA foram em média 86,7x mais rápidas que a CPU. ∗
基因调节网络是一种基于图的模型,广泛用于研究细胞行为、细胞分化过程或疾病的治疗和进化。网络可以用布尔方程图来实现。在网络模拟中使用的算法在执行过程中多次评估这些方程。本文提出了在CPU、GPU和FPGA中实现下一状态计算的基本操作。我们利用AVX和OpenMP对处理器进行了矢量化和并行化,并提出了一种新的动态架构来简化FPGA解决方案的使用。除了布尔模型,我们还展示了如何将网络转换成具有权值和阈值的方程。终于十六生物用于网络文学进行了评估,实现在CPU和mto呈加速3 x相比CPU、GPU实现平均57,最快3 x的CPU,最后基于FPGA实现在平均86 x更快的CPU。∗
{"title":"Simulação de Redes Reguladoras de Genes com Lógica Booleana e Limiar em Plataformas Alto Desempenho","authors":"W. Rosa, H. P. Baranda, Michael Canesche, M. M. Menezes, Lucas Bragança, S.T.V. Magalhães, J. Nacif, Ricardo Ferreira","doi":"10.5753/wscad.2019.8680","DOIUrl":"https://doi.org/10.5753/wscad.2019.8680","url":null,"abstract":"As redes reguladoras de genes são modelos baseados em grafos muito utilizadas para estudar o comportamento de células, processos de diferenciação celular ou tratamento e evolução de doenças. Uma rede pode ser implementada por um grafo com equações booleanas. Os algoritmos usados nas simulações das redes avaliam estas equações várias vezes ao longo da execução. Este artigo propõe um estudo das implementações em CPU, GPU e FPGA da operação básica que é o cálculo do próximo estado. Exploramos as técnicas de vetorização e paralelização com AVX e OpenMP para os processadores e uma nova arquitetura dinâmica é proposta para simplificar o uso das soluções com FPGA. Além do modelo booleano, mostramos como as redes podem ser transformadas em equações com somas de peso e limiares. Finalmente, 16 redes biológicas usados na literatura foram avaliadas, onde as implementações em CPU com OMP apresentaram uma aceleração de 3x em comparação com a CPU, as implementações em GPU foram em média 57,3x mais rápidas que a CPU e finalmente as implementações em FPGA foram em média 86,7x mais rápidas que a CPU. ∗","PeriodicalId":117711,"journal":{"name":"Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)","volume":"42 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-11-08","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"131465726","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
Roofline Analysis and Performance Optimization of the MGB Hydrological Model MGB水文模型的顶线分析与性能优化
Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8657
H. Freitas, C. Mendes
The Roofline model gives insights about the performance behavior of applications bounded by either memory or processor limits, providing useful guidelines for performance improvements. This work uses the Roofline model on the analysis of the MGB model that simulates hydrological processes in largescale watersheds. Real-world input data are used to characterize the performance on two multicore architectures, one with only CPUs and one with CPUs/GPU. The MGB model performance is improved with optimizations for better memory use, and also with shared-memory (OpenMP) and GPU (OpenACC) parallelism. CPU performance achieves 42.51 % and 50.17 % of each system’s peak, whereas GPU performance is low due to overheads caused by the MGB model structure.
rooline模型提供了关于受内存或处理器限制的应用程序的性能行为的见解,为性能改进提供了有用的指导。本研究使用rooline模型对模拟大尺度流域水文过程的MGB模型进行分析。实际输入数据用于描述两个多核架构上的性能,一个只有cpu,一个有cpu /GPU。MGB模型的性能通过更好的内存使用优化,以及共享内存(OpenMP)和GPU (OpenACC)并行性得到改善。CPU性能达到每个系统峰值的42.51%和50.17%,而GPU性能由于MGB模型结构引起的开销而较低。
{"title":"Roofline Analysis and Performance Optimization of the MGB Hydrological Model","authors":"H. Freitas, C. Mendes","doi":"10.5753/wscad.2019.8657","DOIUrl":"https://doi.org/10.5753/wscad.2019.8657","url":null,"abstract":"The Roofline model gives insights about the performance behavior of applications bounded by either memory or processor limits, providing useful guidelines for performance improvements. This work uses the Roofline model on the analysis of the MGB model that simulates hydrological processes in largescale watersheds. Real-world input data are used to characterize the performance on two multicore architectures, one with only CPUs and one with CPUs/GPU. The MGB model performance is improved with optimizations for better memory use, and also with shared-memory (OpenMP) and GPU (OpenACC) parallelism. CPU performance achieves 42.51 % and 50.17 % of each system’s peak, whereas GPU performance is low due to overheads caused by the MGB model structure.","PeriodicalId":117711,"journal":{"name":"Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)","volume":"10 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-11-08","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"128438770","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 2
Performance Evaluation of Compiler Optimizations in FPGA Accelerators FPGA加速器中编译器优化的性能评估
Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8681
Gustavo Leite, A. Baldassin, G. Araújo, J. N. Amaral
With the increasing power wall in microprocessor design, engineers shifted their attention to heterogeneous architectures, wherein several classes of devices are used for computation. Among them are FPGAs which offer comparable performance to CPUs while consuming only a fraction of energy. Despite the increasing interest in these devices, programmability and performance engineering in FPGAs remain hard. This work presents an evaluation of the most prominent code transformations targeting FPGAs. More specifically, it studies the performance effect of unrolling loops, replicating compute units and transferring data using DMA in a matrix multiplication OpenCL kernel through an Intel® FPGA. The results indicate that these optimizations can achieve speedups up to 3.78× for a matrix multiplication application, and 412.5× speedup in data transfer.
随着微处理器设计中功率墙的增加,工程师们将注意力转移到异构架构上,其中几种类型的设备用于计算。其中包括fpga,它提供与cpu相当的性能,同时只消耗一小部分能量。尽管人们对这些器件越来越感兴趣,但fpga的可编程性和性能工程仍然很困难。这项工作提出了针对fpga的最突出的代码转换的评估。更具体地说,它研究了通过Intel®FPGA在矩阵乘法OpenCL内核中使用DMA展开循环、复制计算单元和传输数据的性能影响。结果表明,对于矩阵乘法应用程序,这些优化可以实现高达3.78倍的加速,在数据传输方面可以实现412.5倍的加速。
{"title":"Performance Evaluation of Compiler Optimizations in FPGA Accelerators","authors":"Gustavo Leite, A. Baldassin, G. Araújo, J. N. Amaral","doi":"10.5753/wscad.2019.8681","DOIUrl":"https://doi.org/10.5753/wscad.2019.8681","url":null,"abstract":"With the increasing power wall in microprocessor design, engineers shifted their attention to heterogeneous architectures, wherein several classes of devices are used for computation. Among them are FPGAs which offer comparable performance to CPUs while consuming only a fraction of energy. Despite the increasing interest in these devices, programmability and performance engineering in FPGAs remain hard. This work presents an evaluation of the most prominent code transformations targeting FPGAs. More specifically, it studies the performance effect of unrolling loops, replicating compute units and transferring data using DMA in a matrix multiplication OpenCL kernel through an Intel® FPGA. The results indicate that these optimizations can achieve speedups up to 3.78× for a matrix multiplication application, and 412.5× speedup in data transfer.","PeriodicalId":117711,"journal":{"name":"Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)","volume":"2007 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-11-08","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"114337472","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
Acelerando a construção de vocabulário e matriz de co-ocorrência em bases textuais 在文本数据库中加速词汇和共现矩阵的构建
Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8687
C. Barros, W. S. Martins
Duas tarefas que se destacam no pré-processamento de textos são a construção de um vocabulário e a geração de uma matriz de co-ocorrências de palavras. Para um volume de dados crescente e não estático, estas tarefas requerem um alto custo computacional. Neste artigo, exploramos paralelismo para viabilizar este processamento. Apresentamos algoritmos paralelos para extrair o vocabulário e produzir a matriz de co-ocorrências e implementamos os mesmos em arquiteturas multicore e manycore (GPU). Os experimentos, utilizando uma base de dados padrão, mostram que nossa implementação consegue ser até 21x mais rápida que uma solução estado-da-arte (GloVe) sequencial na realização das mesmas tarefas.
文本预处理中突出的两个任务是词汇的构建和单词共现矩阵的生成。对于不断增长的非静态数据量,这些任务需要很高的计算成本。在本文中,我们探索并行性来实现这种处理。我们提出了并行算法来提取词汇表并生成共现矩阵,并在多核和多核架构(GPU)中实现它们。使用标准数据库进行的实验表明,在执行相同任务时,我们的实现比最先进的顺序解决方案(手套)快21倍。
{"title":"Acelerando a construção de vocabulário e matriz de co-ocorrência em bases textuais","authors":"C. Barros, W. S. Martins","doi":"10.5753/wscad.2019.8687","DOIUrl":"https://doi.org/10.5753/wscad.2019.8687","url":null,"abstract":"Duas tarefas que se destacam no pré-processamento de textos são a construção de um vocabulário e a geração de uma matriz de co-ocorrências de palavras. Para um volume de dados crescente e não estático, estas tarefas requerem um alto custo computacional. Neste artigo, exploramos paralelismo para viabilizar este processamento. Apresentamos algoritmos paralelos para extrair o vocabulário e produzir a matriz de co-ocorrências e implementamos os mesmos em arquiteturas multicore e manycore (GPU). Os experimentos, utilizando uma base de dados padrão, mostram que nossa implementação consegue ser até 21x mais rápida que uma solução estado-da-arte (GloVe) sequencial na realização das mesmas tarefas.","PeriodicalId":117711,"journal":{"name":"Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)","volume":"27 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-11-08","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"127537598","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 1
Uma Interface de Programação de Aplicações para o BRKGA na plataforma CUDA CUDA平台上BRKGA的应用程序编程接口
Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8653
E. Xavier
Neste artigo apresentamos o desenvolvimento de uma Interface de Programação de Aplicações (IPA) para o framework Biased Random-Key Genetic Algorithms (BRKGA), para execução na plataforma CUDA. Nós comparamos a performance da IPA para BRKGA proposta contra uma IPA padrão para BRKGA proposta por Toso e Resende, e mostramos que mesmo usando uma GPGPU de entrada, é possı́vel obter um speedup significativo. No mesmo espı́rito da IPA padrão para BRKGA, nós desenvolvemos a nossa IPA de tal forma que os aspectos lógicos principais do BRKGA são considerados na IPA e pouco esforço de um usuário é requerido para usar a IPA para implementar soluções para problemas especı́ficos. O trabalho do usuário é a implementação de uma função dependente do problema, que dado um vetor de chaves aleatórias computa uma solução para o problema sendo considerado. Nós apresentamos um exemplo de uso da IPA para o problema Traveling Salesman Problem (TSP) e mostramos que a execução da IPA em CUDA é mais rápida do que a execução da IPA padrão mesmo quando esta última é executada em paralelo com uso de OpenMP com várias threads de processamento.
在本文中,我们提出了一个应用程序编程接口(IPA)的框架有偏随机键遗传算法(BRKGA),在CUDA平台上执行。我们比对异丙醇的性能为BRKGA命题提出Toso BRKGA IPA模式和雷森迪的话即使使用GPGPU的入口,就是ı́或者得到一个speedup有意义。特异功能在同一ı́跨BRKGA IPA的模式,我们的方式我们的异丙醇的主要逻辑方面BRKGA IPA被认为是在和大家的一个用户需要用异丙醇来实施解决问题的规范ı́领土。用户的工作是实现一个与问题相关的函数,给定一个随机键向量来计算正在考虑的问题的解。我们引入一个旅行推销员问题的例子使用异丙醇的问题(TSP),所实现的异丙醇在CUDA比异丙醇的执行标准即使最后是并行执行和处理多个线程使用OpenMP。
{"title":"Uma Interface de Programação de Aplicações para o BRKGA na plataforma CUDA","authors":"E. Xavier","doi":"10.5753/wscad.2019.8653","DOIUrl":"https://doi.org/10.5753/wscad.2019.8653","url":null,"abstract":"Neste artigo apresentamos o desenvolvimento de uma Interface de Programação de Aplicações (IPA) para o framework Biased Random-Key Genetic Algorithms (BRKGA), para execução na plataforma CUDA. Nós comparamos a performance da IPA para BRKGA proposta contra uma IPA padrão para BRKGA proposta por Toso e Resende, e mostramos que mesmo usando uma GPGPU de entrada, é possı́vel obter um speedup significativo. No mesmo espı́rito da IPA padrão para BRKGA, nós desenvolvemos a nossa IPA de tal forma que os aspectos lógicos principais do BRKGA são considerados na IPA e pouco esforço de um usuário é requerido para usar a IPA para implementar soluções para problemas especı́ficos. O trabalho do usuário é a implementação de uma função dependente do problema, que dado um vetor de chaves aleatórias computa uma solução para o problema sendo considerado. Nós apresentamos um exemplo de uso da IPA para o problema Traveling Salesman Problem (TSP) e mostramos que a execução da IPA em CUDA é mais rápida do que a execução da IPA padrão mesmo quando esta última é executada em paralelo com uso de OpenMP com várias threads de processamento.","PeriodicalId":117711,"journal":{"name":"Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)","volume":"37 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-11-08","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"126532932","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
Exploração do Projeto de Sistemas Baseados em GPU ciente de Dark Silicon 暗硅感知GPU系统的设计探索
Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8682
R. Santos, Rhayssa Sonohata, Casio Krebs, Daniela Catelan, Liana Duenha, Diego Segovia, M. T. Santos
Este artigo propõe uma infraestrutura para realizar a exploração do espaço de projetos de sistemas computacionais com unidades de processamento gráfico (GPUs) em conjunto com núcleos para processamento de propósito geral, com o objetivo de reduzir dark silicon e aumentar o desempenho do sistema em tempo de projeto. A ferramenta GPGPUSim de simulação e estimativa fı́sica de projeto foi estendida para realizar estimativas de dark silicon das plataformas de GPUs e, em seguida, foi integrada ao framework MultiExplorer. Adicionalmente, foi desenvolvida uma estratégia para estimativa de desempenho das plataformas de GPU e a modelagem de bases de dados que passaram a utilizar tanto núcleos de GPU quanto de plataformas multicore (núcleos de propósito geral), possibilitando, assim, a exploração do espaço de projeto buscando arquiteturas heterogêneas GP-GPUs.
本文提出了一种利用图形处理单元(gpu)和通用处理核心进行计算系统设计空间探索的基础设施,以减少暗硅,提高系统在设计时的性能。工具模拟和估计f GPGPUSimı́西卡项目被扩展来实现预期的黑硅的gpu平台,然后被集成到MultiExplorer程序框架。此外,开发了性能评估战略的GPU平台和数据库建模的使用GPU核心和通用多核平台(核),所以它们的太空探索项目寻求异构架构-GPUs大奖赛。
{"title":"Exploração do Projeto de Sistemas Baseados em GPU ciente de Dark Silicon","authors":"R. Santos, Rhayssa Sonohata, Casio Krebs, Daniela Catelan, Liana Duenha, Diego Segovia, M. T. Santos","doi":"10.5753/wscad.2019.8682","DOIUrl":"https://doi.org/10.5753/wscad.2019.8682","url":null,"abstract":"Este artigo propõe uma infraestrutura para realizar a exploração do espaço de projetos de sistemas computacionais com unidades de processamento gráfico (GPUs) em conjunto com núcleos para processamento de propósito geral, com o objetivo de reduzir dark silicon e aumentar o desempenho do sistema em tempo de projeto. A ferramenta GPGPUSim de simulação e estimativa fı́sica de projeto foi estendida para realizar estimativas de dark silicon das plataformas de GPUs e, em seguida, foi integrada ao framework MultiExplorer. Adicionalmente, foi desenvolvida uma estratégia para estimativa de desempenho das plataformas de GPU e a modelagem de bases de dados que passaram a utilizar tanto núcleos de GPU quanto de plataformas multicore (núcleos de propósito geral), possibilitando, assim, a exploração do espaço de projeto buscando arquiteturas heterogêneas GP-GPUs.","PeriodicalId":117711,"journal":{"name":"Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)","volume":"93 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-11-08","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"127067125","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 3
Coherence State Awareness in Way-Replacement Algorithms for Multicore Processors 多核处理器路径替换算法中的相干状态感知
Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8672
M. Souza, H. Freitas, F. Pétrot
Due to their performance impact on program execution, cache replacement policies in set-associative caches have been studied in great depth. Currently, most general-purpose processors are multi-core, and among the very large corpus of research, and much to our surprise, we could not find any replacement policy that does actually take into account information relative to the sharing state of a cache way. Therefore, in this paper we propose to add, as a complement to the classical time-based related way-selection algorithms, an information relative to the sharing state and number of sharers of the ways. We propose several approaches to take this information into account, and our simulations show that LRU-based replacement policies can be slightly improved by them. Also, a much simpler policy, MRU, can be improved by our strategies, presenting up to 3.5× more IPC than baseline, and up to 82% less cache misses.
由于对程序执行的性能影响,集关联缓存中的缓存替换策略已经得到了深入的研究。目前,大多数通用处理器都是多核的,在非常大的研究语料库中,令我们惊讶的是,我们找不到任何真正考虑到与缓存方式的共享状态相关的信息的替代策略。因此,在本文中,我们建议在经典的基于时间的相关路径选择算法的基础上,增加与路径的共享状态和共享者数量相关的信息。我们提出了几种方法来考虑这些信息,我们的模拟表明,基于lru的替换策略可以通过它们略微改进。此外,一个更简单的策略,MRU,可以通过我们的策略得到改进,IPC比基线高出3.5倍,缓存丢失减少82%。
{"title":"Coherence State Awareness in Way-Replacement Algorithms for Multicore Processors","authors":"M. Souza, H. Freitas, F. Pétrot","doi":"10.5753/wscad.2019.8672","DOIUrl":"https://doi.org/10.5753/wscad.2019.8672","url":null,"abstract":"Due to their performance impact on program execution, cache replacement policies in set-associative caches have been studied in great depth. Currently, most general-purpose processors are multi-core, and among the very large corpus of research, and much to our surprise, we could not find any replacement policy that does actually take into account information relative to the sharing state of a cache way. Therefore, in this paper we propose to add, as a complement to the classical time-based related way-selection algorithms, an information relative to the sharing state and number of sharers of the ways. We propose several approaches to take this information into account, and our simulations show that LRU-based replacement policies can be slightly improved by them. Also, a much simpler policy, MRU, can be improved by our strategies, presenting up to 3.5× more IPC than baseline, and up to 82% less cache misses.","PeriodicalId":117711,"journal":{"name":"Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)","volume":"40 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-11-08","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"115932538","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 1
Avaliação do Docker Volume e do NFS no Compartilhamento de Sistemas de Arquivos em Contêineres 评估容器文件系统共享中的Docker卷和NFS
Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8690
M. Schaefer, N. G. Bachiega, P. Souza, S. Bruschi
A atual demanda por poder computacional exige que novos recursos sejam utilizados para aumentar a eficiência energética, reduzir custos operacionais, reduzir espaço nos centros de dados e, consequentemente, diminuir a emissão de carbono na atmosfera. Neste contexto, contêineres representam uma tecnologia de virtualização que tentam resolver essas demandas. Dessa forma, avaliar seu desempenho é fundamental para sua adoção em larga escala. Este artigo investiga, através de um experimento, o desempenho em termos de tempo de resposta de volumes para contêineres Docker Volume e NFS, visto que tal análise não foi encontrada nos trabalhos relacionados. Os resultados mostram que há diferença significativa entre todos os testes com o Docker Volume e o NFS assíncrono e alguns diferenças significativas com o NFS síncrono.
当前对计算能力的需求要求使用新的资源来提高能源效率,降低运营成本,减少数据中心的空间,从而减少大气中的碳排放。在这种情况下,容器代表了一种试图解决这些需求的虚拟化技术。因此,评估它们的性能对于大规模采用它们至关重要。本文通过实验研究了Docker卷和NFS容器在响应时间方面的性能,因为在相关工作中没有发现这种分析。结果表明,使用Docker Volume和异步NFS的所有测试存在显著差异,使用同步NFS的测试也存在一些显著差异。
{"title":"Avaliação do Docker Volume e do NFS no Compartilhamento de Sistemas de Arquivos em Contêineres","authors":"M. Schaefer, N. G. Bachiega, P. Souza, S. Bruschi","doi":"10.5753/wscad.2019.8690","DOIUrl":"https://doi.org/10.5753/wscad.2019.8690","url":null,"abstract":"A atual demanda por poder computacional exige que novos recursos sejam utilizados para aumentar a eficiência energética, reduzir custos operacionais, reduzir espaço nos centros de dados e, consequentemente, diminuir a emissão de carbono na atmosfera. Neste contexto, contêineres representam uma tecnologia de virtualização que tentam resolver essas demandas. Dessa forma, avaliar seu desempenho é fundamental para sua adoção em larga escala. Este artigo investiga, através de um experimento, o desempenho em termos de tempo de resposta de volumes para contêineres Docker Volume e NFS, visto que tal análise não foi encontrada nos trabalhos relacionados. Os resultados mostram que há diferença significativa entre todos os testes com o Docker Volume e o NFS assíncrono e alguns diferenças significativas com o NFS síncrono.","PeriodicalId":117711,"journal":{"name":"Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)","volume":"47 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-11-08","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"129524703","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 1
期刊
Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)
全部 Acc. Chem. Res. ACS Applied Bio Materials ACS Appl. Electron. Mater. ACS Appl. Energy Mater. ACS Appl. Mater. Interfaces ACS Appl. Nano Mater. ACS Appl. Polym. Mater. ACS BIOMATER-SCI ENG ACS Catal. ACS Cent. Sci. ACS Chem. Biol. ACS Chemical Health & Safety ACS Chem. Neurosci. ACS Comb. Sci. ACS Earth Space Chem. ACS Energy Lett. ACS Infect. Dis. ACS Macro Lett. ACS Mater. Lett. ACS Med. Chem. Lett. ACS Nano ACS Omega ACS Photonics ACS Sens. ACS Sustainable Chem. Eng. ACS Synth. Biol. Anal. Chem. BIOCHEMISTRY-US Bioconjugate Chem. BIOMACROMOLECULES Chem. Res. Toxicol. Chem. Rev. Chem. Mater. CRYST GROWTH DES ENERG FUEL Environ. Sci. Technol. Environ. Sci. Technol. Lett. Eur. J. Inorg. Chem. IND ENG CHEM RES Inorg. Chem. J. Agric. Food. Chem. J. Chem. Eng. Data J. Chem. Educ. J. Chem. Inf. Model. J. Chem. Theory Comput. J. Med. Chem. J. Nat. Prod. J PROTEOME RES J. Am. Chem. Soc. LANGMUIR MACROMOLECULES Mol. Pharmaceutics Nano Lett. Org. Lett. ORG PROCESS RES DEV ORGANOMETALLICS J. Org. Chem. J. Phys. Chem. J. Phys. Chem. A J. Phys. Chem. B J. Phys. Chem. C J. Phys. Chem. Lett. Analyst Anal. Methods Biomater. Sci. Catal. Sci. Technol. Chem. Commun. Chem. Soc. Rev. CHEM EDUC RES PRACT CRYSTENGCOMM Dalton Trans. Energy Environ. Sci. ENVIRON SCI-NANO ENVIRON SCI-PROC IMP ENVIRON SCI-WAT RES Faraday Discuss. Food Funct. Green Chem. Inorg. Chem. Front. Integr. Biol. J. Anal. At. Spectrom. J. Mater. Chem. A J. Mater. Chem. B J. Mater. Chem. C Lab Chip Mater. Chem. Front. Mater. Horiz. MEDCHEMCOMM Metallomics Mol. Biosyst. Mol. Syst. Des. Eng. Nanoscale Nanoscale Horiz. Nat. Prod. Rep. New J. Chem. Org. Biomol. Chem. Org. Chem. Front. PHOTOCH PHOTOBIO SCI PCCP Polym. Chem.
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1