Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)最新文献

英文中文

Impacto do Prefetcher na Precisão de Simulações de Arquiteturas Paralelas 预取器对并行架构模拟精度的影响

Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)

Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8684

Valéria Girelli, F. B. Moreira, M. Serpa, P. Navaux

Em arquitetura de computadores, o uso de simuladores é predominante em todos os grupos de pesquisa, com uma ampla variedade de abordagens e implementações.No entanto, falta na literatura uma análise detalhada de simuladores de arquiteturas paralelas que suportem workloads de Computação de Alto Desempenho (High Performance Computing - HPC). Este trabalho busca analisar o impacto do prefetcher na precisão da simulação paralela realizada pelo ZSim, um simulador de arquiteturas paralelas. Observamos que, devido à falta de modelagem de prefetcher, as estatı́sticas da hierarquia de memória apresentam comportamentos imprecisos, com erros de até 2.600%.

在计算机体系结构中，模拟器的使用在所有的研究小组中占主导地位，有各种各样的方法和实现。然而，文献中缺乏对支持高性能计算(HPC)工作负载的并行架构模拟器的详细分析。本文分析了预取器对并行架构模拟器ZSim并行仿真精度的影响。宇宙的,由于缺乏prefetcher建模、统计的ı́信息层次结构的记忆行为错误的不准确的,甚至是2600%。

引用次数: 1

Estudo de viabilidade do uso de Raspberry PI na Névoa

Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)

Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8669

G. Silva, Nelson Lago, G. H. Cavalheiro, A. Goldman

Em função da necessidade de se ter baixa latência em muitas aplicações e visando uma melhor usabilidade para o usuário final, nasce o paradigma de névoa, que traz o processamento ou pré processamento para um local mais próximo ao usuário. Buscando reduzir o consumo energético, optou-se pelo uso de dispositivos de baixa capacidade, dado seu propósito geral, baixo consumo e custo, além da disponibilidade no mercado. Este trabalho tem como objetivo investigar a Raspberry Pi 3 como dispositivo para névoa, avaliando seu uso através do benchmark NDBench realizando operações de escrita e leitura em um banco de dados NoSQL. Os resultados indicam a viabilidade da Raspberry em cenários onde são esperadas em torno de até 1.200 operações por segundo com latência média de 500ms, o que contempla uma grande quantidade de aplicações e demonstra que a Raspberry pode ser usada em ambientes de nuvem e névoa.

由于许多应用程序需要低延迟，并旨在为最终用户提供更好的可用性，雾范例诞生了，它将处理或预处理带到离用户更近的位置。为了减少能源消耗，我们选择了低容量设备，考虑到它们的一般用途、低消耗和低成本，以及市场上的可用性。本研究旨在研究树莓派3作为雾设备，通过基准NDBench在NoSQL数据库中执行读写操作来评估其使用情况。结果表明，在平均延迟500ms的情况下，覆盆子在每秒1200次操作的情况下是可行的，这考虑了大量的应用程序，并表明覆盆子可以在云和雾环境中使用。

引用次数: 0

OpenMP and StarPU Abreast: the Impact of Runtime in Task-Based Block QR Factorization Performance OpenMP和StarPU并行:运行时对基于任务的块QR分解性能的影响

Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)

Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8654

M. Miletto, L. Schnorr

Directed Acyclic Graph (DAG) is a high-level abstraction to describe the activities of parallel applications. A DAG contains tasks (nodes) and dependencies (edges) in the task-based programming paradigm. Application performance depends on the choices of the runtime system. Our work intends to evaluate and compare the performance of three different runtime systems, GCC/libgomp, LLVM/libomp, and StarPU for a task-based dense block QR factorization. The obtained results show that while GCC/libgomp achieves up to 5.4% better performance in the best case, it has scalability problems for finegrain problems with large DAGs. LLVM/libomp and StarPU are more scalable, and StarPU is much faster in task creation and submission than the other runtimes.

有向无环图(DAG)是描述并行应用程序活动的高级抽象。DAG在基于任务的编程范式中包含任务(节点)和依赖项(边)。应用程序性能取决于运行时系统的选择。我们的工作旨在评估和比较三种不同运行时系统(GCC/libgomp, LLVM/libomp和StarPU)在基于任务的密集块QR分解中的性能。所获得的结果表明，虽然GCC/libgomp在最佳情况下的性能提高了5.4%，但对于具有大dag的细粒度问题，它存在可伸缩性问题。LLVM/libomp和StarPU具有更高的可扩展性，并且StarPU在任务创建和提交方面比其他运行时要快得多。

引用次数: 4

Geração procedural de mapas dungeon crawl baseada em gramática de grafos para uso em jogos roguelike 用于roguelike游戏的基于图语法的地下城爬行地图的程序生成

Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)

Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8668

R. Souza, B. Junior, Luciana Foss, G. Cavalheiro, S. Cavalheiro

Este artigo apresenta a concepção e a implementação de um motor de geração procedural de mapas, baseado em gramáticas de grafos, para jogos do tipo roguelike. A implementação realizada explora a programação multitarefa sobre arquiteturas multiprocessadas, viabilizando o uso desta ferramenta em tempo de execução, tendo em vista o alto custo computacional decorrente do uso de gramática de grafos. Os resultados obtidos foram muito positivos, tanto no que se refere ao ganho de desempenho quanto no sucesso em geração de mapas, viabilizando o uso dessa técnica de geração de mapas dungeon crawl em tempo de execução. Estes resultados são ilustrados com a apresentação da instanciação de um jogo e de uma discussão sobre o desempenho da execução paralela em um computador com configuração gamer.

本文提出了一个基于图语法的程序地图生成引擎的设计和实现，用于roguelike类型的游戏。该实现探索了多处理体系结构上的多任务编程，允许在运行时使用该工具，考虑到使用图语法的高计算成本。获得的结果是非常积极的，无论是在性能增益和地图生成的成功方面，允许使用这种技术生成地下城爬行地图在运行时。这些结果通过游戏实例化的介绍和在具有玩家配置的计算机上并行执行的性能讨论来说明。

引用次数: 0

Upstream: Exposing Performance Information from Cloud Providers to Tenants 上游:向租户公开来自云提供商的性能信息

Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)

Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8673

Adriano Lange, M. Sunyé, L. C. E. Bona

Infrastructure-as-a-Service (IaaS) is a widely adopted cloud computing paradigm due to its flexibility and competitive prices. To improve resource efficiency, most IaaS providers consolidate several tenants in the same virtualization server, which usually incurs variable performance experiences. In this paper, we evaluate the CPU time received by tenants’ virtual machines (VMs). We present a model that estimates the probability of a VM to receive, at least, a determined fraction of CPU time using limited information about the host and VMs running on it. We constructed this model using a series of experiments with different numbers of CPU cores and co-located VMs.

基础设施即服务(IaaS)由于其灵活性和具有竞争力的价格，是一种被广泛采用的云计算范式。为了提高资源效率，大多数IaaS提供商在同一个虚拟化服务器中合并多个租户，这通常会导致不同的性能体验。在本文中，我们评估了租户的虚拟机(vm)收到的CPU时间。我们提出了一个模型，该模型使用有关主机和在其上运行的虚拟机的有限信息来估计虚拟机接收至少确定部分CPU时间的概率。我们使用不同CPU核数和共置vm的一系列实验来构建该模型。

引用次数: 0

ViViD Cuckoo Hash: Fast Cuckoo Table Building in SIMD 生动的杜鹃哈希:快速杜鹃表建设在SIMD

Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)

Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8676

Flaviene Scheidt de Cristo, E. Almeida, M. Alves

Hash Tables play a lead role in modern databases systems during the execution of joins, grouping, indexing, removal of duplicates, and accelerating point queries. In this paper, we focus on Cuckoo Hash, a technique to deal with collisions guaranteeing that data is retrieved with at most two memory access in the worst case. However, building the Cuckoo Table with the current scalar methods is inefficient when treating the eviction of the colliding keys. We propose a Vertically Vectorized data-dependent method to build Cuckoo Tables - ViViD Cuckoo Hash. Our method exploits data parallelism with AVX-512 SIMD instructions and transforms control dependencies into data dependencies to make the build process faster with an overall reduction in response time by 90% compared to the scalar Cuckoo Hash.

在现代数据库系统中，哈希表在执行连接、分组、索引、删除重复项和加速点查询时起着主导作用。在本文中，我们关注Cuckoo Hash，这是一种处理碰撞的技术，保证在最坏的情况下最多两次内存访问即可检索数据。然而，在处理碰撞键的移除时，使用当前的标量方法构建Cuckoo Table是低效的。我们提出了一种垂直向量化的基于数据的杜鹃表构建方法——ViViD杜鹃哈希。我们的方法利用AVX-512 SIMD指令的数据并行性，并将控制依赖项转换为数据依赖项，使构建过程更快，与标量Cuckoo Hash相比，总体响应时间减少了90%。

引用次数: 5

High performance computing architectures analysis for gene networks inference 基因网络推理的高性能计算架构分析

Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)

Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8656

A. G. Marco, M. Gazziro, David Martins

Modeling and inference of biological systems are an important field in computer science, presenting strong interdisciplinary aspects. In this context, the inference of gene regulatory networks and the analysis of their dynamics generated by their transition functions are important issues that demand substantial computational power. Because the algorithms that return the optimal solution have an exponential time cost, such algorithms only work for gene networks with only dozens of genes. However realistic gene networks present hundreds to thousands of genes, with some genes being hubs, i.e., their number of predictor genes are usually much higher than average. Therefore there is a need to develop ways to speed up the gene networks inference. This paper presents a benchmark involving GPUs and FPGAs to infer gene networks, analysing processing time, hardware cost acquisition, energy consumption and programming complexity. Overall Titan XP GPU achieved the best performance, but with a large cost regarding acquisition price when compared to R9 Nano GPU and DE1-SOC FPGA. In its turn, R9 Nano GPU presented the best cost-benefit regarding performance, acquisition price, energy consumption, and programming complexity, although DE1-SOC FPGA presented much smaller energy consumption.

生物系统的建模和推理是计算机科学的一个重要领域，具有很强的跨学科特征。在这种情况下，基因调控网络的推断和由其转换函数产生的动态分析是需要大量计算能力的重要问题。因为返回最优解的算法有一个指数级的时间成本，这样的算法只适用于只有几十个基因的基因网络。然而，现实的基因网络呈现出成百上千个基因，其中一些基因是枢纽，也就是说，它们的预测基因数量通常比平均水平高得多。因此，有必要研究加快基因网络推理的方法。本文提出了一个涉及gpu和fpga的基准来推断基因网络，分析处理时间、硬件成本获取、能耗和编程复杂性。总体而言，Titan XP GPU实现了最佳性能，但与R9 Nano GPU和DE1-SOC FPGA相比，在购买价格方面成本较高。反过来，R9纳米GPU在性能、获取价格、能耗和编程复杂性方面表现出最佳的成本效益，尽管DE1-SOC FPGA的能耗要小得多。

{"title":"High performance computing architectures analysis for gene networks inference","authors":"A. G. Marco, M. Gazziro, David Martins","doi":"10.5753/wscad.2019.8656","DOIUrl":"https://doi.org/10.5753/wscad.2019.8656","url":null,"abstract":"Modeling and inference of biological systems are an important field in computer science, presenting strong interdisciplinary aspects. In this context, the inference of gene regulatory networks and the analysis of their dynamics generated by their transition functions are important issues that demand substantial computational power. Because the algorithms that return the optimal solution have an exponential time cost, such algorithms only work for gene networks with only dozens of genes. However realistic gene networks present hundreds to thousands of genes, with some genes being hubs, i.e., their number of predictor genes are usually much higher than average. Therefore there is a need to develop ways to speed up the gene networks inference. This paper presents a benchmark involving GPUs and FPGAs to infer gene networks, analysing processing time, hardware cost acquisition, energy consumption and programming complexity. Overall Titan XP GPU achieved the best performance, but with a large cost regarding acquisition price when compared to R9 Nano GPU and DE1-SOC FPGA. In its turn, R9 Nano GPU presented the best cost-benefit regarding performance, acquisition price, energy consumption, and programming complexity, although DE1-SOC FPGA presented much smaller energy consumption.","PeriodicalId":117711,"journal":{"name":"Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)","volume":"83 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-11-08","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"116099638","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 0

CUDA-Parttree: A Multiple Sequence Alignment Parallel Strategy in GPU CUDA-Parttree: GPU中的多序列对齐并行策略

Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)

Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8662

Caina Razzolini, A. Melo

In this paper, we propose and evaluate CUDA-Parttree, a parallel strategy that executes the first phase of the MAFFT Parttree Multiple Sequence Alignment tool (distance matrix calculation with 6mers) on GPU. When compared to Parttree, CUDA-Parttree obtained a speedup of 6.10x on the distance matrix calculation for the Cyclodex gly tran (50, 280 sequences) set, reducing the execution time from 33.94s to 5.57s. Including data conversion and movement to/from the GPU, the speedup was 2.59x. With the sequence set Syn 100000 (100, 000 sequences), a speedup of 4.46x was attained, reducing execution time from 209.54s to 47.00s.

在本文中，我们提出并评估了CUDA-Parttree，这是一种并行策略，它在GPU上执行matfft Parttree多序列对齐工具的第一阶段(使用6mers进行距离矩阵计算)。与Parttree相比，CUDA-Parttree在Cyclodex gly tran(50,280个序列)集的距离矩阵计算上获得了6.10倍的加速，将执行时间从33.94s减少到5.57s。包括数据转换和GPU之间的移动，加速速度为2.59倍。将序列设置为Syn 100000(100,000个序列)，可以获得4.46倍的加速，将执行时间从209.54秒减少到47.00秒。

引用次数: 1

Análise de viabilidade de ferramenta para correção híbrida de sequências genômicas em ambiente de memória compartilhada com FPGA 利用FPGA在共享内存环境中进行基因组序列混合校正的工具可行性分析

Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)

Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8688

F. Almeida, L. Sato, Edson T. Midorikawa

A análise do genoma compreende pesquisas com amplo escopo, com foco em doenças e em tratamento das mesmas. Em apoio a tais atividades, pesquisadores valem-se de ferramentas computacionais para montagens de genomas. Este trabalho apresenta uma análise de viabilidade de uma ferramenta para correção hı́brida de sequências genômicas, etapa esta necessária para a montagem do genoma. É proposta uma arquitetura para ambientes heterogêneos, com implementação feita em CPU e uma placa FPGA. Os resultados obtidos no levantamento dos dados teóricos e práticos apontam que a implementação com o acelerador em hardware possui ganhos de desempenho de até cerca de 19 vezes em relação à versão sequencial, podendo aumentar a depender da tecnologia de comunicação utilizada.

基因组分析包括范围广泛的研究，重点是疾病及其治疗。为了支持这些活动，研究人员使用计算工具进行基因组组装。这份工作提供了可行性分析的工具校正点ı́那日)的基因组序列,这一步需要切的基因组。提出了一种异构环境体系结构，实现在CPU和FPGA板上。从理论和实践数据中获得的结果表明，与顺序版本相比，硬件加速器实现的性能增益高达19倍，并可能根据所使用的通信技术而增加。

引用次数: 0

Um Sistema Heterogêneo Embarcado para Aceleração de Interseção Raio-Triângulo 一种用于半径三角形交点加速度的非均匀嵌入式系统

Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)

Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8685

Adrianno Sampaio, Alexandre C. Sena, Alex Nery

A renderização de imagens é uma importante área da computação gráfica, sendo aplicável a diversas áreas como jogos, visualização arquitetônica, cinema, entre outras. Atualmente a renderização de imagens realistas é um dos principais desafios, especialmente para aplicações em tempo real, sendo a maior dificuldade balancear entre realismo e desempenho computacional. O método de Ray-Tracing tem sido um dos principais algoritmos utilizados para a geração de imagens realistas por sua naturalidade ao modelar fenômenos ópticos com precisão, porém sua desvantagem é o seu alto custo computacional. Diversos algoritmos e plataformas de hardware têm sido utilizados até o momento para melhorar o desempenho deste algoritmo, porém soluções com arquiteturas baseadas em Many-core ou GPUs possuem um alto consumo energético apesar do desempenho obtido. Assim, o objetivo deste trabalho é propor um sistema heterogêneo CPU-FPGA em uma placa embarcada de baixo custo energético, e analisar seu ganho de desempenho, escalabilidade e balanceamento de carga entre recursos computacionais renderizando diferentes tamanhos de imagens.

图像渲染是计算机图形学的一个重要领域，适用于游戏、建筑可视化、电影等多个领域。目前，逼真的图像渲染是主要的挑战之一，特别是对于实时应用程序来说，最大的困难是在现实主义和计算性能之间取得平衡。光线追踪法由于其自然、精确地模拟光学现象而成为生成真实图像的主要算法之一，但其缺点是计算成本高。到目前为止，已经使用了几种算法和硬件平台来提高该算法的性能，但基于多核架构或gpu的解决方案尽管获得了性能，但能耗很高。因此，本工作的目标是在低功耗板上提出一个异构CPU-FPGA系统，并分析其性能增益、可伸缩性和计算资源之间的负载平衡，以呈现不同大小的图像。

{"title":"Um Sistema Heterogêneo Embarcado para Aceleração de Interseção Raio-Triângulo","authors":"Adrianno Sampaio, Alexandre C. Sena, Alex Nery","doi":"10.5753/wscad.2019.8685","DOIUrl":"https://doi.org/10.5753/wscad.2019.8685","url":null,"abstract":"A renderização de imagens é uma importante área da computação gráfica, sendo aplicável a diversas áreas como jogos, visualização arquitetônica, cinema, entre outras. Atualmente a renderização de imagens realistas é um dos principais desafios, especialmente para aplicações em tempo real, sendo a maior dificuldade balancear entre realismo e desempenho computacional. O método de Ray-Tracing tem sido um dos principais algoritmos utilizados para a geração de imagens realistas por sua naturalidade ao modelar fenômenos ópticos com precisão, porém sua desvantagem é o seu alto custo computacional. Diversos algoritmos e plataformas de hardware têm sido utilizados até o momento para melhorar o desempenho deste algoritmo, porém soluções com arquiteturas baseadas em Many-core ou GPUs possuem um alto consumo energético apesar do desempenho obtido. Assim, o objetivo deste trabalho é propor um sistema heterogêneo CPU-FPGA em uma placa embarcada de baixo custo energético, e analisar seu ganho de desempenho, escalabilidade e balanceamento de carga entre recursos computacionais renderizando diferentes tamanhos de imagens.","PeriodicalId":117711,"journal":{"name":"Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)","volume":"10 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-11-08","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"116329944","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 1

首页上一页

下一页尾页

类型

全部化学•材料生命科学医学物理工程技术环境•农林材料科学地球科学法学管理学化学环境科学与生态学计算机科学教育学经济学农林科学人文科学生物学数学物理与天体物理心理学综合性期刊其他工业工程理学历史学农学文学信息工程

数据库

全部 ACS Publications Elsevier ieeexplore Springer The Royal Society of Chemistry Wiley

期刊

Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)

全部 Acc. Chem. Res. ACS Applied Bio Materials ACS Appl. Electron. Mater. ACS Appl. Energy Mater. ACS Appl. Mater. Interfaces ACS Appl. Nano Mater. ACS Appl. Polym. Mater. ACS BIOMATER-SCI ENG ACS Catal. ACS Cent. Sci. ACS Chem. Biol. ACS Chemical Health & Safety ACS Chem. Neurosci. ACS Comb. Sci. ACS Earth Space Chem. ACS Energy Lett. ACS Infect. Dis. ACS Macro Lett. ACS Mater. Lett. ACS Med. Chem. Lett. ACS Nano ACS Omega ACS Photonics ACS Sens. ACS Sustainable Chem. Eng. ACS Synth. Biol. Anal. Chem. BIOCHEMISTRY-US Bioconjugate Chem. BIOMACROMOLECULES Chem. Res. Toxicol. Chem. Rev. Chem. Mater. CRYST GROWTH DES ENERG FUEL Environ. Sci. Technol. Environ. Sci. Technol. Lett. Eur. J. Inorg. Chem. IND ENG CHEM RES Inorg. Chem. J. Agric. Food. Chem. J. Chem. Eng. Data J. Chem. Educ. J. Chem. Inf. Model. J. Chem. Theory Comput. J. Med. Chem. J. Nat. Prod. J PROTEOME RES J. Am. Chem. Soc. LANGMUIR MACROMOLECULES Mol. Pharmaceutics Nano Lett. Org. Lett. ORG PROCESS RES DEV ORGANOMETALLICS J. Org. Chem. J. Phys. Chem. J. Phys. Chem. A J. Phys. Chem. B J. Phys. Chem. C J. Phys. Chem. Lett. Analyst Anal. Methods Biomater. Sci. Catal. Sci. Technol. Chem. Commun. Chem. Soc. Rev. CHEM EDUC RES PRACT CRYSTENGCOMM Dalton Trans. Energy Environ. Sci. ENVIRON SCI-NANO ENVIRON SCI-PROC IMP ENVIRON SCI-WAT RES Faraday Discuss. Food Funct. Green Chem. Inorg. Chem. Front. Integr. Biol. J. Anal. At. Spectrom. J. Mater. Chem. A J. Mater. Chem. B J. Mater. Chem. C Lab Chip Mater. Chem. Front. Mater. Horiz. MEDCHEMCOMM Metallomics Mol. Biosyst. Mol. Syst. Des. Eng. Nanoscale Nanoscale Horiz. Nat. Prod. Rep. New J. Chem. Org. Biomol. Chem. Org. Chem. Front. PHOTOCH PHOTOBIO SCI PCCP Polym. Chem.

﹀