首页 > 最新文献

Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)最新文献

英文 中文
Impacto do Prefetcher na Precisão de Simulações de Arquiteturas Paralelas 预取器对并行架构模拟精度的影响
Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8684
Valéria Girelli, F. B. Moreira, M. Serpa, P. Navaux
Em arquitetura de computadores, o uso de simuladores é predominante em todos os grupos de pesquisa, com uma ampla variedade de abordagens e implementações.No entanto, falta na literatura uma análise detalhada de simuladores de arquiteturas paralelas que suportem workloads de Computação de Alto Desempenho (High Performance Computing - HPC). Este trabalho busca analisar o impacto do prefetcher na precisão da simulação paralela realizada pelo ZSim, um simulador de arquiteturas paralelas. Observamos que, devido à falta de modelagem de prefetcher, as estatı́sticas da hierarquia de memória apresentam comportamentos imprecisos, com erros de até 2.600%.
在计算机体系结构中,模拟器的使用在所有的研究小组中占主导地位,有各种各样的方法和实现。然而,文献中缺乏对支持高性能计算(HPC)工作负载的并行架构模拟器的详细分析。本文分析了预取器对并行架构模拟器ZSim并行仿真精度的影响。宇宙的,由于缺乏prefetcher建模、统计的ı́信息层次结构的记忆行为错误的不准确的,甚至是2600%。
{"title":"Impacto do Prefetcher na Precisão de Simulações de Arquiteturas Paralelas","authors":"Valéria Girelli, F. B. Moreira, M. Serpa, P. Navaux","doi":"10.5753/wscad.2019.8684","DOIUrl":"https://doi.org/10.5753/wscad.2019.8684","url":null,"abstract":"Em arquitetura de computadores, o uso de simuladores é predominante em todos os grupos de pesquisa, com uma ampla variedade de abordagens e implementações.No entanto, falta na literatura uma análise detalhada de simuladores de arquiteturas paralelas que suportem workloads de Computação de Alto Desempenho (High Performance Computing - HPC). Este trabalho busca analisar o impacto do prefetcher na precisão da simulação paralela realizada pelo ZSim, um simulador de arquiteturas paralelas. Observamos que, devido à falta de modelagem de prefetcher, as estatı́sticas da hierarquia de memória apresentam comportamentos imprecisos, com erros de até 2.600%.","PeriodicalId":117711,"journal":{"name":"Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)","volume":"6 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-11-08","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"131175023","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 1
Estudo de viabilidade do uso de Raspberry PI na Névoa
Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8669
G. Silva, Nelson Lago, G. H. Cavalheiro, A. Goldman
Em função da necessidade de se ter baixa latência em muitas aplicações e visando uma melhor usabilidade para o usuário final, nasce o paradigma de névoa, que traz o processamento ou pré processamento para um local mais próximo ao usuário. Buscando reduzir o consumo energético, optou-se pelo uso de dispositivos de baixa capacidade, dado seu propósito geral, baixo consumo e custo, além da disponibilidade no mercado. Este trabalho tem como objetivo investigar a Raspberry Pi 3 como dispositivo para névoa, avaliando seu uso através do benchmark NDBench realizando operações de escrita e leitura em um banco de dados NoSQL. Os resultados indicam a viabilidade da Raspberry em cenários onde são esperadas em torno de até 1.200 operações por segundo com latência média de 500ms, o que contempla uma grande quantidade de aplicações e demonstra que a Raspberry pode ser usada em ambientes de nuvem e névoa.
由于许多应用程序需要低延迟,并旨在为最终用户提供更好的可用性,雾范例诞生了,它将处理或预处理带到离用户更近的位置。为了减少能源消耗,我们选择了低容量设备,考虑到它们的一般用途、低消耗和低成本,以及市场上的可用性。本研究旨在研究树莓派3作为雾设备,通过基准NDBench在NoSQL数据库中执行读写操作来评估其使用情况。结果表明,在平均延迟500ms的情况下,覆盆子在每秒1200次操作的情况下是可行的,这考虑了大量的应用程序,并表明覆盆子可以在云和雾环境中使用。
{"title":"Estudo de viabilidade do uso de Raspberry PI na Névoa","authors":"G. Silva, Nelson Lago, G. H. Cavalheiro, A. Goldman","doi":"10.5753/wscad.2019.8669","DOIUrl":"https://doi.org/10.5753/wscad.2019.8669","url":null,"abstract":"Em função da necessidade de se ter baixa latência em muitas aplicações e visando uma melhor usabilidade para o usuário final, nasce o paradigma de névoa, que traz o processamento ou pré processamento para um local mais próximo ao usuário. Buscando reduzir o consumo energético, optou-se pelo uso de dispositivos de baixa capacidade, dado seu propósito geral, baixo consumo e custo, além da disponibilidade no mercado. Este trabalho tem como objetivo investigar a Raspberry Pi 3 como dispositivo para névoa, avaliando seu uso através do benchmark NDBench realizando operações de escrita e leitura em um banco de dados NoSQL. Os resultados indicam a viabilidade da Raspberry em cenários onde são esperadas em torno de até 1.200 operações por segundo com latência média de 500ms, o que contempla uma grande quantidade de aplicações e demonstra que a Raspberry pode ser usada em ambientes de nuvem e névoa.","PeriodicalId":117711,"journal":{"name":"Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)","volume":"38 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-11-08","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"132741717","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
OpenMP and StarPU Abreast: the Impact of Runtime in Task-Based Block QR Factorization Performance OpenMP和StarPU并行:运行时对基于任务的块QR分解性能的影响
Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8654
M. Miletto, L. Schnorr
Directed Acyclic Graph (DAG) is a high-level abstraction to describe the activities of parallel applications. A DAG contains tasks (nodes) and dependencies (edges) in the task-based programming paradigm. Application performance depends on the choices of the runtime system. Our work intends to evaluate and compare the performance of three different runtime systems, GCC/libgomp, LLVM/libomp, and StarPU for a task-based dense block QR factorization. The obtained results show that while GCC/libgomp achieves up to 5.4% better performance in the best case, it has scalability problems for finegrain problems with large DAGs. LLVM/libomp and StarPU are more scalable, and StarPU is much faster in task creation and submission than the other runtimes.
有向无环图(DAG)是描述并行应用程序活动的高级抽象。DAG在基于任务的编程范式中包含任务(节点)和依赖项(边)。应用程序性能取决于运行时系统的选择。我们的工作旨在评估和比较三种不同运行时系统(GCC/libgomp, LLVM/libomp和StarPU)在基于任务的密集块QR分解中的性能。所获得的结果表明,虽然GCC/libgomp在最佳情况下的性能提高了5.4%,但对于具有大dag的细粒度问题,它存在可伸缩性问题。LLVM/libomp和StarPU具有更高的可扩展性,并且StarPU在任务创建和提交方面比其他运行时要快得多。
{"title":"OpenMP and StarPU Abreast: the Impact of Runtime in Task-Based Block QR Factorization Performance","authors":"M. Miletto, L. Schnorr","doi":"10.5753/wscad.2019.8654","DOIUrl":"https://doi.org/10.5753/wscad.2019.8654","url":null,"abstract":"Directed Acyclic Graph (DAG) is a high-level abstraction to describe the activities of parallel applications. A DAG contains tasks (nodes) and dependencies (edges) in the task-based programming paradigm. Application performance depends on the choices of the runtime system. Our work intends to evaluate and compare the performance of three different runtime systems, GCC/libgomp, LLVM/libomp, and StarPU for a task-based dense block QR factorization. The obtained results show that while GCC/libgomp achieves up to 5.4% better performance in the best case, it has scalability problems for finegrain problems with large DAGs. LLVM/libomp and StarPU are more scalable, and StarPU is much faster in task creation and submission than the other runtimes.","PeriodicalId":117711,"journal":{"name":"Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)","volume":"197 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-11-08","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"121742308","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 4
Geração procedural de mapas dungeon crawl baseada em gramática de grafos para uso em jogos roguelike 用于roguelike游戏的基于图语法的地下城爬行地图的程序生成
Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8668
R. Souza, B. Junior, Luciana Foss, G. Cavalheiro, S. Cavalheiro
Este artigo apresenta a concepção e a implementação de um motor de geração procedural de mapas, baseado em gramáticas de grafos, para jogos do tipo roguelike. A implementação realizada explora a programação multitarefa sobre arquiteturas multiprocessadas, viabilizando o uso desta ferramenta em tempo de execução, tendo em vista o alto custo computacional decorrente do uso de gramática de grafos. Os resultados obtidos foram muito positivos, tanto no que se refere ao ganho de desempenho quanto no sucesso em geração de mapas, viabilizando o uso dessa técnica de geração de mapas dungeon crawl em tempo de execução. Estes resultados são ilustrados com a apresentação da instanciação de um jogo e de uma discussão sobre o desempenho da execução paralela em um computador com configuração gamer.
本文提出了一个基于图语法的程序地图生成引擎的设计和实现,用于roguelike类型的游戏。该实现探索了多处理体系结构上的多任务编程,允许在运行时使用该工具,考虑到使用图语法的高计算成本。获得的结果是非常积极的,无论是在性能增益和地图生成的成功方面,允许使用这种技术生成地下城爬行地图在运行时。这些结果通过游戏实例化的介绍和在具有玩家配置的计算机上并行执行的性能讨论来说明。
{"title":"Geração procedural de mapas dungeon crawl baseada em gramática de grafos para uso em jogos roguelike","authors":"R. Souza, B. Junior, Luciana Foss, G. Cavalheiro, S. Cavalheiro","doi":"10.5753/wscad.2019.8668","DOIUrl":"https://doi.org/10.5753/wscad.2019.8668","url":null,"abstract":"Este artigo apresenta a concepção e a implementação de um motor de geração procedural de mapas, baseado em gramáticas de grafos, para jogos do tipo roguelike. A implementação realizada explora a programação multitarefa sobre arquiteturas multiprocessadas, viabilizando o uso desta ferramenta em tempo de execução, tendo em vista o alto custo computacional decorrente do uso de gramática de grafos. Os resultados obtidos foram muito positivos, tanto no que se refere ao ganho de desempenho quanto no sucesso em geração de mapas, viabilizando o uso dessa técnica de geração de mapas dungeon crawl em tempo de execução. Estes resultados são ilustrados com a apresentação da instanciação de um jogo e de uma discussão sobre o desempenho da execução paralela em um computador com configuração gamer.","PeriodicalId":117711,"journal":{"name":"Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)","volume":"1 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-11-08","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"129573938","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
Upstream: Exposing Performance Information from Cloud Providers to Tenants 上游:向租户公开来自云提供商的性能信息
Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8673
Adriano Lange, M. Sunyé, L. C. E. Bona
Infrastructure-as-a-Service (IaaS) is a widely adopted cloud computing paradigm due to its flexibility and competitive prices. To improve resource efficiency, most IaaS providers consolidate several tenants in the same virtualization server, which usually incurs variable performance experiences. In this paper, we evaluate the CPU time received by tenants’ virtual machines (VMs). We present a model that estimates the probability of a VM to receive, at least, a determined fraction of CPU time using limited information about the host and VMs running on it. We constructed this model using a series of experiments with different numbers of CPU cores and co-located VMs.
基础设施即服务(IaaS)由于其灵活性和具有竞争力的价格,是一种被广泛采用的云计算范式。为了提高资源效率,大多数IaaS提供商在同一个虚拟化服务器中合并多个租户,这通常会导致不同的性能体验。在本文中,我们评估了租户的虚拟机(vm)收到的CPU时间。我们提出了一个模型,该模型使用有关主机和在其上运行的虚拟机的有限信息来估计虚拟机接收至少确定部分CPU时间的概率。我们使用不同CPU核数和共置vm的一系列实验来构建该模型。
{"title":"Upstream: Exposing Performance Information from Cloud Providers to Tenants","authors":"Adriano Lange, M. Sunyé, L. C. E. Bona","doi":"10.5753/wscad.2019.8673","DOIUrl":"https://doi.org/10.5753/wscad.2019.8673","url":null,"abstract":"Infrastructure-as-a-Service (IaaS) is a widely adopted cloud computing paradigm due to its flexibility and competitive prices. To improve resource efficiency, most IaaS providers consolidate several tenants in the same virtualization server, which usually incurs variable performance experiences. In this paper, we evaluate the CPU time received by tenants’ virtual machines (VMs). We present a model that estimates the probability of a VM to receive, at least, a determined fraction of CPU time using limited information about the host and VMs running on it. We constructed this model using a series of experiments with different numbers of CPU cores and co-located VMs.","PeriodicalId":117711,"journal":{"name":"Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)","volume":"89 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-11-08","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"133211232","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
ViViD Cuckoo Hash: Fast Cuckoo Table Building in SIMD 生动的杜鹃哈希:快速杜鹃表建设在SIMD
Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8676
Flaviene Scheidt de Cristo, E. Almeida, M. Alves
Hash Tables play a lead role in modern databases systems during the execution of joins, grouping, indexing, removal of duplicates, and accelerating point queries. In this paper, we focus on Cuckoo Hash, a technique to deal with collisions guaranteeing that data is retrieved with at most two memory access in the worst case. However, building the Cuckoo Table with the current scalar methods is inefficient when treating the eviction of the colliding keys. We propose a Vertically Vectorized data-dependent method to build Cuckoo Tables - ViViD Cuckoo Hash. Our method exploits data parallelism with AVX-512 SIMD instructions and transforms control dependencies into data dependencies to make the build process faster with an overall reduction in response time by 90% compared to the scalar Cuckoo Hash.
在现代数据库系统中,哈希表在执行连接、分组、索引、删除重复项和加速点查询时起着主导作用。在本文中,我们关注Cuckoo Hash,这是一种处理碰撞的技术,保证在最坏的情况下最多两次内存访问即可检索数据。然而,在处理碰撞键的移除时,使用当前的标量方法构建Cuckoo Table是低效的。我们提出了一种垂直向量化的基于数据的杜鹃表构建方法——ViViD杜鹃哈希。我们的方法利用AVX-512 SIMD指令的数据并行性,并将控制依赖项转换为数据依赖项,使构建过程更快,与标量Cuckoo Hash相比,总体响应时间减少了90%。
{"title":"ViViD Cuckoo Hash: Fast Cuckoo Table Building in SIMD","authors":"Flaviene Scheidt de Cristo, E. Almeida, M. Alves","doi":"10.5753/wscad.2019.8676","DOIUrl":"https://doi.org/10.5753/wscad.2019.8676","url":null,"abstract":"Hash Tables play a lead role in modern databases systems during the execution of joins, grouping, indexing, removal of duplicates, and accelerating point queries. In this paper, we focus on Cuckoo Hash, a technique to deal with collisions guaranteeing that data is retrieved with at most two memory access in the worst case. However, building the Cuckoo Table with the current scalar methods is inefficient when treating the eviction of the colliding keys. We propose a Vertically Vectorized data-dependent method to build Cuckoo Tables - ViViD Cuckoo Hash. Our method exploits data parallelism with AVX-512 SIMD instructions and transforms control dependencies into data dependencies to make the build process faster with an overall reduction in response time by 90% compared to the scalar Cuckoo Hash.","PeriodicalId":117711,"journal":{"name":"Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)","volume":"88 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-11-08","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"123068598","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 5
High performance computing architectures analysis for gene networks inference 基因网络推理的高性能计算架构分析
Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8656
A. G. Marco, M. Gazziro, David Martins
Modeling and inference of biological systems are an important field in computer science, presenting strong interdisciplinary aspects. In this context, the inference of gene regulatory networks and the analysis of their dynamics generated by their transition functions are important issues that demand substantial computational power. Because the algorithms that return the optimal solution have an exponential time cost, such algorithms only work for gene networks with only dozens of genes. However realistic gene networks present hundreds to thousands of genes, with some genes being hubs, i.e., their number of predictor genes are usually much higher than average. Therefore there is a need to develop ways to speed up the gene networks inference. This paper presents a benchmark involving GPUs and FPGAs to infer gene networks, analysing processing time, hardware cost acquisition, energy consumption and programming complexity. Overall Titan XP GPU achieved the best performance, but with a large cost regarding acquisition price when compared to R9 Nano GPU and DE1-SOC FPGA. In its turn, R9 Nano GPU presented the best cost-benefit regarding performance, acquisition price, energy consumption, and programming complexity, although DE1-SOC FPGA presented much smaller energy consumption.
生物系统的建模和推理是计算机科学的一个重要领域,具有很强的跨学科特征。在这种情况下,基因调控网络的推断和由其转换函数产生的动态分析是需要大量计算能力的重要问题。因为返回最优解的算法有一个指数级的时间成本,这样的算法只适用于只有几十个基因的基因网络。然而,现实的基因网络呈现出成百上千个基因,其中一些基因是枢纽,也就是说,它们的预测基因数量通常比平均水平高得多。因此,有必要研究加快基因网络推理的方法。本文提出了一个涉及gpu和fpga的基准来推断基因网络,分析处理时间、硬件成本获取、能耗和编程复杂性。总体而言,Titan XP GPU实现了最佳性能,但与R9 Nano GPU和DE1-SOC FPGA相比,在购买价格方面成本较高。反过来,R9纳米GPU在性能、获取价格、能耗和编程复杂性方面表现出最佳的成本效益,尽管DE1-SOC FPGA的能耗要小得多。
{"title":"High performance computing architectures analysis for gene networks inference","authors":"A. G. Marco, M. Gazziro, David Martins","doi":"10.5753/wscad.2019.8656","DOIUrl":"https://doi.org/10.5753/wscad.2019.8656","url":null,"abstract":"Modeling and inference of biological systems are an important field in computer science, presenting strong interdisciplinary aspects. In this context, the inference of gene regulatory networks and the analysis of their dynamics generated by their transition functions are important issues that demand substantial computational power. Because the algorithms that return the optimal solution have an exponential time cost, such algorithms only work for gene networks with only dozens of genes. However realistic gene networks present hundreds to thousands of genes, with some genes being hubs, i.e., their number of predictor genes are usually much higher than average. Therefore there is a need to develop ways to speed up the gene networks inference. This paper presents a benchmark involving GPUs and FPGAs to infer gene networks, analysing processing time, hardware cost acquisition, energy consumption and programming complexity. Overall Titan XP GPU achieved the best performance, but with a large cost regarding acquisition price when compared to R9 Nano GPU and DE1-SOC FPGA. In its turn, R9 Nano GPU presented the best cost-benefit regarding performance, acquisition price, energy consumption, and programming complexity, although DE1-SOC FPGA presented much smaller energy consumption.","PeriodicalId":117711,"journal":{"name":"Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)","volume":"83 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-11-08","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"116099638","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
CUDA-Parttree: A Multiple Sequence Alignment Parallel Strategy in GPU CUDA-Parttree: GPU中的多序列对齐并行策略
Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8662
Caina Razzolini, A. Melo
In this paper, we propose and evaluate CUDA-Parttree, a parallel strategy that executes the first phase of the MAFFT Parttree Multiple Sequence Alignment tool (distance matrix calculation with 6mers) on GPU. When compared to Parttree, CUDA-Parttree obtained a speedup of 6.10x on the distance matrix calculation for the Cyclodex gly tran (50, 280 sequences) set, reducing the execution time from 33.94s to 5.57s. Including data conversion and movement to/from the GPU, the speedup was 2.59x. With the sequence set Syn 100000 (100, 000 sequences), a speedup of 4.46x was attained, reducing execution time from 209.54s to 47.00s.
在本文中,我们提出并评估了CUDA-Parttree,这是一种并行策略,它在GPU上执行matfft Parttree多序列对齐工具的第一阶段(使用6mers进行距离矩阵计算)。与Parttree相比,CUDA-Parttree在Cyclodex gly tran(50,280个序列)集的距离矩阵计算上获得了6.10倍的加速,将执行时间从33.94s减少到5.57s。包括数据转换和GPU之间的移动,加速速度为2.59倍。将序列设置为Syn 100000(100,000个序列),可以获得4.46倍的加速,将执行时间从209.54秒减少到47.00秒。
{"title":"CUDA-Parttree: A Multiple Sequence Alignment Parallel Strategy in GPU","authors":"Caina Razzolini, A. Melo","doi":"10.5753/wscad.2019.8662","DOIUrl":"https://doi.org/10.5753/wscad.2019.8662","url":null,"abstract":"In this paper, we propose and evaluate CUDA-Parttree, a parallel strategy that executes the first phase of the MAFFT Parttree Multiple Sequence Alignment tool (distance matrix calculation with 6mers) on GPU. When compared to Parttree, CUDA-Parttree obtained a speedup of 6.10x on the distance matrix calculation for the Cyclodex gly tran (50, 280 sequences) set, reducing the execution time from 33.94s to 5.57s. Including data conversion and movement to/from the GPU, the speedup was 2.59x. With the sequence set Syn 100000 (100, 000 sequences), a speedup of 4.46x was attained, reducing execution time from 209.54s to 47.00s.","PeriodicalId":117711,"journal":{"name":"Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)","volume":"22 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-11-08","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"127718622","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 1
Análise de viabilidade de ferramenta para correção híbrida de sequências genômicas em ambiente de memória compartilhada com FPGA 利用FPGA在共享内存环境中进行基因组序列混合校正的工具可行性分析
Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8688
F. Almeida, L. Sato, Edson T. Midorikawa
A análise do genoma compreende pesquisas com amplo escopo, com foco em doenças e em tratamento das mesmas. Em apoio a tais atividades, pesquisadores valem-se de ferramentas computacionais para montagens de genomas. Este trabalho apresenta uma análise de viabilidade de uma ferramenta para correção hı́brida de sequências genômicas, etapa esta necessária para a montagem do genoma. É proposta uma arquitetura para ambientes heterogêneos, com implementação feita em CPU e uma placa FPGA. Os resultados obtidos no levantamento dos dados teóricos e práticos apontam que a implementação com o acelerador em hardware possui ganhos de desempenho de até cerca de 19 vezes em relação à versão sequencial, podendo aumentar a depender da tecnologia de comunicação utilizada.
基因组分析包括范围广泛的研究,重点是疾病及其治疗。为了支持这些活动,研究人员使用计算工具进行基因组组装。这份工作提供了可行性分析的工具校正点ı́那日)的基因组序列,这一步需要切的基因组。提出了一种异构环境体系结构,实现在CPU和FPGA板上。从理论和实践数据中获得的结果表明,与顺序版本相比,硬件加速器实现的性能增益高达19倍,并可能根据所使用的通信技术而增加。
{"title":"Análise de viabilidade de ferramenta para correção híbrida de sequências genômicas em ambiente de memória compartilhada com FPGA","authors":"F. Almeida, L. Sato, Edson T. Midorikawa","doi":"10.5753/wscad.2019.8688","DOIUrl":"https://doi.org/10.5753/wscad.2019.8688","url":null,"abstract":"A análise do genoma compreende pesquisas com amplo escopo, com foco em doenças e em tratamento das mesmas. Em apoio a tais atividades, pesquisadores valem-se de ferramentas computacionais para montagens de genomas. Este trabalho apresenta uma análise de viabilidade de uma ferramenta para correção hı́brida de sequências genômicas, etapa esta necessária para a montagem do genoma. É proposta uma arquitetura para ambientes heterogêneos, com implementação feita em CPU e uma placa FPGA. Os resultados obtidos no levantamento dos dados teóricos e práticos apontam que a implementação com o acelerador em hardware possui ganhos de desempenho de até cerca de 19 vezes em relação à versão sequencial, podendo aumentar a depender da tecnologia de comunicação utilizada.","PeriodicalId":117711,"journal":{"name":"Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)","volume":"7 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-11-08","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"114935553","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
Um Sistema Heterogêneo Embarcado para Aceleração de Interseção Raio-Triângulo 一种用于半径三角形交点加速度的非均匀嵌入式系统
Pub Date : 2019-11-08 DOI: 10.5753/wscad.2019.8685
Adrianno Sampaio, Alexandre C. Sena, Alex Nery
A renderização de imagens é uma importante área da computação gráfica, sendo aplicável a diversas áreas como jogos, visualização arquitetônica, cinema, entre outras. Atualmente a renderização de imagens realistas é um dos principais desafios, especialmente para aplicações em tempo real, sendo a maior dificuldade balancear entre realismo e desempenho computacional. O método de Ray-Tracing tem sido um dos principais algoritmos utilizados para a geração de imagens realistas por sua naturalidade ao modelar fenômenos ópticos com precisão, porém sua desvantagem é o seu alto custo computacional. Diversos algoritmos e plataformas de hardware têm sido utilizados até o momento para melhorar o desempenho deste algoritmo, porém soluções com arquiteturas baseadas em Many-core ou GPUs possuem um alto consumo energético apesar do desempenho obtido. Assim, o objetivo deste trabalho é propor um sistema heterogêneo CPU-FPGA em uma placa embarcada de baixo custo energético, e analisar seu ganho de desempenho, escalabilidade e balanceamento de carga entre recursos computacionais renderizando diferentes tamanhos de imagens.
图像渲染是计算机图形学的一个重要领域,适用于游戏、建筑可视化、电影等多个领域。目前,逼真的图像渲染是主要的挑战之一,特别是对于实时应用程序来说,最大的困难是在现实主义和计算性能之间取得平衡。光线追踪法由于其自然、精确地模拟光学现象而成为生成真实图像的主要算法之一,但其缺点是计算成本高。到目前为止,已经使用了几种算法和硬件平台来提高该算法的性能,但基于多核架构或gpu的解决方案尽管获得了性能,但能耗很高。因此,本工作的目标是在低功耗板上提出一个异构CPU-FPGA系统,并分析其性能增益、可伸缩性和计算资源之间的负载平衡,以呈现不同大小的图像。
{"title":"Um Sistema Heterogêneo Embarcado para Aceleração de Interseção Raio-Triângulo","authors":"Adrianno Sampaio, Alexandre C. Sena, Alex Nery","doi":"10.5753/wscad.2019.8685","DOIUrl":"https://doi.org/10.5753/wscad.2019.8685","url":null,"abstract":"A renderização de imagens é uma importante área da computação gráfica, sendo aplicável a diversas áreas como jogos, visualização arquitetônica, cinema, entre outras. Atualmente a renderização de imagens realistas é um dos principais desafios, especialmente para aplicações em tempo real, sendo a maior dificuldade balancear entre realismo e desempenho computacional. O método de Ray-Tracing tem sido um dos principais algoritmos utilizados para a geração de imagens realistas por sua naturalidade ao modelar fenômenos ópticos com precisão, porém sua desvantagem é o seu alto custo computacional. Diversos algoritmos e plataformas de hardware têm sido utilizados até o momento para melhorar o desempenho deste algoritmo, porém soluções com arquiteturas baseadas em Many-core ou GPUs possuem um alto consumo energético apesar do desempenho obtido. Assim, o objetivo deste trabalho é propor um sistema heterogêneo CPU-FPGA em uma placa embarcada de baixo custo energético, e analisar seu ganho de desempenho, escalabilidade e balanceamento de carga entre recursos computacionais renderizando diferentes tamanhos de imagens.","PeriodicalId":117711,"journal":{"name":"Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)","volume":"10 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-11-08","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"116329944","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 1
期刊
Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)
全部 Acc. Chem. Res. ACS Applied Bio Materials ACS Appl. Electron. Mater. ACS Appl. Energy Mater. ACS Appl. Mater. Interfaces ACS Appl. Nano Mater. ACS Appl. Polym. Mater. ACS BIOMATER-SCI ENG ACS Catal. ACS Cent. Sci. ACS Chem. Biol. ACS Chemical Health & Safety ACS Chem. Neurosci. ACS Comb. Sci. ACS Earth Space Chem. ACS Energy Lett. ACS Infect. Dis. ACS Macro Lett. ACS Mater. Lett. ACS Med. Chem. Lett. ACS Nano ACS Omega ACS Photonics ACS Sens. ACS Sustainable Chem. Eng. ACS Synth. Biol. Anal. Chem. BIOCHEMISTRY-US Bioconjugate Chem. BIOMACROMOLECULES Chem. Res. Toxicol. Chem. Rev. Chem. Mater. CRYST GROWTH DES ENERG FUEL Environ. Sci. Technol. Environ. Sci. Technol. Lett. Eur. J. Inorg. Chem. IND ENG CHEM RES Inorg. Chem. J. Agric. Food. Chem. J. Chem. Eng. Data J. Chem. Educ. J. Chem. Inf. Model. J. Chem. Theory Comput. J. Med. Chem. J. Nat. Prod. J PROTEOME RES J. Am. Chem. Soc. LANGMUIR MACROMOLECULES Mol. Pharmaceutics Nano Lett. Org. Lett. ORG PROCESS RES DEV ORGANOMETALLICS J. Org. Chem. J. Phys. Chem. J. Phys. Chem. A J. Phys. Chem. B J. Phys. Chem. C J. Phys. Chem. Lett. Analyst Anal. Methods Biomater. Sci. Catal. Sci. Technol. Chem. Commun. Chem. Soc. Rev. CHEM EDUC RES PRACT CRYSTENGCOMM Dalton Trans. Energy Environ. Sci. ENVIRON SCI-NANO ENVIRON SCI-PROC IMP ENVIRON SCI-WAT RES Faraday Discuss. Food Funct. Green Chem. Inorg. Chem. Front. Integr. Biol. J. Anal. At. Spectrom. J. Mater. Chem. A J. Mater. Chem. B J. Mater. Chem. C Lab Chip Mater. Chem. Front. Mater. Horiz. MEDCHEMCOMM Metallomics Mol. Biosyst. Mol. Syst. Des. Eng. Nanoscale Nanoscale Horiz. Nat. Prod. Rep. New J. Chem. Org. Biomol. Chem. Org. Chem. Front. PHOTOCH PHOTOBIO SCI PCCP Polym. Chem.
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1