Pub Date : 2007-10-24DOI: 10.5753/wscad.2007.18752
G. Koslovski, Márcio Parise Boufleur, A. Charão
O monitor de máquinas virtuais Xen permite a execução simultânea de diversos sistemas operacionais sobre uma arquitetura real, compartilhando os recursos de hardware existentes. Esta tecnologia vem se popularizando como uma solução para consolidação de servidores e gerenciamento de clusters e redes de computadores. Em ambientes virtualizados, há diversas tarefas administrativas para manipulação e gerenciamento dos sistemas operacionais hospedados. Originalmente, Xen não oferece uma interface para gerenciamento de ambientes virtualizados distribuídos, tornando esta tarefa complexa para administradores. Este artigo apresenta o desenvolvimento de uma ferramenta denominada AdXen, para administração de arquiteturas virtualizadas baseadas em Xen. O projeto dessa ferramenta teve como foco os ambientes virtualizados distribuídos, formados por vários computadores interligados executando múltiplas máquinas virtuais. Ao longo do artigo, discute-se as principais questões de projeto e implementação de AdXen e avalia-se as vantagens desta ferramenta frente a outras soluções para administração de arquiteturas virtualizadas.
{"title":"AdXen: Uma Ferramenta para Administração de Arquiteturas Virtualizadas Distribuídas Baseadas em Xen","authors":"G. Koslovski, Márcio Parise Boufleur, A. Charão","doi":"10.5753/wscad.2007.18752","DOIUrl":"https://doi.org/10.5753/wscad.2007.18752","url":null,"abstract":"O monitor de máquinas virtuais Xen permite a execução simultânea de diversos sistemas operacionais sobre uma arquitetura real, compartilhando os recursos de hardware existentes. Esta tecnologia vem se popularizando como uma solução para consolidação de servidores e gerenciamento de clusters e redes de computadores. Em ambientes virtualizados, há diversas tarefas administrativas para manipulação e gerenciamento dos sistemas operacionais hospedados. Originalmente, Xen não oferece uma interface para gerenciamento de ambientes virtualizados distribuídos, tornando esta tarefa complexa para administradores. Este artigo apresenta o desenvolvimento de uma ferramenta denominada AdXen, para administração de arquiteturas virtualizadas baseadas em Xen. O projeto dessa ferramenta teve como foco os ambientes virtualizados distribuídos, formados por vários computadores interligados executando múltiplas máquinas virtuais. Ao longo do artigo, discute-se as principais questões de projeto e implementação de AdXen e avalia-se as vantagens desta ferramenta frente a outras soluções para administração de arquiteturas virtualizadas.","PeriodicalId":244503,"journal":{"name":"Anais do VIII Workshop em Sistemas Computacionais de Alto Desempenho (WSCAD 2007)","volume":"59 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2007-10-24","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"122173979","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2007-10-24DOI: 10.5753/wscad.2007.18764
Henrique Mongelli, Rodrigo Cesar Sakamoto
Em muitas aplicações problemas NP-completos precisam ser solucionados de forma exata. Um método promissor para tratar com alguns problemas intratáveis é através da Complexidade Parametrizada que divide a entrada do problema em uma parte principal e um parâmetro. A parte principal contribui polinomialmente com a complexidade total do problema, enquanto que o parâmetro é responsável pela explosão combinatorial. Consideramos o algoritmo paralelo FPT de Cheetham para solucionar o problema da k-Cobertura por Vértices e a implementação refinada e melhorada de Hanashiro. Como este é um problema em que grande parte do tempo de execução é feita de forma independente, sem a necessidade de comunicação entre os processadores, a utilização de grades computacionais torna-se bastante aplicável, com a possibilidade do emprego de um número grande de processadores. Este trabalho envolve a implementação no Integrade de algoritmos FPT paralelos para o problema da k-Cobertura por vértices. A grade computacional dos testes utiliza o middleware desenvolvido no Projeto Integrade. Estes algoritmos foram implementados usando a biblioteca BSPLib do Integrade e mostraram um desempenho muito bom e que pode ser melhorado com a adição de novos processadores. Em nossos experimentos no Integrade, em comparação a implementação em cluster, obtivemos tempos paralelos melhores do que os relatados por Hanashiro.
{"title":"Implementações de Algoritmos Paralelos FPT para o Problema da k-Cobertura por Vértices utilizando Clusters e Grades Computacionais","authors":"Henrique Mongelli, Rodrigo Cesar Sakamoto","doi":"10.5753/wscad.2007.18764","DOIUrl":"https://doi.org/10.5753/wscad.2007.18764","url":null,"abstract":"Em muitas aplicações problemas NP-completos precisam ser solucionados de forma exata. Um método promissor para tratar com alguns problemas intratáveis é através da Complexidade Parametrizada que divide a entrada do problema em uma parte principal e um parâmetro. A parte principal contribui polinomialmente com a complexidade total do problema, enquanto que o parâmetro é responsável pela explosão combinatorial. Consideramos o algoritmo paralelo FPT de Cheetham para solucionar o problema da k-Cobertura por Vértices e a implementação refinada e melhorada de Hanashiro. Como este é um problema em que grande parte do tempo de execução é feita de forma independente, sem a necessidade de comunicação entre os processadores, a utilização de grades computacionais torna-se bastante aplicável, com a possibilidade do emprego de um número grande de processadores. Este trabalho envolve a implementação no Integrade de algoritmos FPT paralelos para o problema da k-Cobertura por vértices. A grade computacional dos testes utiliza o middleware desenvolvido no Projeto Integrade. Estes algoritmos foram implementados usando a biblioteca BSPLib do Integrade e mostraram um desempenho muito bom e que pode ser melhorado com a adição de novos processadores. Em nossos experimentos no Integrade, em comparação a implementação em cluster, obtivemos tempos paralelos melhores do que os relatados por Hanashiro.","PeriodicalId":244503,"journal":{"name":"Anais do VIII Workshop em Sistemas Computacionais de Alto Desempenho (WSCAD 2007)","volume":"37 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2007-10-24","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"133502334","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2007-10-24DOI: 10.5753/wscad.2007.18761
Roberto B. Kerr Jr., Edson T. Midorikawa
A aplicação de dispositivos reconfiguráveis em sistemas de computação de alto desempenho tem se difundido recentemente. Dentre as áreas de pesquisa com maior possibilidade de ganho de desempenho se destacam os projetos com caches reconfiguráveis. Trabalhos anteriores já mostraram a possibilidade de implementar reconfiguração em diversos campos da memória cache, como por exemplo, o tamanho da linha, a associatividade ou o algoritmo de substituição. Neste artigo analisamos uma proposta de um algoritmo de reconfiguração da associatividade. A análise foi conduzida com a utilização de traces do Spec2000 obtidos do BYU Trace Distribution Center. Resultados experimentais mostraram ganhos de desempenho em relação aos caches tradicionais e em relação a um algoritmo reconfigurável proposto na literatura.
{"title":"Um Algoritmo de Reconfiguração da Associatividade em Memórias Cache","authors":"Roberto B. Kerr Jr., Edson T. Midorikawa","doi":"10.5753/wscad.2007.18761","DOIUrl":"https://doi.org/10.5753/wscad.2007.18761","url":null,"abstract":"A aplicação de dispositivos reconfiguráveis em sistemas de computação de alto desempenho tem se difundido recentemente. Dentre as áreas de pesquisa com maior possibilidade de ganho de desempenho se destacam os projetos com caches reconfiguráveis. Trabalhos anteriores já mostraram a possibilidade de implementar reconfiguração em diversos campos da memória cache, como por exemplo, o tamanho da linha, a associatividade ou o algoritmo de substituição. Neste artigo analisamos uma proposta de um algoritmo de reconfiguração da associatividade. A análise foi conduzida com a utilização de traces do Spec2000 obtidos do BYU Trace Distribution Center. Resultados experimentais mostraram ganhos de desempenho em relação aos caches tradicionais e em relação a um algoritmo reconfigurável proposto na literatura.","PeriodicalId":244503,"journal":{"name":"Anais do VIII Workshop em Sistemas Computacionais de Alto Desempenho (WSCAD 2007)","volume":"47 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2007-10-24","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"116397731","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2007-10-24DOI: 10.5753/wscad.2007.18753
A. P. Silva, M. R. Dantas
O paradigma de grade computacional tem como uma das suas principais características o compartilhamento de recursos heterogêneos espalhados geograficamente por diversas organizações virtuais. No entanto, o processo de seleção destes recursos toma-se na prática difícil, pois as organizações apresentam visões distintas quanto à forma de descrever seus recursos. Desta forma, em um sistema de seleção de recursos em grades é desejável realizar comparações semânticas. Neste artigo, propomos um sistema selecionador de recursos que considera diferentes visões que as organizações podem apresentar. Este sistema apoia-se na abordagem de integração híbrida sobre regras semânticas para alcançar a interoperabilidade entre as diversas ontologias. Resultados experimentais práticos indicam que o sistema alcançou com sucesso o objetivo.
{"title":"Sistema Selecionador de Recursos Computacionais de Grade baseado na Interoperabilidade de Múltiplas Ontologias","authors":"A. P. Silva, M. R. Dantas","doi":"10.5753/wscad.2007.18753","DOIUrl":"https://doi.org/10.5753/wscad.2007.18753","url":null,"abstract":"O paradigma de grade computacional tem como uma das suas principais características o compartilhamento de recursos heterogêneos espalhados geograficamente por diversas organizações virtuais. No entanto, o processo de seleção destes recursos toma-se na prática difícil, pois as organizações apresentam visões distintas quanto à forma de descrever seus recursos. Desta forma, em um sistema de seleção de recursos em grades é desejável realizar comparações semânticas. Neste artigo, propomos um sistema selecionador de recursos que considera diferentes visões que as organizações podem apresentar. Este sistema apoia-se na abordagem de integração híbrida sobre regras semânticas para alcançar a interoperabilidade entre as diversas ontologias. Resultados experimentais práticos indicam que o sistema alcançou com sucesso o objetivo.","PeriodicalId":244503,"journal":{"name":"Anais do VIII Workshop em Sistemas Computacionais de Alto Desempenho (WSCAD 2007)","volume":"67 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2007-10-24","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"131357118","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2007-10-24DOI: 10.5753/wscad.2007.18757
Gustavo Lermen, Fabiane Cristine Dillenburg, J. Barbosa
Dentre as propostas desenvolvidas para tirar proveito da heterogeneidade de dispositivos e sistemas operacionais disponíveis atualmente, encontra-se a mobilidade de código. Através da utilização de uma camada software subjacente em comum, este artigo apresenta uma solução que utiliza mobilidade de código para obter paralelismo na execução de tarefas. O modelo de mobilidade forte de código apresentado chama-se HoloGo. Este modelo utiliza como plataforma de execução uma máquina virtual, chamada HoloVM, que oferece suporte à programação concorrente e blackboards. A utilização do modelo proposto é materializada através da implementação de uma aplicação que visa o ganho de desempenho na execução de uma tarefa computacionalmente intensa.
{"title":"Obtendo Desempenho Através de Mobilidade Forte de Código","authors":"Gustavo Lermen, Fabiane Cristine Dillenburg, J. Barbosa","doi":"10.5753/wscad.2007.18757","DOIUrl":"https://doi.org/10.5753/wscad.2007.18757","url":null,"abstract":"Dentre as propostas desenvolvidas para tirar proveito da heterogeneidade de dispositivos e sistemas operacionais disponíveis atualmente, encontra-se a mobilidade de código. Através da utilização de uma camada software subjacente em comum, este artigo apresenta uma solução que utiliza mobilidade de código para obter paralelismo na execução de tarefas. O modelo de mobilidade forte de código apresentado chama-se HoloGo. Este modelo utiliza como plataforma de execução uma máquina virtual, chamada HoloVM, que oferece suporte à programação concorrente e blackboards. A utilização do modelo proposto é materializada através da implementação de uma aplicação que visa o ganho de desempenho na execução de uma tarefa computacionalmente intensa.","PeriodicalId":244503,"journal":{"name":"Anais do VIII Workshop em Sistemas Computacionais de Alto Desempenho (WSCAD 2007)","volume":"5 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2007-10-24","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"125030910","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2007-10-24DOI: 10.5753/wscad.2007.18765
J. M. Laine, Edson T. Midorikawa
Com o crescente uso da computação distribuída em ambientes heterogêneos, principalmente para processamento de alto desempenho, fica cada vez mais evidente a necessidade do desenvolvimento de metodologias e ferramentas específicas para análise, avaliação e predição de desempenho nestes ambientes. Embora existam vários trabalhos que propõem metodologias para este propósito, pouco ainda tem sido feito em ambientes heterogêneos. Motivados pela importância desta linha de pesquisa na computação de alto desempenho, desenvolvemos uma metodologia chamada PEMPIs-Het que faz uso de meta-modelos analíticos para modelar e estimar o desempenho de aplicações paralelas MPI em sistemas como clusters e grids computacionais. Neste artigo, avaliamos a aplicabilidade das técnicas que compõem a metodologia e a precisão das estratégias, tanto na predição de desempenho quanto na distribuição de cargas computacionais. Os resultados experimentais obtidos comprovaram a eficácia da modelagem e de sua aplicação na distribuição de carga em um estudo de caso realizado.
{"title":"Analisando a Predição de Desempenho com os Modelos Analíticos Gerados pela Metodologia PEMPIs-Het","authors":"J. M. Laine, Edson T. Midorikawa","doi":"10.5753/wscad.2007.18765","DOIUrl":"https://doi.org/10.5753/wscad.2007.18765","url":null,"abstract":"Com o crescente uso da computação distribuída em ambientes heterogêneos, principalmente para processamento de alto desempenho, fica cada vez mais evidente a necessidade do desenvolvimento de metodologias e ferramentas específicas para análise, avaliação e predição de desempenho nestes ambientes. Embora existam vários trabalhos que propõem metodologias para este propósito, pouco ainda tem sido feito em ambientes heterogêneos. Motivados pela importância desta linha de pesquisa na computação de alto desempenho, desenvolvemos uma metodologia chamada PEMPIs-Het que faz uso de meta-modelos analíticos para modelar e estimar o desempenho de aplicações paralelas MPI em sistemas como clusters e grids computacionais. Neste artigo, avaliamos a aplicabilidade das técnicas que compõem a metodologia e a precisão das estratégias, tanto na predição de desempenho quanto na distribuição de cargas computacionais. Os resultados experimentais obtidos comprovaram a eficácia da modelagem e de sua aplicação na distribuição de carga em um estudo de caso realizado.","PeriodicalId":244503,"journal":{"name":"Anais do VIII Workshop em Sistemas Computacionais de Alto Desempenho (WSCAD 2007)","volume":"10 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2007-10-24","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"125669296","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2007-10-24DOI: 10.5753/wscad.2007.18746
J. Silva, F. R. Wagner, Sandro Neves Soares
Este trabalho apresenta um framework para a exploração do espaço de projeto usando Reduced Bitwidth Instruction Set Architecture (rISA). rISA é um recurso arquitetural empregado para a redução de código e, também, para a redução do consumo de energia em processadores embarcados. O framework rISA herda, da sua infraestrutura de modelagem, recursos que o distinguem de outras ferramentas, relacionados à facilidade de acesso e de uso. Além disso, ele implementa um algoritmo de redução de código que tem, como diferencial, um tratamento mais eficiente dos desvios reduzidos. O uso deste framework permitiu a descoberta de um novo formato rISA, não considerado por outros trabalhos correlatos, que é mais simples e que apresenta melhores resultados do que outros conjuntos mais complexos em termos de redução no consumo de energia. A simplicidade deste novo formato advém do emprego de menos instruções no algoritmo de redução e os resultados obtidos, em experimentos com programas do MiBench, foram superiores a propostas anteriores em até 14%.
{"title":"Explorando o Espaço de Projeto com o Objetivo de Redução do Consumo de Energia usando Reduced Bit-width Instruction Set Architecture (rISA)","authors":"J. Silva, F. R. Wagner, Sandro Neves Soares","doi":"10.5753/wscad.2007.18746","DOIUrl":"https://doi.org/10.5753/wscad.2007.18746","url":null,"abstract":"Este trabalho apresenta um framework para a exploração do espaço de projeto usando Reduced Bitwidth Instruction Set Architecture (rISA). rISA é um recurso arquitetural empregado para a redução de código e, também, para a redução do consumo de energia em processadores embarcados. O framework rISA herda, da sua infraestrutura de modelagem, recursos que o distinguem de outras ferramentas, relacionados à facilidade de acesso e de uso. Além disso, ele implementa um algoritmo de redução de código que tem, como diferencial, um tratamento mais eficiente dos desvios reduzidos. O uso deste framework permitiu a descoberta de um novo formato rISA, não considerado por outros trabalhos correlatos, que é mais simples e que apresenta melhores resultados do que outros conjuntos mais complexos em termos de redução no consumo de energia. A simplicidade deste novo formato advém do emprego de menos instruções no algoritmo de redução e os resultados obtidos, em experimentos com programas do MiBench, foram superiores a propostas anteriores em até 14%.","PeriodicalId":244503,"journal":{"name":"Anais do VIII Workshop em Sistemas Computacionais de Alto Desempenho (WSCAD 2007)","volume":"63 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2007-10-24","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"124420167","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2007-10-24DOI: 10.5753/wscad.2007.18758
G. Frainer, Luciano Cavalheiro da Silva, C. Geyer, Iara Augustin, Adenauer C. Yamin
O Espaço Pervasivo de Arquivos (EPA) é um serviço do middleware EXEHDA que provê acesso a arquivos de forma a implementar o conceito de semântica 'siga-me' das aplicações pervasivas. Esse serviço introduz um novo modelo para adaptação ciente da aplicação que fornece métodos para que as aplicações provejam informações específicas para guiar a adaptação ou estendam o EPA com módulos de aplicação que podem se adaptar a novos elementos de contexto. A combinação dessas duas estratégias permite que o modelo do EPA ultrapasse muitas das limitações apresentadas em trabalhos sobre sistemas de arquivos para computação pervasiva.
{"title":"Utilizando Adaptação Consciente da Aplicação No Acesso a Arquivos em um Ambiente Pervasivo","authors":"G. Frainer, Luciano Cavalheiro da Silva, C. Geyer, Iara Augustin, Adenauer C. Yamin","doi":"10.5753/wscad.2007.18758","DOIUrl":"https://doi.org/10.5753/wscad.2007.18758","url":null,"abstract":"O Espaço Pervasivo de Arquivos (EPA) é um serviço do middleware EXEHDA que provê acesso a arquivos de forma a implementar o conceito de semântica 'siga-me' das aplicações pervasivas. Esse serviço introduz um novo modelo para adaptação ciente da aplicação que fornece métodos para que as aplicações provejam informações específicas para guiar a adaptação ou estendam o EPA com módulos de aplicação que podem se adaptar a novos elementos de contexto. A combinação dessas duas estratégias permite que o modelo do EPA ultrapasse muitas das limitações apresentadas em trabalhos sobre sistemas de arquivos para computação pervasiva.","PeriodicalId":244503,"journal":{"name":"Anais do VIII Workshop em Sistemas Computacionais de Alto Desempenho (WSCAD 2007)","volume":"48 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2007-10-24","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"123224777","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2007-10-24DOI: 10.5753/wscad.2007.18749
Marco A. Z. Alves, H.C.F. Freitas, F. R. Wagner, P. Navaux
As diversas pesquisas e projetos de chips multiprocessados apontam na direção do uso da cache L2 compartilhada. No entanto, ainda está muito cedo para definir um modelo de compartilhamento à cache L2 que atenda às necessidades de desempenho dos futuros processadores multi-core. O objetivo deste artigo é apresentar resultados do projeto de um chip multiprocessado com vários agrupamentos de núcleos compartilhando a mesma cache L2 sob cargas de trabalho com conjuntos de dados contíguos e não contíguos. Os resultados apresentados mostram que a proximidade dos dados da aplicação paralela exerce forte influência sobre o desempenho nas diversas organizações de agrupamentos de processadores. Para a carga de trabalho com dados contíguos houve um aumento de desempenho de até 0,93% e uma redução na taxa de faltas da cache L2 de até 85,20% para leitura e aumento da taxa de faltas de até 59,07% para escrita. No conjunto de dados não contíguos houve uma degradação do desempenho de até 0,11%, mas com redução na taxa de faltas da cache L2 de até 82% para leitura e aumento na taxa de faltas para escrita de até 62,07%.
{"title":"Influência do Compartilhamento de Cache L2 em um Chip Multiprocessado sob Cargas de Trabalho com Conjuntos de Dados Contíguos e Não Contíguos","authors":"Marco A. Z. Alves, H.C.F. Freitas, F. R. Wagner, P. Navaux","doi":"10.5753/wscad.2007.18749","DOIUrl":"https://doi.org/10.5753/wscad.2007.18749","url":null,"abstract":"As diversas pesquisas e projetos de chips multiprocessados apontam na direção do uso da cache L2 compartilhada. No entanto, ainda está muito cedo para definir um modelo de compartilhamento à cache L2 que atenda às necessidades de desempenho dos futuros processadores multi-core. O objetivo deste artigo é apresentar resultados do projeto de um chip multiprocessado com vários agrupamentos de núcleos compartilhando a mesma cache L2 sob cargas de trabalho com conjuntos de dados contíguos e não contíguos. Os resultados apresentados mostram que a proximidade dos dados da aplicação paralela exerce forte influência sobre o desempenho nas diversas organizações de agrupamentos de processadores. Para a carga de trabalho com dados contíguos houve um aumento de desempenho de até 0,93% e uma redução na taxa de faltas da cache L2 de até 85,20% para leitura e aumento da taxa de faltas de até 59,07% para escrita. No conjunto de dados não contíguos houve uma degradação do desempenho de até 0,11%, mas com redução na taxa de faltas da cache L2 de até 82% para leitura e aumento na taxa de faltas para escrita de até 62,07%.","PeriodicalId":244503,"journal":{"name":"Anais do VIII Workshop em Sistemas Computacionais de Alto Desempenho (WSCAD 2007)","volume":"65 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2007-10-24","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"114907726","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2007-10-24DOI: 10.5753/wscad.2007.18747
Luiz S. Laurino, P. Navaux, T. G. S. D. Santos, Maurício L. Pilla
Técnicas de reuso e previsão de valores são alternativas para aumentar o desempenho em arquiteturas de processadores, já que permitem que instruções com dependências verdadeiras e de controle tenham seus resultados no mesmo ciclo. No entanto, arquiteturas que utilizam esses mecanismos não costumam incorporar os acessos à memória como parte das instruções que podem ser reusadas. Neste artigo, o RSTm é apresentado, uma versão da arquitetura RST (Reuse through Speculation on Traces) que permite o reuso (especulativo ou não) de acessos à memória. A verificação da reusabilidade de instruções de acesso à memória dá-se com o uso de uma tabela adicional, a Memo Table L, que armazena endereços e valores dos acessos reusáveis. Esta solução não limita o número de instruções de acesso à memória por traço e, também, armazena tanto o endereço como seu respectivo valor, com pequeno custo adicional no hardware. Os experimentos, realizados com benchmarks do SPEC2000int e SPEC2000fp mostram um speedup de até 1,0474 no desempenho do RSTm sobre o mecanismo original e de 1,2019 sobre a arquitetura base.
{"title":"RSTm: Reusando Especulativamente Acessos à Memória","authors":"Luiz S. Laurino, P. Navaux, T. G. S. D. Santos, Maurício L. Pilla","doi":"10.5753/wscad.2007.18747","DOIUrl":"https://doi.org/10.5753/wscad.2007.18747","url":null,"abstract":"Técnicas de reuso e previsão de valores são alternativas para aumentar o desempenho em arquiteturas de processadores, já que permitem que instruções com dependências verdadeiras e de controle tenham seus resultados no mesmo ciclo. No entanto, arquiteturas que utilizam esses mecanismos não costumam incorporar os acessos à memória como parte das instruções que podem ser reusadas. Neste artigo, o RSTm é apresentado, uma versão da arquitetura RST (Reuse through Speculation on Traces) que permite o reuso (especulativo ou não) de acessos à memória. A verificação da reusabilidade de instruções de acesso à memória dá-se com o uso de uma tabela adicional, a Memo Table L, que armazena endereços e valores dos acessos reusáveis. Esta solução não limita o número de instruções de acesso à memória por traço e, também, armazena tanto o endereço como seu respectivo valor, com pequeno custo adicional no hardware. Os experimentos, realizados com benchmarks do SPEC2000int e SPEC2000fp mostram um speedup de até 1,0474 no desempenho do RSTm sobre o mecanismo original e de 1,2019 sobre a arquitetura base.","PeriodicalId":244503,"journal":{"name":"Anais do VIII Workshop em Sistemas Computacionais de Alto Desempenho (WSCAD 2007)","volume":"39 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2007-10-24","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"122566806","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}