Acelerando a construção de vocabulário e matriz de co-ocorrência em bases textuais

Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD) Pub Date : 2019-11-08 DOI:10.5753/wscad.2019.8687

C. Barros, W. S. Martins

引用次数: 1

Abstract

Duas tarefas que se destacam no pré-processamento de textos são a construção de um vocabulário e a geração de uma matriz de co-ocorrências de palavras. Para um volume de dados crescente e não estático, estas tarefas requerem um alto custo computacional. Neste artigo, exploramos paralelismo para viabilizar este processamento. Apresentamos algoritmos paralelos para extrair o vocabulário e produzir a matriz de co-ocorrências e implementamos os mesmos em arquiteturas multicore e manycore (GPU). Os experimentos, utilizando uma base de dados padrão, mostram que nossa implementação consegue ser até 21x mais rápida que uma solução estado-da-arte (GloVe) sequencial na realização das mesmas tarefas.

查看原文

微信好友朋友圈 QQ好友复制链接

本刊更多论文

在文本数据库中加速词汇和共现矩阵的构建

文本预处理中突出的两个任务是词汇的构建和单词共现矩阵的生成。对于不断增长的非静态数据量，这些任务需要很高的计算成本。在本文中，我们探索并行性来实现这种处理。我们提出了并行算法来提取词汇表并生成共现矩阵，并在多核和多核架构(GPU)中实现它们。使用标准数据库进行的实验表明，在执行相同任务时，我们的实现比最先进的顺序解决方案(手套)快21倍。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文去求助

来源期刊

Anais do Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD)

自引率

0.00%

发文量