Anais da XVI Escola Regional de Banco de Dados (ERBD 2021)最新文献

英文中文

Modelagem Probabilística de Tópicos: Uma Comparação Empírica 概率主题建模:经验比较

Anais da XVI Escola Regional de Banco de Dados (ERBD 2021)

Pub Date : 2021-09-13 DOI: 10.5753/erbd.2021.17237

Leonardo H. Rocha, D. Welter, Denio Duarte

Abordagens probabilísticas de tópicos são ferramentas para descobrir e explorar estruturas temáticas escondidas em coleções de textos. Dada uma coleção de documentos, a tarefa de extrair os tópicos consiste em criar um vocabulário a partir da coleção, verificar a probabilidade de cada palavra pertencer a um documento da coleção. Em seguida, baseado no número de tópicos desejado, a probabilidade de cada palavra estar associada a um determinado tópico é contabilizada. Assim, um tópico é um conjunto de palavras ordenadas pela probabilidade de estar associada ao tópico. Várias abordagens são encontradas na literatura para criação de modelos de tópicos, e.g., Hierarchical Dirichlet Process (HDP), Latent Dirichlet Allocation (LDA), Non-Negative Matrix Factorization (NMF) e Dirichlet-multinomial Regression (DMR). Este trabalho procura identificar a qualidade dos tópicos construídos pelas quatro abordagens citadas. A Qualidade será medida por métricas de coerência e todas as abordagens terão a mesma coleção de documentos como entrada: notícias de websites dos jornais Breibart, Business Insider, The Atlantic, CNN e New York Times contendo 50.000 artigos. Os resultados mostram que DMR e LDA são os melhores modelos para extrair tópicos da coleção utilizada.

概率主题方法是发现和探索隐藏在文本集合中的主题结构的工具。给定一个文档集合，提取主题的任务包括从集合中创建一个词汇表，检查每个单词属于集合中的文档的概率。然后，根据所需的主题数量，计算每个单词与给定主题关联的概率。因此，一个主题是一组单词，按与该主题相关的概率排序。在文献中发现了几种创建主题模型的方法，如层次狄利克雷过程(HDP)、潜在狄利克雷分配(LDA)、非负矩阵分解(NMF)和狄利克雷多项回归(DMR)。本研究旨在确定上述四种方法所构建的主题的质量。质量将通过一致性度量来衡量，所有方法都将有相同的文档集作为输入:来自Breibart、Business Insider、The Atlantic、CNN和New York Times网站的新闻，包含5万篇文章。结果表明，DMR和LDA是提取所使用的集合主题的最佳模型。

{"title":"Modelagem Probabilística de Tópicos: Uma Comparação Empírica","authors":"Leonardo H. Rocha, D. Welter, Denio Duarte","doi":"10.5753/erbd.2021.17237","DOIUrl":"https://doi.org/10.5753/erbd.2021.17237","url":null,"abstract":"Abordagens probabilísticas de tópicos são ferramentas para descobrir e explorar estruturas temáticas escondidas em coleções de textos. Dada uma coleção de documentos, a tarefa de extrair os tópicos consiste em criar um vocabulário a partir da coleção, verificar a probabilidade de cada palavra pertencer a um documento da coleção. Em seguida, baseado no número de tópicos desejado, a probabilidade de cada palavra estar associada a um determinado tópico é contabilizada. Assim, um tópico é um conjunto de palavras ordenadas pela probabilidade de estar associada ao tópico. Várias abordagens são encontradas na literatura para criação de modelos de tópicos, e.g., Hierarchical Dirichlet Process (HDP), Latent Dirichlet Allocation (LDA), Non-Negative Matrix Factorization (NMF) e Dirichlet-multinomial Regression (DMR). Este trabalho procura identificar a qualidade dos tópicos construídos pelas quatro abordagens citadas. A Qualidade será medida por métricas de coerência e todas as abordagens terão a mesma coleção de documentos como entrada: notícias de websites dos jornais Breibart, Business Insider, The Atlantic, CNN e New York Times contendo 50.000 artigos. Os resultados mostram que DMR e LDA são os melhores modelos para extrair tópicos da coleção utilizada.","PeriodicalId":293556,"journal":{"name":"Anais da XVI Escola Regional de Banco de Dados (ERBD 2021)","volume":"22 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-09-13","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"122713068","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 0

Proposta de Algoritmo por Crescimento Gradativo de Diâmetro para Detecção de k-Flocks em Dados de Trajetórias 提出了一种直径逐渐增长算法，用于检测轨迹数据中的k- floks。

Anais da XVI Escola Regional de Banco de Dados (ERBD 2021)

Pub Date : 2021-09-13 DOI: 10.5753/erbd.2021.17245

Luan Almeida, Vinicius E. C. Verdade, D. Kaster

Há uma demanda crescente por dispositivos para coletar e analisar informações relacionadas à geolocalização, incluindo a descoberta de padrões de comovimento de objetos móveis. Entre os padrões de comovimento mais relevantes está o padrão Flock. Um flock é um conjunto de objetos que se movem juntos, definidos por um disco móvel de diâmetro fixo, por um período consecutivo de instantes de tempo. Recentemente, foi proposta uma variação desse padrão, denominada padrão kϵ-Flocks, que dispensa a definição do parâmetro distância. O algoritmo existente para detectar kϵ-Flocks segue uma abordagem top-down, começando por umúnico flock candidato e realizando subdivisões sucessivas até encontrar k flocks com o menor diâmetro possível. Este trabalho propõe um novo algoritmo bottom-up para o problema kϵ-Flocks, baseado no agrupamento iterativo de elementos próximos no espaço até detectar os kϵ-Flocks. O trabalho descreve os fundamentos da solução, discute sua correção e apresenta o algoritmo proposto. Espera-se que o algoritmo proposto seja mais eficiente que o algoritmo top-down em muitos casos típicos.

对收集和分析地理位置相关信息的设备的需求越来越大，包括发现移动物体的移动模式。其中最相关的移动模式是Flock模式。蜂群是一组一起移动的物体，由一个固定直径的移动圆盘定义，持续一段时间。最近，有人提出了这种模式的一种变体，称为k柱一-弗洛克斯模式，它免除了距离参数的定义。现有的检测k柱一群的算法遵循自上而下的方法，从单个候选群开始，然后进行连续的细分，直到找到直径最小的k群。本文提出了一种新的自底向上的k柱一floks问题算法，该算法基于空间中相邻元素的迭代聚类，直到检测到k柱一floks。本文介绍了求解的基本原理，讨论了求解的正确性，并提出了算法。在许多典型情况下，该算法有望比自顶向下算法更有效。

{"title":"Proposta de Algoritmo por Crescimento Gradativo de Diâmetro para Detecção de k-Flocks em Dados de Trajetórias","authors":"Luan Almeida, Vinicius E. C. Verdade, D. Kaster","doi":"10.5753/erbd.2021.17245","DOIUrl":"https://doi.org/10.5753/erbd.2021.17245","url":null,"abstract":"Há uma demanda crescente por dispositivos para coletar e analisar informações relacionadas à geolocalização, incluindo a descoberta de padrões de comovimento de objetos móveis. Entre os padrões de comovimento mais relevantes está o padrão Flock. Um flock é um conjunto de objetos que se movem juntos, definidos por um disco móvel de diâmetro fixo, por um período consecutivo de instantes de tempo. Recentemente, foi proposta uma variação desse padrão, denominada padrão kϵ-Flocks, que dispensa a definição do parâmetro distância. O algoritmo existente para detectar kϵ-Flocks segue uma abordagem top-down, começando por umúnico flock candidato e realizando subdivisões sucessivas até encontrar k flocks com o menor diâmetro possível. Este trabalho propõe um novo algoritmo bottom-up para o problema kϵ-Flocks, baseado no agrupamento iterativo de elementos próximos no espaço até detectar os kϵ-Flocks. O trabalho descreve os fundamentos da solução, discute sua correção e apresenta o algoritmo proposto. Espera-se que o algoritmo proposto seja mais eficiente que o algoritmo top-down em muitos casos típicos.","PeriodicalId":293556,"journal":{"name":"Anais da XVI Escola Regional de Banco de Dados (ERBD 2021)","volume":"23 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-09-13","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"129828601","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 0

Um estudo sobre o aprimoramento de tuítes com base na substituição de adjetivos 基于形容词替换的推文改进研究

Anais da XVI Escola Regional de Banco de Dados (ERBD 2021)

Pub Date : 2021-09-13 DOI: 10.5753/erbd.2021.17244

Juliano M. Pasa, L. D. Oliveira, S. L. S. Mergen

Hoje em dia, redes sociais como o Twitter são usadas não apenas para entretenimento, mas como uma ferramenta de trabalho, seja de cunho político, artístico ou puramente comercial. Muitas das mensagens publicadas são concebidas com cuidado, de modo a fidelizar e ampliar a base de seguidores. Nesse contexto, este trabalho propõe a reescrita de tuítes visando aumentar o seu engajamento. A reescrita proposta substitui adjetivos por sinônimos considerados mais adequados, levando em consideração os adjetivos que são comumente associados à tuítes com alta taxa de engajamento. Os resultados experimentais usando um algoritmo de aprendizado de máquina como avaliador demonstram que o processo de reescrita potencialmente gera tuítes melhores.

如今，像Twitter这样的社交网络不仅被用于娱乐，而且被用作一种工作工具，无论是政治、艺术还是纯粹的商业。许多发布的信息都是精心设计的，以建立忠诚度和扩大追随者基础。在此背景下，本研究建议重写推文，以提高他们的参与度。考虑到那些通常与高参与度推文相关的形容词，提议的改写将形容词替换为被认为更合适的同义词。使用机器学习算法作为评估器的实验结果表明，重写过程有可能产生更好的推文。

引用次数: 0

Um estudo sobre reutilização de treinamento em Modelos de Previsão de Vulnerabilidade 脆弱性预测模型中培训重用的研究

Anais da XVI Escola Regional de Banco de Dados (ERBD 2021)

Pub Date : 2021-09-13 DOI: 10.5753/erbd.2021.17243

Matheus Vinícius Todescato, Guilherme Dal Bianco

Encontrar bugs ou falhas de código em sistemas pode ser uma tarefa extremamente complexa e onerosa. Uma alternativa para diminuir o esforço do usuário é aplicar o Modelo de Previsão de Vulnerabilidade (MPV). Um MPV utiliza técnicas de classificação e aprendizagem ativa para identificar trechos de código com possíveis bugs. Para isso, o MPV depende de um treinamento inicial (arquivos de código contendo bugs) na construção de um modelo de predição. Tal problema, conhecido como partida fria ou cold-start, surge quando o método não tem exemplos representativos para o início do processo. Neste trabalho, o objetivo é avaliar experimentalmente a reutilização de treinamento entre projetos com intuito de aliviar o impacto da partida fria quando se deseja encontrar todos (ou quase todos) arquivos de bug.

在系统中查找错误或代码故障可能是一项极其复杂和昂贵的任务。减少用户工作量的另一种方法是应用脆弱性预测模型(MPV)。MPV使用分类和主动学习技术来识别可能存在错误的代码片段。为此，MPV依赖于初始训练(包含错误的代码文件)来构建预测模型。当该方法没有具有代表性的过程启动实例时，就会出现这种问题，称为冷启动或冷启动。在这项工作中，目标是实验性地评估项目之间的培训重用，以减轻在寻找所有(或几乎所有)错误文件时冷启动的影响。

引用次数: 0

Análise de Dados de Vendas de Feiras Livres: Um Estudo com a Polifeira da UFSM 自由市场销售数据分析:与UFSM政策的研究

Anais da XVI Escola Regional de Banco de Dados (ERBD 2021)

Pub Date : 2021-09-13 DOI: 10.5753/erbd.2021.17247

Gabriel Mello Porcher, G. P. Silva, Daniel Lichtnow

Este trabalho apresenta análises feitas sobre os dados das vendas de uma feira livre utilizando ferramentas de Business Intelligence. As análises foram feitas mediante a elaboração de dashboards e uso de algoritmos de mineração de dados. Os resultados iniciais indicam que é possível estimar a demanda por produtos, algo que pode ser aplicado em outras feiras livres.

这项工作提出了使用商业智能工具对一个公开市场的销售数据进行分析。分析是通过开发仪表板和使用数据挖掘算法进行的。初步结果表明，对产品需求的估计是可能的，这可以应用于其他集市。

引用次数: 0

Estudos de caso de análise de perfis de usuários agrupados por hashtags no Twitter 案例研究分析用户档案按Twitter标签分组

Anais da XVI Escola Regional de Banco de Dados (ERBD 2021)

Pub Date : 2021-09-13 DOI: 10.5753/erbd.2021.17250

Pedro Costa, J. R. Lima, Ronaldo A. Marques, D. Trindade, K. Komati

O objetivo principal do estudo foi analisar os perfis de usuários, se são ou não bots, na disseminação de uma determinada hashtag na rede social Twitter. Este trabalho apresenta o estudo de caso de duas hashtags que foram compartilhadas: uma que possui indícios de serem disseminadas por bots, e a outra não, sendo utilizada com o objetivo de comparação. Foi possível avaliar que a hashtag com indícios de ter sido impulsionada por robôs ainda apresenta perfis de usuários bots, mesmo meses depois da mesma ter sido uma trend.

这项研究的主要目的是分析用户的资料，如果他们是机器人，在社交网络Twitter上传播一个特定的标签。这项工作提出了两个被分享的标签的案例研究:一个有证据表明被机器人传播，另一个没有，用于比较目的。有证据表明，这个标签是由机器人驱动的，即使在它成为一种趋势几个月后，它仍然有机器人用户的资料。

引用次数: 0

Uso de Orientação a Objetos para a Modelagem do Autômato Celular Jogo da Vida 使用面向对象的生命游戏元胞自动机建模

Anais da XVI Escola Regional de Banco de Dados (ERBD 2021)

Pub Date : 2021-09-13 DOI: 10.5753/erbd.2021.17253

F. M. Palermo, Samuel R. Cassanego, S. L. S. Mergen

O Jogo da vida (Game of life) é um conhecido programa que usa autômatos celulares para simular a evolução de seres biológicos. Este artigo apresenta a transcrição do código estrutural deste programa para um código orientado a objetos. O objetivo da transcrição é permitir que novos comportamentos sejam adicionados de maneira simples, sem que código pre-existente precise ser modificado. Os testes demonstram que a transcrição foi bem sucedida, e abre caminho para que novos comportamentos sejam testados.

生命游戏是一个著名的程序，它使用元胞自动机来模拟生物的进化。本文介绍了该程序的结构代码向面向对象代码的转录。转录的目的是允许以简单的方式添加新的行为，而不需要修改现有的代码。测试表明，转录是成功的，并为测试新的行为铺平了道路。

引用次数: 0

Visual Analytics e Outlying Aspect Mining: contextualização de anomalias considerando questões temporais e multidimensionais 视觉分析和异常方面挖掘:考虑时间和多维问题的异常背景

Anais da XVI Escola Regional de Banco de Dados (ERBD 2021)

Pub Date : 2021-09-13 DOI: 10.5753/erbd.2021.17235

Felipe Marx Benghi

Outlying Aspect Mining (OAM) is a new way of handling outliers that, instead of focusing solely on the detection, also provides an explanation. This is done by presenting a subspace of attributes that had the most abnormal behavior. Acknowledging this group of attributes is important but only listing them is not sufficient for a human specialist to comprehend the situation and take the necessary actions. A higher-level, visual approach can improve the process, providing better cognitive clues to experts. Here we describe a Visual Analytics platform developed to present data and OAM outputs in a human-friendly interface. A novelty available on this platform is a parallel coordinates plot that also display temporal multidimensional data. Such representation overcome human visual system limitations and helps in the outlier investigation. To explore the applicability of the developed tool, a locomotive operation user case is employed with focus on fault analysis in an OAM point of view.

外围方面挖掘(OAM)是一种处理异常点的新方法，它不仅关注检测，还提供了解释。这是通过呈现具有最异常行为的属性的子空间来实现的。承认这组属性很重要，但仅仅列出它们不足以让人类专家理解情况并采取必要的行动。一种更高层次的视觉方法可以改善这一过程，为专家提供更好的认知线索。在这里，我们描述了一个可视化分析平台，用于在一个人性化的界面中呈现数据和OAM输出。该平台上的一个新颖之处是可以显示时间多维数据的平行坐标图。这种表征克服了人类视觉系统的局限性，有助于离群值调查。为探讨所开发工具的适用性，以机车运行用户为例，重点从OAM的角度进行故障分析。

引用次数: 0

Buskaki Empresas - Ferramenta para busca de dados abertos de empresas curitibanas Buskaki Empresas -搜索库里提巴公司开放数据的工具

Anais da XVI Escola Regional de Banco de Dados (ERBD 2021)

Pub Date : 2021-09-13 DOI: 10.5753/erbd.2021.17233

E. S. B. Júnior, Wilian Cavassin, Nádia P. Kozievitch, M. B. Gutierrez

A busca de dados de Pessoa Jurídica é um processo relevante para diversas entidades, seja para consultar uma fonte confiável de dados sobre potenciais parceiros de negócios, para estudos relacionados a desenvolvimento urbano ou para simplesmente coletar informações sobre determinada empresa. Neste contexto, este artigo apresenta uma ferramenta para busca de informações de empresas curitibanas que disponibilize outras formas de consulta além do CNPJ, baseada em Sistemas de Informação Geográfica (SIG) e cidades inteligentes. A ferramenta utiliza dados abertos e aplica algoritmos de comparação textual para aumentar a abrangência dos resultados da busca.

对许多实体来说，寻找法人数据是一个相关的过程，无论是咨询潜在商业伙伴的可靠数据来源，进行与城市发展相关的研究，还是仅仅收集有关某一特定公司的信息。在此背景下，本文提出了一个基于地理信息系统(gis)和智慧城市的库里提巴公司信息搜索工具，该工具提供了CNPJ之外的其他查询形式。该工具使用开放数据，并应用文本比较算法来增加搜索结果的覆盖面。

引用次数: 0

Agrupamento de Eventos de Trânsito baseado em Tesselação 基于镶嵌的交通事件分组

Anais da XVI Escola Regional de Banco de Dados (ERBD 2021)

Pub Date : 2021-09-13 DOI: 10.5753/erbd.2021.17242

Mariana M. Garcez Duarte, M. V. Pontarolo, Rebeca Schroeder Freitas, Carmem S. Hara

Dados coletados a partir de eventos no trânsito, como engarrafamentos e acidentes, são importantes para o planejamento da mobilidade em cidades. O desafio é transformar este conjunto de dados em conhecimento sobre mobilidade. Em razão da velocidade com que os dados são reportados, o armazenamento de eventos é geralmente feito como registros individuais. Embora este modelo de armazenamento garanta um baixo custo de inserção em uma base de dados, ele produz baixo desempenho em consultas que necessitam recuperar eventos que satisfaçam filtros espaço-temporais. Para tratar deste problema, este artigo propõe um método para o armazenamento e indexação de dados de eventos de trânsito baseado em uma tesselação da área de interesse. íE apresentado um estudo de caso que demostra sua aplicação sobre dados coletados no aplicativo Waze.

从交通事件(如交通堵塞和事故)中收集的数据对城市的交通规划很重要。挑战在于将这些数据集转化为移动性知识。由于数据报告的速度快，事件的存储通常是单独的记录。虽然这种存储模型保证了在数据库中插入的低成本，但它在需要检索满足时空过滤器的事件的查询中产生较低的性能。为了解决这一问题，本文提出了一种基于感兴趣区域镶嵌的交通事件数据存储和索引方法。我们提出了一个案例研究，展示了它在Waze应用程序中收集的数据上的应用。

引用次数: 0

首页上一页

下一页尾页

类型

全部化学•材料生命科学医学物理工程技术环境•农林材料科学地球科学法学管理学化学环境科学与生态学计算机科学教育学经济学农林科学人文科学生物学数学物理与天体物理心理学综合性期刊其他工业工程理学历史学农学文学信息工程

数据库

全部 ACS Publications Elsevier ieeexplore Springer The Royal Society of Chemistry Wiley

期刊

Anais da XVI Escola Regional de Banco de Dados (ERBD 2021)

全部 Acc. Chem. Res. ACS Applied Bio Materials ACS Appl. Electron. Mater. ACS Appl. Energy Mater. ACS Appl. Mater. Interfaces ACS Appl. Nano Mater. ACS Appl. Polym. Mater. ACS BIOMATER-SCI ENG ACS Catal. ACS Cent. Sci. ACS Chem. Biol. ACS Chemical Health & Safety ACS Chem. Neurosci. ACS Comb. Sci. ACS Earth Space Chem. ACS Energy Lett. ACS Infect. Dis. ACS Macro Lett. ACS Mater. Lett. ACS Med. Chem. Lett. ACS Nano ACS Omega ACS Photonics ACS Sens. ACS Sustainable Chem. Eng. ACS Synth. Biol. Anal. Chem. BIOCHEMISTRY-US Bioconjugate Chem. BIOMACROMOLECULES Chem. Res. Toxicol. Chem. Rev. Chem. Mater. CRYST GROWTH DES ENERG FUEL Environ. Sci. Technol. Environ. Sci. Technol. Lett. Eur. J. Inorg. Chem. IND ENG CHEM RES Inorg. Chem. J. Agric. Food. Chem. J. Chem. Eng. Data J. Chem. Educ. J. Chem. Inf. Model. J. Chem. Theory Comput. J. Med. Chem. J. Nat. Prod. J PROTEOME RES J. Am. Chem. Soc. LANGMUIR MACROMOLECULES Mol. Pharmaceutics Nano Lett. Org. Lett. ORG PROCESS RES DEV ORGANOMETALLICS J. Org. Chem. J. Phys. Chem. J. Phys. Chem. A J. Phys. Chem. B J. Phys. Chem. C J. Phys. Chem. Lett. Analyst Anal. Methods Biomater. Sci. Catal. Sci. Technol. Chem. Commun. Chem. Soc. Rev. CHEM EDUC RES PRACT CRYSTENGCOMM Dalton Trans. Energy Environ. Sci. ENVIRON SCI-NANO ENVIRON SCI-PROC IMP ENVIRON SCI-WAT RES Faraday Discuss. Food Funct. Green Chem. Inorg. Chem. Front. Integr. Biol. J. Anal. At. Spectrom. J. Mater. Chem. A J. Mater. Chem. B J. Mater. Chem. C Lab Chip Mater. Chem. Front. Mater. Horiz. MEDCHEMCOMM Metallomics Mol. Biosyst. Mol. Syst. Des. Eng. Nanoscale Nanoscale Horiz. Nat. Prod. Rep. New J. Chem. Org. Biomol. Chem. Org. Chem. Front. PHOTOCH PHOTOBIO SCI PCCP Polym. Chem.

﹀