Anais do III Dataset Showcase Workshop (DSW 2021)最新文献

英文中文

BovDB: A data set of stock quotes for Machine Learning on all companies from B3 between 1995 and 2020 BovDB: 1995年至2020年期间机器学习B3级所有公司的股票报价数据集

Anais do III Dataset Showcase Workshop (DSW 2021)

Pub Date : 2021-10-04 DOI: 10.5753/dsw.2021.17411

Fabian Corrêa Cardoso, J. Malska, P. Ramiro, Giancarlo Lucca, E. N. Borges, V. Mattos, R. Berri

Stock markets are responsible for the movement of huge amounts of financial resources around the world. This market generates a high volume of transaction data, which after being analyzed are very useful for many applications. In this paper we present BovDB, a data set that was built considering as source the Brazilian Stock Exchange (B3) with information related to the years between 1995 and 2020. We have approached the events’ impact on the stocks by applying a cumulative factor to correct prices. The results were compared with public data from InfoMoney and BR Investing, showing that our methods are valid and in accordance with the market standards. BovDB data set can be used as a benchmark for different applications and is publicly available for any researcher on GitHub.

股票市场负责全球巨额金融资源的流动。这个市场产生了大量的交易数据，经过分析后，这些数据对许多应用程序都非常有用。在本文中，我们介绍了BovDB，这是一个以巴西证券交易所(B3)为数据源构建的数据集，其中包含1995年至2020年之间的相关信息。我们通过应用累积因子来修正价格，来接近这些事件对股票的影响。结果与InfoMoney和BR Investing的公开数据进行了比较，表明我们的方法是有效的，符合市场标准。BovDB数据集可以用作不同应用程序的基准，并且对GitHub上的任何研究人员公开可用。

引用次数: 0

Datasets Curados e Enriquecidos com Proveniência da Campanha Nacional de Vacinação Contra COVID-19 从国家COVID-19疫苗接种运动中治愈和丰富的数据集

Anais do III Dataset Showcase Workshop (DSW 2021)

Pub Date : 2021-10-04 DOI: 10.5753/dsw.2021.17423

M. V. Gonçalves, Jamile Santos dos Santos, Caio Zava Ferreira, Jorge Zavaleta, Sérgio Manuel Serra da Cruz, Jonice de Oliveira Sampaio

A pandemia da COVID-19 é uma ameaça global. Se, por um lado, contabilizamos muitas perdas de vidas, por outro lado tem-se acelerado a geração de datasets e demandas analíticas urgentes. Dentre as estratégias de combate, destacam-se a vacinação e as investigações epidemiológicas centradas em dados. Este artigo apresenta o processo de construção de datasets curados e anotados com metadados de proveniência retrospectiva, tendo como base os dados de registro da Campanha de Vacinação contra COVID-19 no Brasil. O dataset contém milhares de registros tratados até Março de 2021. Os dados foram analisados, investigados, tratados e cruzados com outras fontes, de modo a corrigi-los e complementá-los, resultando em datasets curados e alinhados aos princípios FAIR.

COVID-19大流行是一种全球性威胁。一方面，我们计算了大量的生命损失，另一方面，它加速了数据集的生成和紧急分析需求。在防治战略中，重点是疫苗接种和以数据为中心的流行病学调查。本文以巴西COVID-19疫苗接种运动的记录数据为基础，介绍了用回顾性来源元数据构建愈合和注释数据集的过程。数据集包含截至2021年3月处理的数千条记录。对数据进行分析、调查、处理，并与其他来源进行交叉核对，以纠正和补充它们，从而产生符合公平原则的数据集。

引用次数: 10

Coleta e visualização de dados disponíveis em repositórios públicos referentes a produção científica de pesquisadores 收集和可视化公共存储库中有关研究人员科学生产的可用数据

Anais do III Dataset Showcase Workshop (DSW 2021)

Pub Date : 2021-10-04 DOI: 10.5753/dsw.2021.17418

A. M. Branco, C. Dorneles

Dados que refletem a produção científica de pesquisadores têm valor inestimado para diversas aplicações. Há diversos repositórios que indexam os artigos e os disponibilizam para consultas, tais como DBLP, Research Gate e Google Scholar. Apesar dos dados estarem disponíveis nos diversos repositórios públicos, a coleta e persistência local desses dados pode ser de grande utilidade para certas aplicações.Este artigo apresenta uma proposta de coletor de dados de três repositórios públicos: DBLP, Research Gate e Google Scholar, e sua posterior persistência em um banco de dados relacional. Além disso, é apresentada também uma interface de visualização para os dados coletados.

反映研究人员科学成果的数据在许多应用中具有不可估量的价值。有几个存储库对文章进行索引，并使它们可供查询，如DBLP、Research Gate和谷歌Scholar。尽管数据在各种公共存储库中可用，但这些数据的收集和本地持久性对某些应用程序非常有用。本文提出了一个来自DBLP、Research Gate和谷歌Scholar三个公共存储库的数据采集器，以及它们在关系数据库中的持久性。此外，还提供了收集数据的可视化界面。

引用次数: 0

Três Datasets criados a partir de um banco de Canções Populares Brasileiras de Sucesso e Não-Sucesso de 2014 a 2019 从2014年到2019年巴西流行歌曲的成功和不成功的数据库中创建了三个数据集

Anais do III Dataset Showcase Workshop (DSW 2021)

Pub Date : 2021-10-04 DOI: 10.5753/dsw.2021.17410

André Augusto Bertoni, R. Lemos

Este trabalho trata da criação e otimização de um grande conjunto de características extraídas de um banco de 881 canções populares brasileiras de Sucesso e Não-Sucesso, entre janeiro de 2014 a maio de 2019. A partir desse banco de canções, criou-se três DataSets de características (features) distintas, sendo que o primeiro contém 3215 características estatísticas; o segundo e o terceiro são totalmente inéditos, pois foram formados a partir da Melodia Vocal das canções (Melodia Predominante da Voz), não havendo banco semelhante disponível para pesquisa. O segundo banco representa um gráfico de espectrograma, formado a partir dos 90 segundos iniciais de cada canção. O terceiro banco é o mais peculiar de todos, pois representa uma análise semântica musical do segundo banco, onde a finalidade principal foi construir uma tabela composta pelas sequências melódicas mais frequentes de cada canção. Nossos Datasets usam apenas canções brasileiras e concentram seus dados em um período limitado e contemporâneo. A ideia da criação desses conjuntos de dados é estimular o estudo de técnicas de Aprendizado de Máquina que requeiram informações musicais. Os recursos extraídos podem auxiliar no desenvolvimento de novas pesquisas nas áreas da música e computação no futuro.

这项工作涉及从2014年1月至2019年5月期间的881首成功和不成功的巴西流行歌曲数据库中提取的大量特征的创建和优化。从这个歌曲数据库中创建了三个不同的特征数据集，第一个包含3215个统计特征;第二和第三部分是完全未发表的，因为它们是由歌曲的声乐旋律(主要的声乐旋律)组成的，没有类似的数据库可供研究。第二个银行代表了一个谱图，从每首歌的开始90秒形成。第三银行是所有银行中最奇特的，因为它代表了对第二银行的音乐语义分析，其主要目的是建立一个由每首歌最常见的旋律序列组成的表。我们的数据集只使用巴西歌曲，并将您的数据集中在有限的当代时期。创建这些数据集的想法是为了刺激对需要音乐信息的机器学习技术的研究。提取的资源可能有助于未来音乐和计算领域的新研究的发展。

{"title":"Três Datasets criados a partir de um banco de Canções Populares Brasileiras de Sucesso e Não-Sucesso de 2014 a 2019","authors":"André Augusto Bertoni, R. Lemos","doi":"10.5753/dsw.2021.17410","DOIUrl":"https://doi.org/10.5753/dsw.2021.17410","url":null,"abstract":"Este trabalho trata da criação e otimização de um grande conjunto de características extraídas de um banco de 881 canções populares brasileiras de Sucesso e Não-Sucesso, entre janeiro de 2014 a maio de 2019. A partir desse banco de canções, criou-se três DataSets de características (features) distintas, sendo que o primeiro contém 3215 características estatísticas; o segundo e o terceiro são totalmente inéditos, pois foram formados a partir da Melodia Vocal das canções (Melodia Predominante da Voz), não havendo banco semelhante disponível para pesquisa. O segundo banco representa um gráfico de espectrograma, formado a partir dos 90 segundos iniciais de cada canção. O terceiro banco é o mais peculiar de todos, pois representa uma análise semântica musical do segundo banco, onde a finalidade principal foi construir uma tabela composta pelas sequências melódicas mais frequentes de cada canção. Nossos Datasets usam apenas canções brasileiras e concentram seus dados em um período limitado e contemporâneo. A ideia da criação desses conjuntos de dados é estimular o estudo de técnicas de Aprendizado de Máquina que requeiram informações musicais. Os recursos extraídos podem auxiliar no desenvolvimento de novas pesquisas nas áreas da música e computação no futuro.","PeriodicalId":314975,"journal":{"name":"Anais do III Dataset Showcase Workshop (DSW 2021)","volume":"2 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-10-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"122356421","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 3

CandiDATA: um dataset para análise das eleições no Brasil 候选人:分析巴西选举的数据集

Anais do III Dataset Showcase Workshop (DSW 2021)

Pub Date : 2021-10-04 DOI: 10.5753/dsw.2021.17424

Felipe F. Vasconcelos, João Tavares, Murilo U. Ribeiro, Fábio J. Coutinho, João Paulo Clarindo

O Tribunal Superior Eleitoral (TSE), responsável pelas eleições no Brasil, disponibiliza dados acerca de candidatos e partidos que disputaram o pleito eleitoral desde 1933. Esses dados constituem um importante acervo, sendo utilizados como base por trabalhos em diferentes áreas de pesquisa. Entretanto, os dados disponibilizados pelo TSE possuem diversos problemas relacionados à falta de padronização e inconsistência, dificultando a análise e a integração com bases externas. Este trabalho apresenta CandiDATA, um dataset padronizado com dados das eleições brasileiras. CandiDATA é disponibilizado em formato aberto e abrange o período eleitoral entre 1945 e 2020, incluindo informações adicionais, além dos dados do TSE.

负责巴西选举的高等选举法庭(TSE)提供了自1933年以来参加选举的候选人和政党的数据。这些数据是一个重要的收集，被用作不同研究领域工作的基础。然而，TSE提供的数据存在一些与缺乏标准化和不一致有关的问题，阻碍了分析和与外部数据库的集成。这项工作提出了候选人，一个标准化的数据集与巴西选举的数据。《候选人》以开放格式提供，涵盖1945年至2020年的选举期间，除了东京证监会的数据外，还包括其他信息。

引用次数: 3

PolRoute-DS: um Dataset de Dados Criminais para Geração de Rotas de Patrulhamento Policial PolRoute-DS:用于生成警察巡逻路线的犯罪数据集

Anais do III Dataset Showcase Workshop (DSW 2021)

Pub Date : 2021-10-04 DOI: 10.5753/dsw.2021.17420

B. Sá, Gustavo Muller, Maicon Banni, Wagner Santos, Marcos Lage, I. Rosseti, Yuri Frota, Daniel de Oliveira

Esse artigo apresenta o dataset PolRoute-DS, criado para viabilizar o desenvolvimento e testes de abordagens de geração de rotas policiais em centros urbanos. O PolRoute-DS combina a estrutura espacial da cidade de interesse, representada como um grafo conexo e direcionado de segmentos de vias, com dados criminais obtidos de fontes públicas (no contexto deste artigo os dados são providos pela Secretaria da Segurança Pública de São Paulo). O PolRoute-DS se encontra disponível para uso da comunidade sob a licença Creative Commons By Attribution 4.0 International (versões CSV e PostgreSQL), e pode ser obtido em https://osf.io/mxrgu/.

本文介绍了PolRoute-DS数据集，该数据集旨在开发和测试在城市中心生成警察路线的方法。PolRoute-DS将感兴趣的城市的空间结构与从公共来源获得的犯罪数据(在本文的背景下，数据由sao保罗的公共安全部门提供)相结合，表示为一个连接的、有方向的道路段图。PolRoute-DS可在知识共享署名4.0国际许可(CSV和PostgreSQL版本)下供社区使用，可从https://osf.io/mxrgu/获得。

引用次数: 4

Central de Fatos: Um Repositório de Checagens de Fatos 事实中心:事实检查的存储库

Anais do III Dataset Showcase Workshop (DSW 2021)

Pub Date : 2021-10-04 DOI: 10.5753/dsw.2021.17421

J. Couto, Breno Pimenta, Igor M. de Araújo, Samuel Assis, J. C. S. Reis, A. P. C. da Silva, Jussara M. Almeida, Fabrício Benevenuto

Recentemente, o interesse por frentes de pesquisa analisando os mecanismos, bem como maneiras de evitar a disseminação de desinformação aumentou significativamente. Neste cenário, um recorrente obstáculo a indisponibilidade de checagens de fatos. Neste trabalho, compilamos uma extensa coleção de checagens oriundas de importantes agências de checagem de fatos brasileiras. Oferecemos à comunidade cientifica uma coleção inédita contendo checagens de diversas fontes confiáveis que abrangem um largo espectro de tópicos. Ao todo, a coleção resultante engloba 11647 instâncias de checagem de fatos coletadas em 6 agências diferentes que podem ser utilizadas em diversos estudos nos contexos de identificação e combate à desinformaço em plataformas digitais no Brasil.

最近，研究前沿分析机制和防止错误信息传播的方法的兴趣显著增加。在这种情况下，一个反复出现的障碍是无法获得事实核查。在这项工作中，我们汇编了来自巴西重要事实核查机构的大量核查。我们为科学界提供了一个前所未有的集合，包含了来自几个可靠来源的检查，涵盖了广泛的主题。总的来说，结果收集包括6个不同机构收集的11647个事实验证实例，可用于巴西数字平台上识别和打击虚假信息的各种研究。

引用次数: 5

SAT-ESPEC: Análise e Coleta de Dados da Transmissão de Estações Terrenas de uma Rede Satélite SAT-ESPEC:分析和收集卫星网络地面站传输的数据

Anais do III Dataset Showcase Workshop (DSW 2021)

Pub Date : 2021-10-04 DOI: 10.5753/dsw.2021.17413

Josinaldo Azevedo, A. L. C. Barcellos, A. C. Mendes, Daniel de Oliveira, Paulo C. S. Vidal, Marcos V. N. Bedo

As redes de satélites são um complemento essencial para a infraestrutura de telecomunicações no Brasil. Em alguns casos, esta rede é o único meio de comunicação para várias localidades remotas, que são de difícil acesso geográfico. Esse trabalho tem o objetivo de disponibilizar uma base, denominado SAT-ESPEC, construída a partir do espectrograma gerado da recepção dos sinais de cinco estações terrenas, que estão instaladas e em operação na Região Norte do Brasil. Toda a coleta de dados ocorreu numa rede em produção através da Estação de Radiomonitoração e Geolocalização da Agência Nacional de Telecomunicações (ANATEL), que fica no município do Rio de Janeiro. Esse conjunto se encaixa no domínio de propagação de radiofrequência e segurança de rede, e pode ser usado para tarefas como classificação de dados, detecção de anormalidades e análises de séries-temporais.

卫星网络是巴西电信基础设施的重要补充。在某些情况下，这个网络是几个地理上难以到达的偏远地区的唯一通信手段。这项工作的目的是提供一个名为SAT-ESPEC的基地，该基地是由巴西北部安装和运行的五个地面站的信号接收产生的谱图构建的。所有的数据收集都是通过位于里约热内卢里约热内卢市的国家电信机构(ANATEL)的无线电监测和地理定位站在生产网络中进行的。该集适用于射频传播和网络安全领域，可用于数据分类、异常检测和时间序列分析等任务。

引用次数: 1

Covid Data Analytics: Repositório de Dados Provenientes de Múltiplas Fontes sobre a Pandemia de COVID-19 no Brasil Covid -19数据分析:关于巴西Covid -19大流行的多来源数据库

Anais do III Dataset Showcase Workshop (DSW 2021)

Pub Date : 2021-08-10 DOI: 10.5753/dsw.2021.17419

P. Moreira, R. Fonseca, Pedro Loures Alzamora, R. S. Franco, J. Guiginski, Evandro L. T. P. Cunha, Tereza Bernardes, Bruno Chagas, Kícila Ferregueti, Luana Passos, Luísa Cardoso, Raquel Schneider, W. Pereira, A. P. C. da Silva, W. Meira Jr.

Este artigo apresenta a construção e publicação de um repositório de dados utilizados e desenvolvidos no âmbito do projeto Covid Data Analytics (CDA), executado pelo Departamento de Ciência da Computação da UFMG. O projeto visou monitorar aspectos referentes à situação social, econômica e epidemiológica da COVID-19 no Brasil a partir da análise de dados provenientes de fontes oficiais e não oficiais, de redes sociais online e da web em geral. A construção do repositório, contendo 18 atributos e 1086 registros, se baseou na coleta direta de dados das fontes selecionadas, os quais foram posteriormente enriquecidos e, finalmente, disponibilizados por meio de uma ferramenta de busca desenvolvida exclusivamente para eles.

本文介绍了由UFMG计算机科学系执行的Covid数据分析(CDA)项目中使用和开发的数据存储库的构建和发布。该项目旨在通过分析官方和非官方来源、在线社交网络和一般网络的数据，监测巴西COVID-19的社会、经济和流行病学状况。存储库的构建包含18个属性和1086条记录，是基于从选定来源直接收集的数据，这些数据随后被丰富，并最终通过专门为它们开发的搜索工具提供。

引用次数: 2

qFEx - um crawler para busca e extração de questionários de pesquisa em documentos HTML qFEx -一个在HTML文档中搜索和提取调查问卷的爬虫

Anais do III Dataset Showcase Workshop (DSW 2021)

Pub Date : 2017-11-06 DOI: 10.5753/dsw.2021.17409

Gilney Nathanael Mathias, C. Dorneles

Questionários de pesquisa podem ser utilizados por empresas ou instituições para avaliar itens ou produtos, mediar a satisfação de seus funcionários/clientes, ou serem utilizados por pesquisadores para coleta de dados que podem ser usados em estudos. Alguns problemas na criação de tais questionários envolvem: decidir quais perguntas fazer, como fazê-las e como organizá-las. Visando isso, este trabalho propõe a criação de um Web Crawler, que varre a Web em busca de sites que possivelmente contenham questionários, e de um Extrator, capaz de extrair os questionários da lista de páginas coletadas pelo crawler e salvá-las em um banco de dados relacional. A base de dados criada pode depois, servir para a análise desses dados e/ou como uma base centralizada de exemplos para a elaboração de novos questionários ou ainda para o reuso de questões existentes. Alguns experimentos são apresentados para demonstrar a correta coleta de questionários pelo crawler, e a posterior extração das questões presentes nos questionários.

调查问卷可以被公司或机构用来评估项目或产品，调解其员工/客户的满意度，或被研究人员用来收集可用于研究的数据。制作这类问卷的一些问题包括:决定问什么问题，如何问问题，以及如何组织问题。针对这一目标，本文提出创建一个网络爬虫，扫描网络上可能包含问卷的网站，以及一个提取器，能够从爬虫收集的页面列表中提取问卷，并将它们保存在关系数据库中。然后，创建的数据库可以用于分析这些数据和/或作为一个集中的示例数据库，用于开发新的问卷或重用现有的问题。通过实验证明了爬虫正确收集问卷，并对问卷中出现的问题进行了提取。

引用次数: 0

下一页尾页

类型

全部化学•材料生命科学医学物理工程技术环境•农林材料科学地球科学法学管理学化学环境科学与生态学计算机科学教育学经济学农林科学人文科学生物学数学物理与天体物理心理学综合性期刊其他工业工程理学历史学农学文学信息工程

数据库

全部 ACS Publications Elsevier ieeexplore Springer The Royal Society of Chemistry Wiley

期刊

Anais do III Dataset Showcase Workshop (DSW 2021)

全部 Acc. Chem. Res. ACS Applied Bio Materials ACS Appl. Electron. Mater. ACS Appl. Energy Mater. ACS Appl. Mater. Interfaces ACS Appl. Nano Mater. ACS Appl. Polym. Mater. ACS BIOMATER-SCI ENG ACS Catal. ACS Cent. Sci. ACS Chem. Biol. ACS Chemical Health & Safety ACS Chem. Neurosci. ACS Comb. Sci. ACS Earth Space Chem. ACS Energy Lett. ACS Infect. Dis. ACS Macro Lett. ACS Mater. Lett. ACS Med. Chem. Lett. ACS Nano ACS Omega ACS Photonics ACS Sens. ACS Sustainable Chem. Eng. ACS Synth. Biol. Anal. Chem. BIOCHEMISTRY-US Bioconjugate Chem. BIOMACROMOLECULES Chem. Res. Toxicol. Chem. Rev. Chem. Mater. CRYST GROWTH DES ENERG FUEL Environ. Sci. Technol. Environ. Sci. Technol. Lett. Eur. J. Inorg. Chem. IND ENG CHEM RES Inorg. Chem. J. Agric. Food. Chem. J. Chem. Eng. Data J. Chem. Educ. J. Chem. Inf. Model. J. Chem. Theory Comput. J. Med. Chem. J. Nat. Prod. J PROTEOME RES J. Am. Chem. Soc. LANGMUIR MACROMOLECULES Mol. Pharmaceutics Nano Lett. Org. Lett. ORG PROCESS RES DEV ORGANOMETALLICS J. Org. Chem. J. Phys. Chem. J. Phys. Chem. A J. Phys. Chem. B J. Phys. Chem. C J. Phys. Chem. Lett. Analyst Anal. Methods Biomater. Sci. Catal. Sci. Technol. Chem. Commun. Chem. Soc. Rev. CHEM EDUC RES PRACT CRYSTENGCOMM Dalton Trans. Energy Environ. Sci. ENVIRON SCI-NANO ENVIRON SCI-PROC IMP ENVIRON SCI-WAT RES Faraday Discuss. Food Funct. Green Chem. Inorg. Chem. Front. Integr. Biol. J. Anal. At. Spectrom. J. Mater. Chem. A J. Mater. Chem. B J. Mater. Chem. C Lab Chip Mater. Chem. Front. Mater. Horiz. MEDCHEMCOMM Metallomics Mol. Biosyst. Mol. Syst. Des. Eng. Nanoscale Nanoscale Horiz. Nat. Prod. Rep. New J. Chem. Org. Biomol. Chem. Org. Chem. Front. PHOTOCH PHOTOBIO SCI PCCP Polym. Chem.

﹀