Fabian Corrêa Cardoso, J. Malska, P. Ramiro, Giancarlo Lucca, E. N. Borges, V. Mattos, R. Berri
Stock markets are responsible for the movement of huge amounts of financial resources around the world. This market generates a high volume of transaction data, which after being analyzed are very useful for many applications. In this paper we present BovDB, a data set that was built considering as source the Brazilian Stock Exchange (B3) with information related to the years between 1995 and 2020. We have approached the events’ impact on the stocks by applying a cumulative factor to correct prices. The results were compared with public data from InfoMoney and BR Investing, showing that our methods are valid and in accordance with the market standards. BovDB data set can be used as a benchmark for different applications and is publicly available for any researcher on GitHub.
{"title":"BovDB: A data set of stock quotes for Machine Learning on all companies from B3 between 1995 and 2020","authors":"Fabian Corrêa Cardoso, J. Malska, P. Ramiro, Giancarlo Lucca, E. N. Borges, V. Mattos, R. Berri","doi":"10.5753/dsw.2021.17411","DOIUrl":"https://doi.org/10.5753/dsw.2021.17411","url":null,"abstract":"Stock markets are responsible for the movement of huge amounts of financial resources around the world. This market generates a high volume of transaction data, which after being analyzed are very useful for many applications. In this paper we present BovDB, a data set that was built considering as source the Brazilian Stock Exchange (B3) with information related to the years between 1995 and 2020. We have approached the events’ impact on the stocks by applying a cumulative factor to correct prices. The results were compared with public data from InfoMoney and BR Investing, showing that our methods are valid and in accordance with the market standards. BovDB data set can be used as a benchmark for different applications and is publicly available for any researcher on GitHub.","PeriodicalId":314975,"journal":{"name":"Anais do III Dataset Showcase Workshop (DSW 2021)","volume":"94 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-10-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"123527338","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
M. V. Gonçalves, Jamile Santos dos Santos, Caio Zava Ferreira, Jorge Zavaleta, Sérgio Manuel Serra da Cruz, Jonice de Oliveira Sampaio
A pandemia da COVID-19 é uma ameaça global. Se, por um lado, contabilizamos muitas perdas de vidas, por outro lado tem-se acelerado a geração de datasets e demandas analíticas urgentes. Dentre as estratégias de combate, destacam-se a vacinação e as investigações epidemiológicas centradas em dados. Este artigo apresenta o processo de construção de datasets curados e anotados com metadados de proveniência retrospectiva, tendo como base os dados de registro da Campanha de Vacinação contra COVID-19 no Brasil. O dataset contém milhares de registros tratados até Março de 2021. Os dados foram analisados, investigados, tratados e cruzados com outras fontes, de modo a corrigi-los e complementá-los, resultando em datasets curados e alinhados aos princípios FAIR.
{"title":"Datasets Curados e Enriquecidos com Proveniência da Campanha Nacional de Vacinação Contra COVID-19","authors":"M. V. Gonçalves, Jamile Santos dos Santos, Caio Zava Ferreira, Jorge Zavaleta, Sérgio Manuel Serra da Cruz, Jonice de Oliveira Sampaio","doi":"10.5753/dsw.2021.17423","DOIUrl":"https://doi.org/10.5753/dsw.2021.17423","url":null,"abstract":"A pandemia da COVID-19 é uma ameaça global. Se, por um lado, contabilizamos muitas perdas de vidas, por outro lado tem-se acelerado a geração de datasets e demandas analíticas urgentes. Dentre as estratégias de combate, destacam-se a vacinação e as investigações epidemiológicas centradas em dados. Este artigo apresenta o processo de construção de datasets curados e anotados com metadados de proveniência retrospectiva, tendo como base os dados de registro da Campanha de Vacinação contra COVID-19 no Brasil. O dataset contém milhares de registros tratados até Março de 2021. Os dados foram analisados, investigados, tratados e cruzados com outras fontes, de modo a corrigi-los e complementá-los, resultando em datasets curados e alinhados aos princípios FAIR.","PeriodicalId":314975,"journal":{"name":"Anais do III Dataset Showcase Workshop (DSW 2021)","volume":"73 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-10-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"115530966","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Dados que refletem a produção científica de pesquisadores têm valor inestimado para diversas aplicações. Há diversos repositórios que indexam os artigos e os disponibilizam para consultas, tais como DBLP, Research Gate e Google Scholar. Apesar dos dados estarem disponíveis nos diversos repositórios públicos, a coleta e persistência local desses dados pode ser de grande utilidade para certas aplicações.Este artigo apresenta uma proposta de coletor de dados de três repositórios públicos: DBLP, Research Gate e Google Scholar, e sua posterior persistência em um banco de dados relacional. Além disso, é apresentada também uma interface de visualização para os dados coletados.
{"title":"Coleta e visualização de dados disponíveis em repositórios públicos referentes a produção científica de pesquisadores","authors":"A. M. Branco, C. Dorneles","doi":"10.5753/dsw.2021.17418","DOIUrl":"https://doi.org/10.5753/dsw.2021.17418","url":null,"abstract":"Dados que refletem a produção científica de pesquisadores têm valor inestimado para diversas aplicações. Há diversos repositórios que indexam os artigos e os disponibilizam para consultas, tais como DBLP, Research Gate e Google Scholar. Apesar dos dados estarem disponíveis nos diversos repositórios públicos, a coleta e persistência local desses dados pode ser de grande utilidade para certas aplicações.Este artigo apresenta uma proposta de coletor de dados de três repositórios públicos: DBLP, Research Gate e Google Scholar, e sua posterior persistência em um banco de dados relacional. Além disso, é apresentada também uma interface de visualização para os dados coletados.","PeriodicalId":314975,"journal":{"name":"Anais do III Dataset Showcase Workshop (DSW 2021)","volume":"34 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-10-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"134455482","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Este trabalho trata da criação e otimização de um grande conjunto de características extraídas de um banco de 881 canções populares brasileiras de Sucesso e Não-Sucesso, entre janeiro de 2014 a maio de 2019. A partir desse banco de canções, criou-se três DataSets de características (features) distintas, sendo que o primeiro contém 3215 características estatísticas; o segundo e o terceiro são totalmente inéditos, pois foram formados a partir da Melodia Vocal das canções (Melodia Predominante da Voz), não havendo banco semelhante disponível para pesquisa. O segundo banco representa um gráfico de espectrograma, formado a partir dos 90 segundos iniciais de cada canção. O terceiro banco é o mais peculiar de todos, pois representa uma análise semântica musical do segundo banco, onde a finalidade principal foi construir uma tabela composta pelas sequências melódicas mais frequentes de cada canção. Nossos Datasets usam apenas canções brasileiras e concentram seus dados em um período limitado e contemporâneo. A ideia da criação desses conjuntos de dados é estimular o estudo de técnicas de Aprendizado de Máquina que requeiram informações musicais. Os recursos extraídos podem auxiliar no desenvolvimento de novas pesquisas nas áreas da música e computação no futuro.
{"title":"Três Datasets criados a partir de um banco de Canções Populares Brasileiras de Sucesso e Não-Sucesso de 2014 a 2019","authors":"André Augusto Bertoni, R. Lemos","doi":"10.5753/dsw.2021.17410","DOIUrl":"https://doi.org/10.5753/dsw.2021.17410","url":null,"abstract":"Este trabalho trata da criação e otimização de um grande conjunto de características extraídas de um banco de 881 canções populares brasileiras de Sucesso e Não-Sucesso, entre janeiro de 2014 a maio de 2019. A partir desse banco de canções, criou-se três DataSets de características (features) distintas, sendo que o primeiro contém 3215 características estatísticas; o segundo e o terceiro são totalmente inéditos, pois foram formados a partir da Melodia Vocal das canções (Melodia Predominante da Voz), não havendo banco semelhante disponível para pesquisa. O segundo banco representa um gráfico de espectrograma, formado a partir dos 90 segundos iniciais de cada canção. O terceiro banco é o mais peculiar de todos, pois representa uma análise semântica musical do segundo banco, onde a finalidade principal foi construir uma tabela composta pelas sequências melódicas mais frequentes de cada canção. Nossos Datasets usam apenas canções brasileiras e concentram seus dados em um período limitado e contemporâneo. A ideia da criação desses conjuntos de dados é estimular o estudo de técnicas de Aprendizado de Máquina que requeiram informações musicais. Os recursos extraídos podem auxiliar no desenvolvimento de novas pesquisas nas áreas da música e computação no futuro.","PeriodicalId":314975,"journal":{"name":"Anais do III Dataset Showcase Workshop (DSW 2021)","volume":"2 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-10-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"122356421","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Felipe F. Vasconcelos, João Tavares, Murilo U. Ribeiro, Fábio J. Coutinho, João Paulo Clarindo
O Tribunal Superior Eleitoral (TSE), responsável pelas eleições no Brasil, disponibiliza dados acerca de candidatos e partidos que disputaram o pleito eleitoral desde 1933. Esses dados constituem um importante acervo, sendo utilizados como base por trabalhos em diferentes áreas de pesquisa. Entretanto, os dados disponibilizados pelo TSE possuem diversos problemas relacionados à falta de padronização e inconsistência, dificultando a análise e a integração com bases externas. Este trabalho apresenta CandiDATA, um dataset padronizado com dados das eleições brasileiras. CandiDATA é disponibilizado em formato aberto e abrange o período eleitoral entre 1945 e 2020, incluindo informações adicionais, além dos dados do TSE.
{"title":"CandiDATA: um dataset para análise das eleições no Brasil","authors":"Felipe F. Vasconcelos, João Tavares, Murilo U. Ribeiro, Fábio J. Coutinho, João Paulo Clarindo","doi":"10.5753/dsw.2021.17424","DOIUrl":"https://doi.org/10.5753/dsw.2021.17424","url":null,"abstract":"O Tribunal Superior Eleitoral (TSE), responsável pelas eleições no Brasil, disponibiliza dados acerca de candidatos e partidos que disputaram o pleito eleitoral desde 1933. Esses dados constituem um importante acervo, sendo utilizados como base por trabalhos em diferentes áreas de pesquisa. Entretanto, os dados disponibilizados pelo TSE possuem diversos problemas relacionados à falta de padronização e inconsistência, dificultando a análise e a integração com bases externas. Este trabalho apresenta CandiDATA, um dataset padronizado com dados das eleições brasileiras. CandiDATA é disponibilizado em formato aberto e abrange o período eleitoral entre 1945 e 2020, incluindo informações adicionais, além dos dados do TSE.","PeriodicalId":314975,"journal":{"name":"Anais do III Dataset Showcase Workshop (DSW 2021)","volume":"7 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-10-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"129198880","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
B. Sá, Gustavo Muller, Maicon Banni, Wagner Santos, Marcos Lage, I. Rosseti, Yuri Frota, Daniel de Oliveira
Esse artigo apresenta o dataset PolRoute-DS, criado para viabilizar o desenvolvimento e testes de abordagens de geração de rotas policiais em centros urbanos. O PolRoute-DS combina a estrutura espacial da cidade de interesse, representada como um grafo conexo e direcionado de segmentos de vias, com dados criminais obtidos de fontes públicas (no contexto deste artigo os dados são providos pela Secretaria da Segurança Pública de São Paulo). O PolRoute-DS se encontra disponível para uso da comunidade sob a licença Creative Commons By Attribution 4.0 International (versões CSV e PostgreSQL), e pode ser obtido em https://osf.io/mxrgu/.
{"title":"PolRoute-DS: um Dataset de Dados Criminais para Geração de Rotas de Patrulhamento Policial","authors":"B. Sá, Gustavo Muller, Maicon Banni, Wagner Santos, Marcos Lage, I. Rosseti, Yuri Frota, Daniel de Oliveira","doi":"10.5753/dsw.2021.17420","DOIUrl":"https://doi.org/10.5753/dsw.2021.17420","url":null,"abstract":"Esse artigo apresenta o dataset PolRoute-DS, criado para viabilizar o desenvolvimento e testes de abordagens de geração de rotas policiais em centros urbanos. O PolRoute-DS combina a estrutura espacial da cidade de interesse, representada como um grafo conexo e direcionado de segmentos de vias, com dados criminais obtidos de fontes públicas (no contexto deste artigo os dados são providos pela Secretaria da Segurança Pública de São Paulo). O PolRoute-DS se encontra disponível para uso da comunidade sob a licença Creative Commons By Attribution 4.0 International (versões CSV e PostgreSQL), e pode ser obtido em https://osf.io/mxrgu/.","PeriodicalId":314975,"journal":{"name":"Anais do III Dataset Showcase Workshop (DSW 2021)","volume":"4 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-10-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"133841164","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
J. Couto, Breno Pimenta, Igor M. de Araújo, Samuel Assis, J. C. S. Reis, A. P. C. da Silva, Jussara M. Almeida, Fabrício Benevenuto
Recentemente, o interesse por frentes de pesquisa analisando os mecanismos, bem como maneiras de evitar a disseminação de desinformação aumentou significativamente. Neste cenário, um recorrente obstáculo a indisponibilidade de checagens de fatos. Neste trabalho, compilamos uma extensa coleção de checagens oriundas de importantes agências de checagem de fatos brasileiras. Oferecemos à comunidade cientifica uma coleção inédita contendo checagens de diversas fontes confiáveis que abrangem um largo espectro de tópicos. Ao todo, a coleção resultante engloba 11647 instâncias de checagem de fatos coletadas em 6 agências diferentes que podem ser utilizadas em diversos estudos nos contexos de identificação e combate à desinformaço em plataformas digitais no Brasil.
{"title":"Central de Fatos: Um Repositório de Checagens de Fatos","authors":"J. Couto, Breno Pimenta, Igor M. de Araújo, Samuel Assis, J. C. S. Reis, A. P. C. da Silva, Jussara M. Almeida, Fabrício Benevenuto","doi":"10.5753/dsw.2021.17421","DOIUrl":"https://doi.org/10.5753/dsw.2021.17421","url":null,"abstract":"Recentemente, o interesse por frentes de pesquisa analisando os mecanismos, bem como maneiras de evitar a disseminação de desinformação aumentou significativamente. Neste cenário, um recorrente obstáculo a indisponibilidade de checagens de fatos. Neste trabalho, compilamos uma extensa coleção de checagens oriundas de importantes agências de checagem de fatos brasileiras. Oferecemos à comunidade cientifica uma coleção inédita contendo checagens de diversas fontes confiáveis que abrangem um largo espectro de tópicos. Ao todo, a coleção resultante engloba 11647 instâncias de checagem de fatos coletadas em 6 agências diferentes que podem ser utilizadas em diversos estudos nos contexos de identificação e combate à desinformaço em plataformas digitais no Brasil.","PeriodicalId":314975,"journal":{"name":"Anais do III Dataset Showcase Workshop (DSW 2021)","volume":"14 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-10-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"125242450","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Josinaldo Azevedo, A. L. C. Barcellos, A. C. Mendes, Daniel de Oliveira, Paulo C. S. Vidal, Marcos V. N. Bedo
As redes de satélites são um complemento essencial para a infraestrutura de telecomunicações no Brasil. Em alguns casos, esta rede é o único meio de comunicação para várias localidades remotas, que são de difícil acesso geográfico. Esse trabalho tem o objetivo de disponibilizar uma base, denominado SAT-ESPEC, construída a partir do espectrograma gerado da recepção dos sinais de cinco estações terrenas, que estão instaladas e em operação na Região Norte do Brasil. Toda a coleta de dados ocorreu numa rede em produção através da Estação de Radiomonitoração e Geolocalização da Agência Nacional de Telecomunicações (ANATEL), que fica no município do Rio de Janeiro. Esse conjunto se encaixa no domínio de propagação de radiofrequência e segurança de rede, e pode ser usado para tarefas como classificação de dados, detecção de anormalidades e análises de séries-temporais.
{"title":"SAT-ESPEC: Análise e Coleta de Dados da Transmissão de Estações Terrenas de uma Rede Satélite","authors":"Josinaldo Azevedo, A. L. C. Barcellos, A. C. Mendes, Daniel de Oliveira, Paulo C. S. Vidal, Marcos V. N. Bedo","doi":"10.5753/dsw.2021.17413","DOIUrl":"https://doi.org/10.5753/dsw.2021.17413","url":null,"abstract":"As redes de satélites são um complemento essencial para a infraestrutura de telecomunicações no Brasil. Em alguns casos, esta rede é o único meio de comunicação para várias localidades remotas, que são de difícil acesso geográfico. Esse trabalho tem o objetivo de disponibilizar uma base, denominado SAT-ESPEC, construída a partir do espectrograma gerado da recepção dos sinais de cinco estações terrenas, que estão instaladas e em operação na Região Norte do Brasil. Toda a coleta de dados ocorreu numa rede em produção através da Estação de Radiomonitoração e Geolocalização da Agência Nacional de Telecomunicações (ANATEL), que fica no município do Rio de Janeiro. Esse conjunto se encaixa no domínio de propagação de radiofrequência e segurança de rede, e pode ser usado para tarefas como classificação de dados, detecção de anormalidades e análises de séries-temporais.","PeriodicalId":314975,"journal":{"name":"Anais do III Dataset Showcase Workshop (DSW 2021)","volume":"189 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-10-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"114214295","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
P. Moreira, R. Fonseca, Pedro Loures Alzamora, R. S. Franco, J. Guiginski, Evandro L. T. P. Cunha, Tereza Bernardes, Bruno Chagas, Kícila Ferregueti, Luana Passos, Luísa Cardoso, Raquel Schneider, W. Pereira, A. P. C. da Silva, W. Meira Jr.
Este artigo apresenta a construção e publicação de um repositório de dados utilizados e desenvolvidos no âmbito do projeto Covid Data Analytics (CDA), executado pelo Departamento de Ciência da Computação da UFMG. O projeto visou monitorar aspectos referentes à situação social, econômica e epidemiológica da COVID-19 no Brasil a partir da análise de dados provenientes de fontes oficiais e não oficiais, de redes sociais online e da web em geral. A construção do repositório, contendo 18 atributos e 1086 registros, se baseou na coleta direta de dados das fontes selecionadas, os quais foram posteriormente enriquecidos e, finalmente, disponibilizados por meio de uma ferramenta de busca desenvolvida exclusivamente para eles.
{"title":"Covid Data Analytics: Repositório de Dados Provenientes de Múltiplas Fontes sobre a Pandemia de COVID-19 no Brasil","authors":"P. Moreira, R. Fonseca, Pedro Loures Alzamora, R. S. Franco, J. Guiginski, Evandro L. T. P. Cunha, Tereza Bernardes, Bruno Chagas, Kícila Ferregueti, Luana Passos, Luísa Cardoso, Raquel Schneider, W. Pereira, A. P. C. da Silva, W. Meira Jr.","doi":"10.5753/dsw.2021.17419","DOIUrl":"https://doi.org/10.5753/dsw.2021.17419","url":null,"abstract":"Este artigo apresenta a construção e publicação de um repositório de dados utilizados e desenvolvidos no âmbito do projeto Covid Data Analytics (CDA), executado pelo Departamento de Ciência da Computação da UFMG. O projeto visou monitorar aspectos referentes à situação social, econômica e epidemiológica da COVID-19 no Brasil a partir da análise de dados provenientes de fontes oficiais e não oficiais, de redes sociais online e da web em geral. A construção do repositório, contendo 18 atributos e 1086 registros, se baseou na coleta direta de dados das fontes selecionadas, os quais foram posteriormente enriquecidos e, finalmente, disponibilizados por meio de uma ferramenta de busca desenvolvida exclusivamente para eles.","PeriodicalId":314975,"journal":{"name":"Anais do III Dataset Showcase Workshop (DSW 2021)","volume":"42 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-08-10","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"123194031","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Questionários de pesquisa podem ser utilizados por empresas ou instituições para avaliar itens ou produtos, mediar a satisfação de seus funcionários/clientes, ou serem utilizados por pesquisadores para coleta de dados que podem ser usados em estudos. Alguns problemas na criação de tais questionários envolvem: decidir quais perguntas fazer, como fazê-las e como organizá-las. Visando isso, este trabalho propõe a criação de um Web Crawler, que varre a Web em busca de sites que possivelmente contenham questionários, e de um Extrator, capaz de extrair os questionários da lista de páginas coletadas pelo crawler e salvá-las em um banco de dados relacional. A base de dados criada pode depois, servir para a análise desses dados e/ou como uma base centralizada de exemplos para a elaboração de novos questionários ou ainda para o reuso de questões existentes. Alguns experimentos são apresentados para demonstrar a correta coleta de questionários pelo crawler, e a posterior extração das questões presentes nos questionários.
{"title":"qFEx - um crawler para busca e extração de questionários de pesquisa em documentos HTML","authors":"Gilney Nathanael Mathias, C. Dorneles","doi":"10.5753/dsw.2021.17409","DOIUrl":"https://doi.org/10.5753/dsw.2021.17409","url":null,"abstract":"Questionários de pesquisa podem ser utilizados por empresas ou instituições para avaliar itens ou produtos, mediar a satisfação de seus funcionários/clientes, ou serem utilizados por pesquisadores para coleta de dados que podem ser usados em estudos. Alguns problemas na criação de tais questionários envolvem: decidir quais perguntas fazer, como fazê-las e como organizá-las. Visando isso, este trabalho propõe a criação de um Web Crawler, que varre a Web em busca de sites que possivelmente contenham questionários, e de um Extrator, capaz de extrair os questionários da lista de páginas coletadas pelo crawler e salvá-las em um banco de dados relacional. A base de dados criada pode depois, servir para a análise desses dados e/ou como uma base centralizada de exemplos para a elaboração de novos questionários ou ainda para o reuso de questões existentes. Alguns experimentos são apresentados para demonstrar a correta coleta de questionários pelo crawler, e a posterior extração das questões presentes nos questionários.","PeriodicalId":314975,"journal":{"name":"Anais do III Dataset Showcase Workshop (DSW 2021)","volume":"24 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2017-11-06","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"117114924","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}