Anais da XVIII Escola Regional de Banco de Dados (ERBD 2023)最新文献

英文中文

Meta aprendizado aplicado ao câncer de mama

Anais da XVIII Escola Regional de Banco de Dados (ERBD 2023)

Pub Date : 2023-04-11 DOI: 10.5753/erbd.2023.229501

Pedro Henrique Tonidandel, Ronan Assumpção Silva, André Luiz Brun

Dentre as técnicas para auxiliar no processo de detecção de doenças, podemos citar a Classificação, que consiste em rotular uma instância baseada nas categorias já conhecidas do problema investigado. Nesta proposta, consideramos a detecção do câncer de mama como um problema de Classificação. Usamos Sistemas de Múltiplos Classificadores, para gerar diversos classificadores, funcionando como especialistas computacionais análoga a consulta com diversos especialistas da área da saúde. A partir da opinião dos especialistas foi criada uma metabase do problema, que, ao ser tratada como um novo problema de classificação, permitiu avaliar padrões nas opiniões que afetam o acerto na rotulação. A proposta tem aumentado o acerto de outras técnicas da literatura considerando a média em ≈ 15 pontos percentuais.

在帮助疾病检测过程的技术中，我们可以提到分类，它包括根据调查问题的已知类别给实例贴上标签。在这个建议中，我们考虑乳腺癌的检测作为一个分类问题。我们使用多个分类器系统来生成多个分类器，作为计算专家，类似于与卫生领域的各种专家进行咨询。根据专家的意见，创建了一个问题的元酶，当作为一个新的分类问题处理时，允许评估影响标签准确性的意见模式。该建议提高了文献中其他技术的准确性，考虑到平均值≈15个百分点。

引用次数: 0

Garantindo a Qualidade de Dados na Fusão de Dados Conectados: Um caso de uso de SHACL em dados abertos de Mobilidade e Educação de Curitiba 确保连接数据融合中的数据质量:库里蒂巴开放移动和教育数据中的SHACL用例

Anais da XVIII Escola Regional de Banco de Dados (ERBD 2023)

Pub Date : 2023-04-11 DOI: 10.5753/erbd.2023.229429

Otávio Thomas Bertucini, Rita C. G. Berardi, Mateus G. Belizario, Nádia P. Kozievitch

As cidades inteligentes são um contexto que pode obter grande vantagem no formato e no crescimento de dados na web semântica, visto que o volume e a conexão aumentam a qualidade das análises de dados. No entanto, o crescimento quantitativo de dados deve acontecer com garantia de qualidade. Este trabalho tem como objetivo a verificação de qualidade de dados na fusão de dados conectados, por meio das dimensões de qualidade acurácia, consistência e concisão. Para especificar as restrições de qualidade a serem verificadas foi utilizada a linguagem SHACL (Shapes Constraint Language) e para a execução da verificação foi criado um script em Python. Os testes foram realizados em um conjunto de dados abertos conectados do domínio de mobilidade urbana e educação na cidade de Curitiba.

智慧城市是一种环境，可以在语义网的数据格式和增长方面获得很大的优势，因为数量和连接提高了数据分析的质量。然而，数据的数量增长必须在质量保证的情况下发生。本研究旨在通过质量、准确性、一致性和简洁性等维度来验证连接数据融合的数据质量。为了指定要验证的质量约束，使用了SHACL语言(形状约束语言)，并在Python中创建了一个脚本来执行验证。这些测试是在库里蒂巴市城市流动性和教育领域的一组开放连接数据中进行的。

引用次数: 1

Estudo de caso sobre o processamento de consultas com a engine FederatedX 使用FederatedX引擎处理查询的案例研究

Anais da XVIII Escola Regional de Banco de Dados (ERBD 2023)

Pub Date : 2023-04-11 DOI: 10.5753/erbd.2023.229428

Samuel L. B. Bispo, Raqueline R. M. Penteado

Esse artigo apresenta um estudo de caso sobre o processamento federado de consultas na engine FederatedX do SGBD MariaDB. O ponto central do estudo foi a otimização de consultas, mais especificamente, a minimização do tempo de processamento. O estudo considerou dois pontos, sendo eles: i) a definição do modelo lógico e ii) o mecanismo de indexação de dados. Os resultados do estudo mostraram que a definição do modelo lógico foi essencial para a redução do tempo de processamento. Em contrapartida, o mesmo não ocorreu com a indexação.

本文以MariaDB dbms的FederatedX引擎为例进行了查询联合处理的研究。研究的重点是优化查询，更具体地说，最小化处理时间。本研究考虑了两个方面，即:1)逻辑模型的定义和2)数据索引机制。研究结果表明，逻辑模型的定义对于减少处理时间至关重要。然而，指数化却没有发生这种情况。

引用次数: 0

Mobilidade e Saúde: O Caso do Atendimento em UPAs 24 Horas em Curitiba 流动与健康:库里蒂巴24小时UPAs服务的案例

Anais da XVIII Escola Regional de Banco de Dados (ERBD 2023)

Pub Date : 2023-04-11 DOI: 10.5753/erbd.2023.229233

Alejandro R. Gorríz, M. G. Luz, Nádia P. Kozievitch, Marcelo Rosa

As Unidades de Pronto Socorro (UPAs) em Curitiba são um dos pilares da saúde dos cidadãos da cidade. As UPAs atendem uma grande quantidade de pacientes, alcançando até 169 atendimentos diários em algumas unidades. Para facilitar o acesso ao cidadão, é importante que estas sejam alimentadas pela rede de transporte público. O objetivo deste trabalho é realizar uma análise exploratória dos pacientes que frequentam as nove UPAs curitibanas 24 horas e as linhas de ônibus em Curitiba que às atendem. Dentre os resultados, podemos citar que há uma distribuição não homogênea de atendimentos e linhas de ônibus que as atendem.

库里蒂巴的急救单位是该市公民健康的支柱之一。UPAs为大量患者提供服务，在一些病房每天可达169次。为了方便市民使用，公共交通网络提供这些服务是很重要的。这项工作的目的是对库里蒂巴的9个24小时UPAs和库里蒂巴的公交线路上的病人进行探索性分析。在结果中，我们可以提到呼叫和公交线路的分布不是均匀的。

引用次数: 0

Engenharia e Avaliação de Features para Extração de Informação em Notas Fiscais 从发票中提取信息的工程和特征评估

Anais da XVIII Escola Regional de Banco de Dados (ERBD 2023)

Pub Date : 2023-04-11 DOI: 10.5753/erbd.2023.229441

Eduardo Darrazão, Victor Amorim, K. Oliveira, Luiz Gomes-Jr

A correta identificação dos elementos constantes em notas fiscais eletrônicas é importante para diversas questões de fiscalização e transparência governamental, como identificação de sobrepreço em licitações públicas. Porém, esta identificação é um desafio tanto pela diversidade de produtos, quanto pelas variações e erros de preenchimento. Este artigo aplica técnicas de estado-da-arte em extração de informação para avaliar os melhores conjuntos de features para se aplicar em notas fiscais eletrônicas brasileiras. Os testes utilizaram dados de notas fiscais de medicamentos emitidas no Piauí em 2021.

正确识别电子发票中包含的要素对于政府监督和透明度的几个问题是很重要的，例如识别公开投标中的超额价格。然而，这种识别是一个挑战，因为产品的多样性，以及填充的变化和错误。本文应用最先进的信息提取技术来评估适用于巴西电子发票的最佳特征集。这些测试使用了2021年在piaui上发布的药品发票数据。

引用次数: 1

Uma Proposta para Redução do Conjunto de Treinamento Utilizando Aprendizagem Ativa 利用主动学习减少训练集的建议

Anais da XVIII Escola Regional de Banco de Dados (ERBD 2023)

Pub Date : 2023-04-11 DOI: 10.5753/erbd.2023.229494

Maicon Brandão, Marcelo Acordi, Guilherme Dal Bianco

Métodos supervisionados são comumente utilizados em inúmeras tarefas como na classificação de informações. Porém, a aprendizagem do método supervisionado depende da criação de um conjunto de treinamento rotulado capaz de representar os padrões presentes na base de dados. Identificar exemplos informativos e representativos pode representar uma redução de custos. Neste contexto, a aprendizagem ativa tem como objetivo selecionar instâncias mais informativas para serem rotuladas a fim de se reduzir o conjunto de treinamento. Este artigo tem como objetivo propor pesos para um algoritmo de aprendizagem ativa para reduzir a quantidade de instâncias selecionadas. Em outras palavras, almeja-se reduzir o impacto do desbalanceamento de classes a partir da utilização de pesos para o método de aprendizagem ativa. Os experimentos preliminares demonstraram que é possível reduzir o tamanho do conjunto rotulado sem impactar na eficácia do método.

监督方法通常用于许多任务，如信息分类。然而，监督方法的学习依赖于创建一个标记训练集，能够表示数据库中存在的模式。确定信息丰富和有代表性的例子可以降低成本。在这种情况下，主动学习的目的是选择更多的信息实例进行标记，以减少训练集。本文旨在提出一种主动学习算法的权重，以减少所选实例的数量。换句话说，我们的目标是通过在主动学习方法中使用权重来减少班级不平衡的影响。初步实验表明，在不影响该方法有效性的情况下，可以减小标记集的尺寸。

引用次数: 0

Vocações Econômicas de Curitiba: Um Estudo a Partir de Uma Base de Dados Aberta 库里蒂巴的经济职业:来自开放数据库的研究

Anais da XVIII Escola Regional de Banco de Dados (ERBD 2023)

Pub Date : 2023-04-11 DOI: 10.5753/erbd.2023.229497

Alcides de V. A. Júnior, M. Costa, M. G. Luz, Nádia P. Kozievitch

Em muitas cidades, a distribuição da atividade econômica ocorre de maneira heterogênea, de forma que ruas concentram mais estabelecimentos de tipos específicos do que de outros. O objetivo deste trabalho é verificar se a cidade possui vocações econômicas de acordo com seus bairros e ruas. Com técnicas de geographic information system (GIS) e Banco de Dados, realizou-se a análise dos dados e se forneceu o suporte às principais conclusões. Para isso, dados abertos de alvarás relacionados a pólos gastronônimocos de Curitiba foram utilizados.

在许多城市，经济活动的分布是异质性的，因此街道上有更多的特定类型的机构。这项工作的目的是验证这个城市是否有经济职业根据它的社区和街道。利用地理信息系统(GIS)和数据库技术进行数据分析，为主要结论提供支持。为此，我们使用了与库里蒂巴美食中心相关的公开许可数据。

引用次数: 0

Prediction of monthly vehicle valorization/devaluation in Brazil with a MultiLayer Perceptron Regressor: a case study based on past sales, inflation, and interest rate 用多层感知器回归器预测巴西每月车辆价值/贬值:基于过去销售、通货膨胀和利率的案例研究

Anais da XVIII Escola Regional de Banco de Dados (ERBD 2023)

Pub Date : 2023-04-11 DOI: 10.5753/erbd.2023.229383

André Roberto Ortoncelli, Franciele Beal

This work presents a comparison between the valuation/depreciation prediction results (from one month to another) of vehicles in Brazil considering the combination of four groups of characteristics: i) previous sales; ii) the number of vehicle sales; iii) basic interest rate; and iv) national consumer price index. We create a comparison baseline training a MultiLayer Perceptron Regressor (MLPR) based only on the vehicle’s value in the previous month, and then we train the MLPR by combining the previous vehicle value with combinations of the characteristic groups. Experiments were performed from 2013 to 2022 and evaluated in terms of Mean Squared Error (MSR) and Median Absolute Error (MAE). The combination of characteristics that presented the best MSR for the 2018-2022 period (COVID-19 period) was among the worst from 2014 to 2017. It is possibly concluded that data scientists must periodically adjust parameters according to the current economic conditions to obtain the best automatic forecast results of the monthly valorization/depreciation of vehicles in Brazil.

这项工作提出了巴西车辆的估值/折旧预测结果(从一个月到另一个月)的比较，考虑到四组特征的组合:i)以前的销售;Ii)车辆销售数量;(三)基本利率;(四)全国居民消费价格指数。我们仅基于前一个月的车辆值创建一个训练多层感知器回归器(MultiLayer Perceptron Regressor, MLPR)的比较基线，然后通过将前一个月的车辆值与特征组的组合相结合来训练MLPR。实验于2013年至2022年进行，并以均方误差(MSR)和中位数绝对误差(MAE)进行评估。2018-2022年期间(新冠肺炎期间)表现出最佳MSR的特征组合是2014年至2017年最差的特征组合。可以得出结论，数据科学家必须根据当前的经济状况定期调整参数，才能获得巴西每月车辆增值/折旧的最佳自动预测结果。

{"title":"Prediction of monthly vehicle valorization/devaluation in Brazil with a MultiLayer Perceptron Regressor: a case study based on past sales, inflation, and interest rate","authors":"André Roberto Ortoncelli, Franciele Beal","doi":"10.5753/erbd.2023.229383","DOIUrl":"https://doi.org/10.5753/erbd.2023.229383","url":null,"abstract":"This work presents a comparison between the valuation/depreciation prediction results (from one month to another) of vehicles in Brazil considering the combination of four groups of characteristics: i) previous sales; ii) the number of vehicle sales; iii) basic interest rate; and iv) national consumer price index. We create a comparison baseline training a MultiLayer Perceptron Regressor (MLPR) based only on the vehicle’s value in the previous month, and then we train the MLPR by combining the previous vehicle value with combinations of the characteristic groups. Experiments were performed from 2013 to 2022 and evaluated in terms of Mean Squared Error (MSR) and Median Absolute Error (MAE). The combination of characteristics that presented the best MSR for the 2018-2022 period (COVID-19 period) was among the worst from 2014 to 2017. It is possibly concluded that data scientists must periodically adjust parameters according to the current economic conditions to obtain the best automatic forecast results of the monthly valorization/depreciation of vehicles in Brazil.","PeriodicalId":442588,"journal":{"name":"Anais da XVIII Escola Regional de Banco de Dados (ERBD 2023)","volume":"16 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2023-04-11","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"130370498","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 0

Ética na era dos Modelos de Linguagem Massivos (LLMs): um estudo de caso do ChatGPT 大规模语言模型时代的伦理:ChatGPT案例研究

Anais da XVIII Escola Regional de Banco de Dados (ERBD 2023)

Pub Date : 2023-04-11 DOI: 10.5753/erbd.2023.229510

Mateus R. Figênio, Luiz Gomes-Jr

Este artigo tem como objetivo discutir questões éticas relacionadas ao ChatGPT, um modelo de linguagem de estilo conversacional. A partir de trabalhos correlatos que fundamentam o conceito de Modelos de Linguagem Massivos (LLMs) e que trabalham paradigmas de análise ética e boas práticas para o desenvolvimento de Inteligências Artificiais (IA), exploramos como o ChatGPT perpetua problemas já reconhecidos de LLMs e observamos que sua maior capacidade de generalização aumenta perigos de enviesamento e preconceito. Concluímos reforçando apelos por maiores incentivos à diminuição de esforços por maiores modelos, em favor de esforços por bases de dados melhor documentadas, modelos interpretáveis e por abordagens voltadas ao entendimento de linguagem.

本文旨在探讨与会话风格语言模型ChatGPT相关的伦理问题。从工作相关的概念体现大规模语言模型(LLMs)和工作规范伦理和最佳实践分析的人工智能(ai)的发展探索的宗教ChatGPT问题已经承认LLMs和观察你的泛化能力增强了偏见和偏见的危险。最后，我们加强了对更大的激励措施的呼吁，以减少更大模型的努力，支持更好的记录数据库、可解释模型和旨在理解语言的方法的努力。

引用次数: 1

Coleta de Dados do Instagram sobre Ocorrências de Caravelas-Portuguesas na Costa Brasileira 在Instagram上收集关于巴西海岸葡萄牙Caravelas事件的数据

Anais da XVIII Escola Regional de Banco de Dados (ERBD 2023)

Pub Date : 2023-04-11 DOI: 10.5753/erbd.2023.229499

Leonardo da S. Camargo, H. Rocha, L. S. D. Nascimento, Carmem S. Hara

Redes sociais geram dados em grande volume, que são de livre e fácil acesso, renováveis por serem gerados continuamente e em tempo real, e de longa duração. O objetivo deste trabalho é coletar postagens do Instagram para obter dados sobre a distribuição espaço-temporal de avistamentos da caravela-portuguesa (cnidário physalia physalis) na costa brasileira. Foram obtidas postagens do Instagram com informações que apontam o Instagram como uma possível fonte deste tipo de dado, dada a quantidade de postagens coletadas. Trabalhos futuros envolvem determinar a veracidade e abrangência das informações e desenvolvimento de um processo automatizado para periodicamente extrair novas postagens.

社交网络产生大量的数据，这些数据是免费和容易获取的，可再生的，因为它们是连续和实时生成的，而且持续时间很长。这项工作的目的是收集Instagram上的帖子，以获得在巴西海岸看到葡萄牙caravela (physalia physalis刺胞动物)的时空分布数据。考虑到收集的帖子数量，Instagram帖子的信息表明Instagram是这类数据的可能来源。未来的工作包括确定信息的准确性和广度，并开发一个自动流程来定期提取新帖子。

引用次数: 0

下一页尾页

类型

全部化学•材料生命科学医学物理工程技术环境•农林材料科学地球科学法学管理学化学环境科学与生态学计算机科学教育学经济学农林科学人文科学生物学数学物理与天体物理心理学综合性期刊其他工业工程理学历史学农学文学信息工程

数据库

全部 ACS Publications Elsevier ieeexplore Springer The Royal Society of Chemistry Wiley

期刊

Anais da XVIII Escola Regional de Banco de Dados (ERBD 2023)

全部 Acc. Chem. Res. ACS Applied Bio Materials ACS Appl. Electron. Mater. ACS Appl. Energy Mater. ACS Appl. Mater. Interfaces ACS Appl. Nano Mater. ACS Appl. Polym. Mater. ACS BIOMATER-SCI ENG ACS Catal. ACS Cent. Sci. ACS Chem. Biol. ACS Chemical Health & Safety ACS Chem. Neurosci. ACS Comb. Sci. ACS Earth Space Chem. ACS Energy Lett. ACS Infect. Dis. ACS Macro Lett. ACS Mater. Lett. ACS Med. Chem. Lett. ACS Nano ACS Omega ACS Photonics ACS Sens. ACS Sustainable Chem. Eng. ACS Synth. Biol. Anal. Chem. BIOCHEMISTRY-US Bioconjugate Chem. BIOMACROMOLECULES Chem. Res. Toxicol. Chem. Rev. Chem. Mater. CRYST GROWTH DES ENERG FUEL Environ. Sci. Technol. Environ. Sci. Technol. Lett. Eur. J. Inorg. Chem. IND ENG CHEM RES Inorg. Chem. J. Agric. Food. Chem. J. Chem. Eng. Data J. Chem. Educ. J. Chem. Inf. Model. J. Chem. Theory Comput. J. Med. Chem. J. Nat. Prod. J PROTEOME RES J. Am. Chem. Soc. LANGMUIR MACROMOLECULES Mol. Pharmaceutics Nano Lett. Org. Lett. ORG PROCESS RES DEV ORGANOMETALLICS J. Org. Chem. J. Phys. Chem. J. Phys. Chem. A J. Phys. Chem. B J. Phys. Chem. C J. Phys. Chem. Lett. Analyst Anal. Methods Biomater. Sci. Catal. Sci. Technol. Chem. Commun. Chem. Soc. Rev. CHEM EDUC RES PRACT CRYSTENGCOMM Dalton Trans. Energy Environ. Sci. ENVIRON SCI-NANO ENVIRON SCI-PROC IMP ENVIRON SCI-WAT RES Faraday Discuss. Food Funct. Green Chem. Inorg. Chem. Front. Integr. Biol. J. Anal. At. Spectrom. J. Mater. Chem. A J. Mater. Chem. B J. Mater. Chem. C Lab Chip Mater. Chem. Front. Mater. Horiz. MEDCHEMCOMM Metallomics Mol. Biosyst. Mol. Syst. Des. Eng. Nanoscale Nanoscale Horiz. Nat. Prod. Rep. New J. Chem. Org. Biomol. Chem. Org. Chem. Front. PHOTOCH PHOTOBIO SCI PCCP Polym. Chem.

﹀