通过词汇相似性优化地名整合

Q4 Social Sciences Revista Brasileira de Cartografia Pub Date : 2022-05-30 DOI:10.14393/rbcv74n2-64136
Lanna Kallen Parreiras, Fredy Sales Ribeiro, V. Coelho
{"title":"通过词汇相似性优化地名整合","authors":"Lanna Kallen Parreiras, Fredy Sales Ribeiro, V. Coelho","doi":"10.14393/rbcv74n2-64136","DOIUrl":null,"url":null,"abstract":"Feições identificáveis do mundo real são, por intermédio de funções de mapeamento, instanciadas em um Banco de Dados Geográfico (BDG) como representações dessa realidade. Essas representações são individualizadas pelos atributos especificadores da classe mapeada. Entre esses atributos estão pelo menos uma geometria e um nome identificador (topônimo) associado à chave primária. No entanto, diferentes produtores de dados interpretam a realidade com pequenas discrepâncias, tornando algumas representações de características mapeadas semelhantes, mas não idênticas. Em particular, os topônimos têm pequenas diferenças resultantes de modificações ao longo dos anos, da forma como são soletrados ou, também, devido a erros humanos no registro dos dados. Portanto, ao tentar integrar diferentes BDGs, por meio de topônimos, eles não favorecem um pareamento total, uma vez que os registros não são identificados como sendo representativos da mesma realidade. No caso específico da classe toponímia, isso ocorre principalmente devido a erros de digitação decorrentes do processo de inserção de dados, especialmente pela inversão no posicionamento dos caracteres dentro da palavra. Nesta pesquisa, foi desenvolvida uma melhoria no Coeficiente de Dados e comparada com o método original aplicado em três BDGs distintos. A análise foi baseada nas frequências de caracteres e bigramas existentes nessas bases. A melhoria proposta baseou-se na hipótese de que bigramas invertidos, como 'αβ' e 'βα', podem, segundo certos critérios, ser admitidos como semelhantes. A análise identificou os caracteres mais comuns e os bigramas mais frequentes nas bases, cuja associação com uma análise da distância normalizada em um teclado padrão, permitiu a identificação de uma série de pares de bigramas considerados semelhantes. Essa proposta permitiu um aumento médio de 0,58% no total de instâncias pareadas nos BDGs testados.","PeriodicalId":36183,"journal":{"name":"Revista Brasileira de Cartografia","volume":"1 1","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2022-05-30","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"Otimização da Integração de Topônimos por Similaridade Lexical\",\"authors\":\"Lanna Kallen Parreiras, Fredy Sales Ribeiro, V. Coelho\",\"doi\":\"10.14393/rbcv74n2-64136\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Feições identificáveis do mundo real são, por intermédio de funções de mapeamento, instanciadas em um Banco de Dados Geográfico (BDG) como representações dessa realidade. Essas representações são individualizadas pelos atributos especificadores da classe mapeada. Entre esses atributos estão pelo menos uma geometria e um nome identificador (topônimo) associado à chave primária. No entanto, diferentes produtores de dados interpretam a realidade com pequenas discrepâncias, tornando algumas representações de características mapeadas semelhantes, mas não idênticas. Em particular, os topônimos têm pequenas diferenças resultantes de modificações ao longo dos anos, da forma como são soletrados ou, também, devido a erros humanos no registro dos dados. Portanto, ao tentar integrar diferentes BDGs, por meio de topônimos, eles não favorecem um pareamento total, uma vez que os registros não são identificados como sendo representativos da mesma realidade. No caso específico da classe toponímia, isso ocorre principalmente devido a erros de digitação decorrentes do processo de inserção de dados, especialmente pela inversão no posicionamento dos caracteres dentro da palavra. Nesta pesquisa, foi desenvolvida uma melhoria no Coeficiente de Dados e comparada com o método original aplicado em três BDGs distintos. A análise foi baseada nas frequências de caracteres e bigramas existentes nessas bases. A melhoria proposta baseou-se na hipótese de que bigramas invertidos, como 'αβ' e 'βα', podem, segundo certos critérios, ser admitidos como semelhantes. A análise identificou os caracteres mais comuns e os bigramas mais frequentes nas bases, cuja associação com uma análise da distância normalizada em um teclado padrão, permitiu a identificação de uma série de pares de bigramas considerados semelhantes. Essa proposta permitiu um aumento médio de 0,58% no total de instâncias pareadas nos BDGs testados.\",\"PeriodicalId\":36183,\"journal\":{\"name\":\"Revista Brasileira de Cartografia\",\"volume\":\"1 1\",\"pages\":\"\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2022-05-30\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Revista Brasileira de Cartografia\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.14393/rbcv74n2-64136\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"Q4\",\"JCRName\":\"Social Sciences\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Revista Brasileira de Cartografia","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.14393/rbcv74n2-64136","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q4","JCRName":"Social Sciences","Score":null,"Total":0}
引用次数: 0

摘要

通过映射函数,将真实世界的可识别特征实例化到地理数据库(BDG)中,作为现实的表示。这些表示由映射类的指定属性标识。在这些属性中,至少有一个几何形状和一个与主键相关联的标识名称(地名)。然而,不同的数据生产者以微小的差异解释现实,使一些映射特征的表示相似但不相同。特别是,由于多年来拼写的变化,或者由于数据记录中的人为错误,地名有细微的差异。因此,当试图通过地名整合不同的BDGs时,他们不赞成完全匹配,因为记录没有被识别为代表相同的现实。在地名类的具体情况下,这主要是由于数据输入过程中出现的打字错误,特别是单词中字符的位置颠倒。在本研究中,对数据系数进行了改进,并与原方法在三种不同的BDGs中应用的方法进行了比较。分析是基于这些数据库中存在的字符频率和双图。提出的改进是基于这样一种假设,即在某些标准下,像“αβ”和“βα”这样的反向双图可以被认为是相似的。该分析确定了最常见的字符和最常见的双字符,它们与标准键盘上的归一化距离分析相关联,允许识别一系列被认为相似的双字符对。该方案允许在测试的BDGs中配对实例总数平均增加0.58%。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
查看原文
分享 分享
微信好友 朋友圈 QQ好友 复制链接
本刊更多论文
Otimização da Integração de Topônimos por Similaridade Lexical
Feições identificáveis do mundo real são, por intermédio de funções de mapeamento, instanciadas em um Banco de Dados Geográfico (BDG) como representações dessa realidade. Essas representações são individualizadas pelos atributos especificadores da classe mapeada. Entre esses atributos estão pelo menos uma geometria e um nome identificador (topônimo) associado à chave primária. No entanto, diferentes produtores de dados interpretam a realidade com pequenas discrepâncias, tornando algumas representações de características mapeadas semelhantes, mas não idênticas. Em particular, os topônimos têm pequenas diferenças resultantes de modificações ao longo dos anos, da forma como são soletrados ou, também, devido a erros humanos no registro dos dados. Portanto, ao tentar integrar diferentes BDGs, por meio de topônimos, eles não favorecem um pareamento total, uma vez que os registros não são identificados como sendo representativos da mesma realidade. No caso específico da classe toponímia, isso ocorre principalmente devido a erros de digitação decorrentes do processo de inserção de dados, especialmente pela inversão no posicionamento dos caracteres dentro da palavra. Nesta pesquisa, foi desenvolvida uma melhoria no Coeficiente de Dados e comparada com o método original aplicado em três BDGs distintos. A análise foi baseada nas frequências de caracteres e bigramas existentes nessas bases. A melhoria proposta baseou-se na hipótese de que bigramas invertidos, como 'αβ' e 'βα', podem, segundo certos critérios, ser admitidos como semelhantes. A análise identificou os caracteres mais comuns e os bigramas mais frequentes nas bases, cuja associação com uma análise da distância normalizada em um teclado padrão, permitiu a identificação de uma série de pares de bigramas considerados semelhantes. Essa proposta permitiu um aumento médio de 0,58% no total de instâncias pareadas nos BDGs testados.
求助全文
通过发布文献求助,成功后即可免费获取论文全文。 去求助
来源期刊
Revista Brasileira de Cartografia
Revista Brasileira de Cartografia Earth and Planetary Sciences-Earth-Surface Processes
CiteScore
0.70
自引率
0.00%
发文量
37
审稿时长
16 weeks
期刊最新文献
Semantic Alignment of Official and Collaborative Geospatial Data: A Case Study in Brazil Padrão Espacial de Ocorrência de Plantação de Mandioca na Amazônia Brasileira: a Região Oeste do Estado do Pará Generation of a Digital Terrain Model (DTM) Fusioning WV-2 Images and RTK-derived Topobathymetric Data Tecnologia de Geoinformação na Identificação de Lugares Ótimos para Lazer e Cultura em Divinópolis, MG: Uma Abordagem Didática Revisitando o variograma e covariância
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
已复制链接
已复制链接
快去分享给好友吧!
我知道了
×
扫码分享
扫码分享
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1