通过词汇相似性优化地名整合

Q4 Social Sciences Revista Brasileira de Cartografia Pub Date : 2022-05-30 DOI:10.14393/rbcv74n2-64136

Lanna Kallen Parreiras, Fredy Sales Ribeiro, V. Coelho

{"title":"通过词汇相似性优化地名整合","authors":"Lanna Kallen Parreiras, Fredy Sales Ribeiro, V. Coelho","doi":"10.14393/rbcv74n2-64136","DOIUrl":null,"url":null,"abstract":"Feições identificáveis do mundo real são, por intermédio de funções de mapeamento, instanciadas em um Banco de Dados Geográfico (BDG) como representações dessa realidade. Essas representações são individualizadas pelos atributos especificadores da classe mapeada. Entre esses atributos estão pelo menos uma geometria e um nome identificador (topônimo) associado à chave primária. No entanto, diferentes produtores de dados interpretam a realidade com pequenas discrepâncias, tornando algumas representações de características mapeadas semelhantes, mas não idênticas. Em particular, os topônimos têm pequenas diferenças resultantes de modificações ao longo dos anos, da forma como são soletrados ou, também, devido a erros humanos no registro dos dados. Portanto, ao tentar integrar diferentes BDGs, por meio de topônimos, eles não favorecem um pareamento total, uma vez que os registros não são identificados como sendo representativos da mesma realidade. No caso específico da classe toponímia, isso ocorre principalmente devido a erros de digitação decorrentes do processo de inserção de dados, especialmente pela inversão no posicionamento dos caracteres dentro da palavra. Nesta pesquisa, foi desenvolvida uma melhoria no Coeficiente de Dados e comparada com o método original aplicado em três BDGs distintos. A análise foi baseada nas frequências de caracteres e bigramas existentes nessas bases. A melhoria proposta baseou-se na hipótese de que bigramas invertidos, como 'αβ' e 'βα', podem, segundo certos critérios, ser admitidos como semelhantes. A análise identificou os caracteres mais comuns e os bigramas mais frequentes nas bases, cuja associação com uma análise da distância normalizada em um teclado padrão, permitiu a identificação de uma série de pares de bigramas considerados semelhantes. Essa proposta permitiu um aumento médio de 0,58% no total de instâncias pareadas nos BDGs testados.","PeriodicalId":36183,"journal":{"name":"Revista Brasileira de Cartografia","volume":"1 1","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2022-05-30","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"Otimização da Integração de Topônimos por Similaridade Lexical\",\"authors\":\"Lanna Kallen Parreiras, Fredy Sales Ribeiro, V. Coelho\",\"doi\":\"10.14393/rbcv74n2-64136\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Feições identificáveis do mundo real são, por intermédio de funções de mapeamento, instanciadas em um Banco de Dados Geográfico (BDG) como representações dessa realidade. Essas representações são individualizadas pelos atributos especificadores da classe mapeada. Entre esses atributos estão pelo menos uma geometria e um nome identificador (topônimo) associado à chave primária. No entanto, diferentes produtores de dados interpretam a realidade com pequenas discrepâncias, tornando algumas representações de características mapeadas semelhantes, mas não idênticas. Em particular, os topônimos têm pequenas diferenças resultantes de modificações ao longo dos anos, da forma como são soletrados ou, também, devido a erros humanos no registro dos dados. Portanto, ao tentar integrar diferentes BDGs, por meio de topônimos, eles não favorecem um pareamento total, uma vez que os registros não são identificados como sendo representativos da mesma realidade. No caso específico da classe toponímia, isso ocorre principalmente devido a erros de digitação decorrentes do processo de inserção de dados, especialmente pela inversão no posicionamento dos caracteres dentro da palavra. Nesta pesquisa, foi desenvolvida uma melhoria no Coeficiente de Dados e comparada com o método original aplicado em três BDGs distintos. A análise foi baseada nas frequências de caracteres e bigramas existentes nessas bases. A melhoria proposta baseou-se na hipótese de que bigramas invertidos, como 'αβ' e 'βα', podem, segundo certos critérios, ser admitidos como semelhantes. A análise identificou os caracteres mais comuns e os bigramas mais frequentes nas bases, cuja associação com uma análise da distância normalizada em um teclado padrão, permitiu a identificação de uma série de pares de bigramas considerados semelhantes. Essa proposta permitiu um aumento médio de 0,58% no total de instâncias pareadas nos BDGs testados.\",\"PeriodicalId\":36183,\"journal\":{\"name\":\"Revista Brasileira de Cartografia\",\"volume\":\"1 1\",\"pages\":\"\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2022-05-30\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Revista Brasileira de Cartografia\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.14393/rbcv74n2-64136\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"Q4\",\"JCRName\":\"Social Sciences\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Revista Brasileira de Cartografia","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.14393/rbcv74n2-64136","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q4","JCRName":"Social Sciences","Score":null,"Total":0}

引用次数: 0

摘要

通过映射函数，将真实世界的可识别特征实例化到地理数据库(BDG)中，作为现实的表示。这些表示由映射类的指定属性标识。在这些属性中，至少有一个几何形状和一个与主键相关联的标识名称(地名)。然而，不同的数据生产者以微小的差异解释现实，使一些映射特征的表示相似但不相同。特别是，由于多年来拼写的变化，或者由于数据记录中的人为错误，地名有细微的差异。因此，当试图通过地名整合不同的BDGs时，他们不赞成完全匹配，因为记录没有被识别为代表相同的现实。在地名类的具体情况下，这主要是由于数据输入过程中出现的打字错误，特别是单词中字符的位置颠倒。在本研究中，对数据系数进行了改进，并与原方法在三种不同的BDGs中应用的方法进行了比较。分析是基于这些数据库中存在的字符频率和双图。提出的改进是基于这样一种假设，即在某些标准下，像“αβ”和“βα”这样的反向双图可以被认为是相似的。该分析确定了最常见的字符和最常见的双字符，它们与标准键盘上的归一化距离分析相关联，允许识别一系列被认为相似的双字符对。该方案允许在测试的BDGs中配对实例总数平均增加0.58%。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

查看原文

微信好友朋友圈 QQ好友复制链接

本刊更多论文

Otimização da Integração de Topônimos por Similaridade Lexical

Feições identificáveis do mundo real são, por intermédio de funções de mapeamento, instanciadas em um Banco de Dados Geográfico (BDG) como representações dessa realidade. Essas representações são individualizadas pelos atributos especificadores da classe mapeada. Entre esses atributos estão pelo menos uma geometria e um nome identificador (topônimo) associado à chave primária. No entanto, diferentes produtores de dados interpretam a realidade com pequenas discrepâncias, tornando algumas representações de características mapeadas semelhantes, mas não idênticas. Em particular, os topônimos têm pequenas diferenças resultantes de modificações ao longo dos anos, da forma como são soletrados ou, também, devido a erros humanos no registro dos dados. Portanto, ao tentar integrar diferentes BDGs, por meio de topônimos, eles não favorecem um pareamento total, uma vez que os registros não são identificados como sendo representativos da mesma realidade. No caso específico da classe toponímia, isso ocorre principalmente devido a erros de digitação decorrentes do processo de inserção de dados, especialmente pela inversão no posicionamento dos caracteres dentro da palavra. Nesta pesquisa, foi desenvolvida uma melhoria no Coeficiente de Dados e comparada com o método original aplicado em três BDGs distintos. A análise foi baseada nas frequências de caracteres e bigramas existentes nessas bases. A melhoria proposta baseou-se na hipótese de que bigramas invertidos, como 'αβ' e 'βα', podem, segundo certos critérios, ser admitidos como semelhantes. A análise identificou os caracteres mais comuns e os bigramas mais frequentes nas bases, cuja associação com uma análise da distância normalizada em um teclado padrão, permitiu a identificação de uma série de pares de bigramas considerados semelhantes. Essa proposta permitiu um aumento médio de 0,58% no total de instâncias pareadas nos BDGs testados.

求助全文

通过发布文献求助，成功后即可免费获取论文全文。去求助

来源期刊