基于多字典冗余的模糊Synsets发现

IF 0.3 Q4 LINGUISTICS Linguamatica Pub Date : 2015-12-30 DOI:10.21814/LM.7.2.213
Fábio Santos, Hugo Gonçalo Oliveira
{"title":"基于多字典冗余的模糊Synsets发现","authors":"Fábio Santos, Hugo Gonçalo Oliveira","doi":"10.21814/LM.7.2.213","DOIUrl":null,"url":null,"abstract":"EnglishIn a wordnet, concepts are typically represented as groups of words, commonly known as synsets, and each membership of a word to a synset denotes a different sense of that word. However, since word senses are complex entities, without well-defined boundaries, we suggest to handle them less artificially, by representing them as fuzzy objects, where each word has its membership degree, which can be related to the confidence on using the word to denote the concept conveyed by the synset. We thus propose an approach to discover synsets from a synonymy network, ideally redundant and extracted from several broad-coverage sources. The more synonymy relations there are between two words, the higher the confidence on the semantic equivalence of at least one of their senses. The proposed approach was applied to a network extracted from three Portuguese dictionaries and resulted in a large set of fuzzy synsets. Besides describing this approach and illustrating its results, we rely on three evaluations — comparison against a handcrafted Portuguese thesaurus; comparison against the results of a previous approach with a similar goal; and manual evaluation — to believe that our outcomes are positive and that, in the future, they might my expanded by exploring additional synonymy sources portuguesNuma wordnet, conceitos sao representados atraves de grupos de palavras, vulgarmente chamados de synsets, e cada pertenca de uma palavra a um synset representa um diferente sentido dessa mesma palavra. Mas como os sentidos sao entidades complexas, sem fronteiras bem definidas, para lidar com eles de forma menos artificial, sugerimos que synsets sejam tratados como conjuntos difusos, em que cada palavra tem um grau de pertenca, associado a confianca que existe na utilizacao de cada palavra para transmitir o conceito que emerge do synset. Propomos entao uma abordagem automatica para descobrir um conjunto de synsets difusos a partir de uma rede de sinonimos, idealmente redundante, por ser extraida a partir de varias fontes, e o mais abrangentes possivel. Um dos principios e que, em quantos mais recursos duas palavras forem consideradas sinonimos, maior confianca havera na equivalencia de pelo menos um dos seus sentidos. A abordagem proposta foi aplicada a uma rede extraida a partir de tres dicionarios do portugues e resultou num novo conjunto de synsets para esta lingua, em que as palavras tem pertencas difusas, ou seja, fuzzy synsets. Para alem de apresentar a abordagem e a ilustrar com alguns resultados obtidos, baseamo-nos em tres avaliacoes — comparacao com um tesauro criado manualmente para o portugues; comparacao com uma abordagem anterior com o mesmo objetivo; e avaliacao manual — para confirmar que os resultados sao positivos, e poderao no futuro ser expandidos atraves da exploracao de outras fontes de sinonimos.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"7 1","pages":"3-17"},"PeriodicalIF":0.3000,"publicationDate":"2015-12-30","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"3","resultStr":"{\"title\":\"Descoberta de Synsets Difusos com base na Redundância em vários Dicionários\",\"authors\":\"Fábio Santos, Hugo Gonçalo Oliveira\",\"doi\":\"10.21814/LM.7.2.213\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"EnglishIn a wordnet, concepts are typically represented as groups of words, commonly known as synsets, and each membership of a word to a synset denotes a different sense of that word. However, since word senses are complex entities, without well-defined boundaries, we suggest to handle them less artificially, by representing them as fuzzy objects, where each word has its membership degree, which can be related to the confidence on using the word to denote the concept conveyed by the synset. We thus propose an approach to discover synsets from a synonymy network, ideally redundant and extracted from several broad-coverage sources. The more synonymy relations there are between two words, the higher the confidence on the semantic equivalence of at least one of their senses. The proposed approach was applied to a network extracted from three Portuguese dictionaries and resulted in a large set of fuzzy synsets. Besides describing this approach and illustrating its results, we rely on three evaluations — comparison against a handcrafted Portuguese thesaurus; comparison against the results of a previous approach with a similar goal; and manual evaluation — to believe that our outcomes are positive and that, in the future, they might my expanded by exploring additional synonymy sources portuguesNuma wordnet, conceitos sao representados atraves de grupos de palavras, vulgarmente chamados de synsets, e cada pertenca de uma palavra a um synset representa um diferente sentido dessa mesma palavra. Mas como os sentidos sao entidades complexas, sem fronteiras bem definidas, para lidar com eles de forma menos artificial, sugerimos que synsets sejam tratados como conjuntos difusos, em que cada palavra tem um grau de pertenca, associado a confianca que existe na utilizacao de cada palavra para transmitir o conceito que emerge do synset. Propomos entao uma abordagem automatica para descobrir um conjunto de synsets difusos a partir de uma rede de sinonimos, idealmente redundante, por ser extraida a partir de varias fontes, e o mais abrangentes possivel. Um dos principios e que, em quantos mais recursos duas palavras forem consideradas sinonimos, maior confianca havera na equivalencia de pelo menos um dos seus sentidos. A abordagem proposta foi aplicada a uma rede extraida a partir de tres dicionarios do portugues e resultou num novo conjunto de synsets para esta lingua, em que as palavras tem pertencas difusas, ou seja, fuzzy synsets. Para alem de apresentar a abordagem e a ilustrar com alguns resultados obtidos, baseamo-nos em tres avaliacoes — comparacao com um tesauro criado manualmente para o portugues; comparacao com uma abordagem anterior com o mesmo objetivo; e avaliacao manual — para confirmar que os resultados sao positivos, e poderao no futuro ser expandidos atraves da exploracao de outras fontes de sinonimos.\",\"PeriodicalId\":41819,\"journal\":{\"name\":\"Linguamatica\",\"volume\":\"7 1\",\"pages\":\"3-17\"},\"PeriodicalIF\":0.3000,\"publicationDate\":\"2015-12-30\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"3\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Linguamatica\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.21814/LM.7.2.213\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"Q4\",\"JCRName\":\"LINGUISTICS\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Linguamatica","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.21814/LM.7.2.213","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q4","JCRName":"LINGUISTICS","Score":null,"Total":0}
引用次数: 3

摘要

在wordnet中,概念通常表示为单词组(通常称为同义词集),一个单词在同义词集中的每个成员都表示该单词的不同含义。然而,由于词义是复杂的实体,没有明确的边界,我们建议减少人为地处理它们,通过将它们表示为模糊对象,其中每个词都有其隶属度,这可以与使用词来表示同义词集所传达的概念的置信度有关。因此,我们提出了一种从同义词网络中发现同义词集的方法,理想情况下,同义词网络是冗余的,并且是从几个广泛覆盖的来源中提取的。两个词之间的同义词关系越多,对其至少一种意义的语义等价的置信度就越高。将该方法应用于从三个葡萄牙语词典中提取的网络,得到了一个大的模糊同义词集。除了描述这种方法并说明其结果外,我们还依赖于三个评估-与手工制作的葡萄牙语词典进行比较;比较:与具有相似目标的先前方法的结果进行比较;和人工评估-相信我们的结果是积极的,并且在未来,他们可能会通过探索其他同义词来源来扩展它们葡萄牙语词汇网,概念和代表词,语料和语法,语料和语法,语料和语法,语料和语法,语料和语法。as como os sentidos sao entidades complexas, semfronteiras bedefinidas, para lidar com eles de formformesmenos artificial, sugerimos que synsets sejam tratados como conjuntos disfusos, em que cada palavra tem grau de pertenca, associado a conconque existes and utilizacao de cada palavra para transmitre to conmitre构思que emerge do synset。提出了一种基于语法集的自动语法集分析方法,该方法在语法集分析、语法集分析、理想冗余、语法集分析和语法集分析等方面具有广泛的应用前景。原则上的原则是相同的,原则上的原则是相同的,原则上的原则是相同的,原则上的原则是相同的,原则上的原则是相同的。本文提出了一种基于语义语义和语义语义的模糊句法集的概念,并提出了一种基于语义语义和语义语义的模糊句法集。Para - alem代表了一种概述,说明了一种示例性的算法、结果、目标、基准和可用性-比较、汇编和标准手册Para - portugal;近系膜前孔比较术;可用性手册- para确认操作系统的结果是否为SAO阳性,是否为未来的用户扩展,是否为数据探索,是否为用户提供更多的信息。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
查看原文
分享 分享
微信好友 朋友圈 QQ好友 复制链接
本刊更多论文
Descoberta de Synsets Difusos com base na Redundância em vários Dicionários
EnglishIn a wordnet, concepts are typically represented as groups of words, commonly known as synsets, and each membership of a word to a synset denotes a different sense of that word. However, since word senses are complex entities, without well-defined boundaries, we suggest to handle them less artificially, by representing them as fuzzy objects, where each word has its membership degree, which can be related to the confidence on using the word to denote the concept conveyed by the synset. We thus propose an approach to discover synsets from a synonymy network, ideally redundant and extracted from several broad-coverage sources. The more synonymy relations there are between two words, the higher the confidence on the semantic equivalence of at least one of their senses. The proposed approach was applied to a network extracted from three Portuguese dictionaries and resulted in a large set of fuzzy synsets. Besides describing this approach and illustrating its results, we rely on three evaluations — comparison against a handcrafted Portuguese thesaurus; comparison against the results of a previous approach with a similar goal; and manual evaluation — to believe that our outcomes are positive and that, in the future, they might my expanded by exploring additional synonymy sources portuguesNuma wordnet, conceitos sao representados atraves de grupos de palavras, vulgarmente chamados de synsets, e cada pertenca de uma palavra a um synset representa um diferente sentido dessa mesma palavra. Mas como os sentidos sao entidades complexas, sem fronteiras bem definidas, para lidar com eles de forma menos artificial, sugerimos que synsets sejam tratados como conjuntos difusos, em que cada palavra tem um grau de pertenca, associado a confianca que existe na utilizacao de cada palavra para transmitir o conceito que emerge do synset. Propomos entao uma abordagem automatica para descobrir um conjunto de synsets difusos a partir de uma rede de sinonimos, idealmente redundante, por ser extraida a partir de varias fontes, e o mais abrangentes possivel. Um dos principios e que, em quantos mais recursos duas palavras forem consideradas sinonimos, maior confianca havera na equivalencia de pelo menos um dos seus sentidos. A abordagem proposta foi aplicada a uma rede extraida a partir de tres dicionarios do portugues e resultou num novo conjunto de synsets para esta lingua, em que as palavras tem pertencas difusas, ou seja, fuzzy synsets. Para alem de apresentar a abordagem e a ilustrar com alguns resultados obtidos, baseamo-nos em tres avaliacoes — comparacao com um tesauro criado manualmente para o portugues; comparacao com uma abordagem anterior com o mesmo objetivo; e avaliacao manual — para confirmar que os resultados sao positivos, e poderao no futuro ser expandidos atraves da exploracao de outras fontes de sinonimos.
求助全文
通过发布文献求助,成功后即可免费获取论文全文。 去求助
来源期刊
Linguamatica
Linguamatica LINGUISTICS-
CiteScore
1.40
自引率
0.00%
发文量
4
审稿时长
6 weeks
期刊最新文献
A compilação e a análise de métricas textuais de um corpus de redações Classificação da qualidade da argumentação em tweets no domínio da política brasileira Extracção de Relações de Apoio e Oposição em Títulos de Notícias de Política em Português Pais, filhos e outras relações familiares no DIP DIP - Desafio de Identificação de Personagens: objectivo, organização, recursos e resultados
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
已复制链接
已复制链接
快去分享给好友吧!
我知道了
×
扫码分享
扫码分享
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1