Persistent semantic identity in WordNet

IF 0.4 0 LANGUAGE & LINGUISTICS Cognitive Studies-Etudes Cognitives Pub Date : 2018-12-20 DOI:10.11649/cs.1717
Eric Kafe
{"title":"Persistent semantic identity in WordNet","authors":"Eric Kafe","doi":"10.11649/cs.1717","DOIUrl":null,"url":null,"abstract":"Persistent semantic identity in WordNetAlthough rarely studied, the persistence of semantic identity in the WordNet lexical database is crucial for the interoperability of all the resources that use WordNet data. The present study investigates the stability of the two primary entities of the WordNet database (the word senses and the synonym sets), by following their respective identifiers (the sense keys and the synset offsets) across all the versions released between 1995 and 2012, while also considering \"drifts\" of identical definitions and semantic relations. Contrary to expectations, 94.4% of the WordNet 1.5 synsets still persisted in the latest 2012 version, compared to only 89.1% of the corresponding sense keys. Meanwhile, the splits and merges between synonym sets remained few and simple. These results are presented in tables that allow to estimate the lexicographic effort needed for updating WordNet-based resources to newer WordNet versions. We discuss the specific challenges faced by both the dominant synset-based mapping paradigm (a moderate amount of split synsets), and the recommended sense key-based approach (very few identity violations), and conclude that stable synset identifiers are viable, but need to be complemented by stable sense keys in order to adequately handle the split synonym sets. Trwała tożsamość semantyczna w WordNecieChociaż rzadko badana, trwałość tożsamości semantycznej w leksykalnej bazie danych WordNet ma kluczowe znaczenie dla interoperacyjności wszystkich zasobów korzystających z danych WordNetowych. W niniejszej pracy zbadano stabilność dwóch podstawowych elementów bazy danych WordNet (jednostek leksykalnych i synsetów – zbiorów synonimicznych jednostek leksykalnych), poprzez prześledzenie ich identyfikatorów (tj. identyfikatorów jednostek i identyfikatorów synsetów) we wszystkich wersjach wydanych w latach 1995-2012. Wzięto również pod uwagę przesunięcia identycznych definicji i relacji semantycznych. Wbrew oczekiwaniom, 94,4% synsetów WordNetu 1.5 zachowało się w najnowszej wersji z 2012 r., w porównaniu do 89,1% odpowiadających im identyfikatorów jednostek. Tymczasem podziały i połączenia pomiędzy synsetami pozostały proste i nieliczne. Wyniki te przedstawiono w tabelach, które pozwalają oszacować wysiłek leksykograficzny potrzebny do aktualizacji zasobów opartych o WordNet do nowszych wersji WordNetu. Omawiamy konkretne wyzwania, przed którymi stoi zarówno dominujący paradygmat rzutowania synsetów (umiarkowana liczba podzielonych synsetów), jak i zalecane podejście oparte na identyfikatorach jednostek (bardzo niewiele naruszeń tożsamości) i stwierdzamy, że można stworzyć stabilne identyfikatory synsetów, ale muszą one iść w parze ze stabilnymi identyfikatorami jednostek, aby odpowiednio zająć się podzielonymi synsetami.","PeriodicalId":52084,"journal":{"name":"Cognitive Studies-Etudes Cognitives","volume":"1 1","pages":""},"PeriodicalIF":0.4000,"publicationDate":"2018-12-20","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"2","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Cognitive Studies-Etudes Cognitives","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.11649/cs.1717","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"0","JCRName":"LANGUAGE & LINGUISTICS","Score":null,"Total":0}
引用次数: 2

Abstract

Persistent semantic identity in WordNetAlthough rarely studied, the persistence of semantic identity in the WordNet lexical database is crucial for the interoperability of all the resources that use WordNet data. The present study investigates the stability of the two primary entities of the WordNet database (the word senses and the synonym sets), by following their respective identifiers (the sense keys and the synset offsets) across all the versions released between 1995 and 2012, while also considering "drifts" of identical definitions and semantic relations. Contrary to expectations, 94.4% of the WordNet 1.5 synsets still persisted in the latest 2012 version, compared to only 89.1% of the corresponding sense keys. Meanwhile, the splits and merges between synonym sets remained few and simple. These results are presented in tables that allow to estimate the lexicographic effort needed for updating WordNet-based resources to newer WordNet versions. We discuss the specific challenges faced by both the dominant synset-based mapping paradigm (a moderate amount of split synsets), and the recommended sense key-based approach (very few identity violations), and conclude that stable synset identifiers are viable, but need to be complemented by stable sense keys in order to adequately handle the split synonym sets. Trwała tożsamość semantyczna w WordNecieChociaż rzadko badana, trwałość tożsamości semantycznej w leksykalnej bazie danych WordNet ma kluczowe znaczenie dla interoperacyjności wszystkich zasobów korzystających z danych WordNetowych. W niniejszej pracy zbadano stabilność dwóch podstawowych elementów bazy danych WordNet (jednostek leksykalnych i synsetów – zbiorów synonimicznych jednostek leksykalnych), poprzez prześledzenie ich identyfikatorów (tj. identyfikatorów jednostek i identyfikatorów synsetów) we wszystkich wersjach wydanych w latach 1995-2012. Wzięto również pod uwagę przesunięcia identycznych definicji i relacji semantycznych. Wbrew oczekiwaniom, 94,4% synsetów WordNetu 1.5 zachowało się w najnowszej wersji z 2012 r., w porównaniu do 89,1% odpowiadających im identyfikatorów jednostek. Tymczasem podziały i połączenia pomiędzy synsetami pozostały proste i nieliczne. Wyniki te przedstawiono w tabelach, które pozwalają oszacować wysiłek leksykograficzny potrzebny do aktualizacji zasobów opartych o WordNet do nowszych wersji WordNetu. Omawiamy konkretne wyzwania, przed którymi stoi zarówno dominujący paradygmat rzutowania synsetów (umiarkowana liczba podzielonych synsetów), jak i zalecane podejście oparte na identyfikatorach jednostek (bardzo niewiele naruszeń tożsamości) i stwierdzamy, że można stworzyć stabilne identyfikatory synsetów, ale muszą one iść w parze ze stabilnymi identyfikatorami jednostek, aby odpowiednio zająć się podzielonymi synsetami.
查看原文
分享 分享
微信好友 朋友圈 QQ好友 复制链接
本刊更多论文
WordNet中的持久语义标识
WordNet中持久的语义同一性虽然很少被研究,但是WordNet词汇数据库中语义同一性的持久性对于使用WordNet数据的所有资源的互操作性至关重要。本研究调查了WordNet数据库的两个主要实体(词义和同义词集)的稳定性,通过在1995年至2012年发布的所有版本中跟踪它们各自的标识符(意义键和同义词集偏移量),同时也考虑了相同定义和语义关系的“漂移”。与预期相反,94.4%的WordNet 1.5同义词集在最新的2012版本中仍然存在,而对应的感键只有89.1%。与此同时,同义词集之间的拆分和合并仍然很少且简单。这些结果显示在表格中,可以估计将基于WordNet的资源更新到较新的WordNet版本所需的词典编纂工作。我们讨论了主流的基于同义词集的映射范式(少量的分裂同义词集)和推荐的基于意义键的方法(很少违反身份)所面临的具体挑战,并得出结论,稳定的同义词集标识符是可行的,但需要稳定的意义键来补充,以便充分处理分裂的同义词集。Trwała tożsamość semantyczna w wordneciechociazezadko badana, trwałość tożsamości semantycznej w leksykalnejbazie danych WordNet ma kluczowe znaczenie dla interoperacyjności wszystkich zasobów korzystających z danych WordNetowych。wniniejszej pracy zbadano stabilność dwóch podstawowych elementów bazy danych WordNet (jednostek leksykalnych synsetów - zbiorów synonimicznych jednostek leksykalnych), poprzez prześledzenie ich identyfikatorów (tj. .)Identyfikatorów jednostek I identyfikatorów synsetów) we wszystkich wersjach wydanych w latach 1995-2012。Wzięto również pod uwagoprzesunięcia identycznych definicji i relacji semantycznych。Wbrew oczekiwaniom, 94,4% synsetów WordNetu 1.5 zachowało siwa najnowszej wersji z 2012 r., w porównaniu do 89,1% odpowiadających im identyfikatorów jednostek。Tymczasem podziały i połączenia pomiędzy synsetami pozostały proste i niliczne。Wyniki . the prezedstawiono w tabelach, które pozwalajoszacowaki wysiłek leksykograficzny potrzebny do aktualizacji zasobów optych to WordNet do nowszych wersji WordNetu。Omawiamy konkretne wyzwania, przed ktorymi stoi zarowno dominujący paradygmat rzutowania synsetow (umiarkowana liczba podzielonych synsetow),木菠萝我zalecane podejście oparte na identyfikatorach jednostek (bardzo niewiele naruszeń,ż萨摩ści)我stwierdzamyże莫żna stworzyćstabilne identyfikatory synsetow,啤酒muszą我śćw parze泽stabilnymi identyfikatorami jednostek,赎odpowiednio zająćsiępodzielonymi synsetami。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 去求助
来源期刊
Cognitive Studies-Etudes Cognitives
Cognitive Studies-Etudes Cognitives LANGUAGE & LINGUISTICS-
CiteScore
1.10
自引率
83.30%
发文量
0
审稿时长
48 weeks
期刊最新文献
Functions of Meta-discursive Nouns: A Corpus-based Comparison of Post-graduate Genres in L1 and L2 English The Reconstruction of Metaphorical Mapping as an Instrument of the Pre-translation Analysis of Poetry Polish–Romanian Bilingualism: An Individual and Social Process An Evaluation of the Power of Polish Language by Ukrainian Modern Language Students Hate Speech in Ukrainian Media Discourse
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
已复制链接
已复制链接
快去分享给好友吧!
我知道了
×
扫码分享
扫码分享
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1