首页 > 最新文献

LDV Forum最新文献

英文 中文
ManageLex - a Tool for the Management of Complex Lexical Structures 管理复杂词法结构的工具
Pub Date : 2006-07-01 DOI: 10.21248/jlcl.21.2006.82
M. Gavrila, W. V. Hahn, C. Vertan
Th is paper describes MANAGELEX, a lexicon management tool, developed at Hamburg University, Natural Language Systems Division. After a general introduction on lexicons, the authors present the architecture and functionality of MANAGELEX. Sections 3 and 4 give information on two of the MANAGELEX modules concerning the choice and the structural organization of the linguistic features in a lexicon.
本文介绍了汉堡大学自然语言系统学部开发的词典管理工具MANAGELEX。在对词汇进行了一般介绍之后,作者介绍了MANAGELEX的体系结构和功能。第3节和第4节提供了两个MANAGELEX模块的信息,这些模块涉及词汇中语言特征的选择和结构组织。
{"title":"ManageLex - a Tool for the Management of Complex Lexical Structures","authors":"M. Gavrila, W. V. Hahn, C. Vertan","doi":"10.21248/jlcl.21.2006.82","DOIUrl":"https://doi.org/10.21248/jlcl.21.2006.82","url":null,"abstract":"Th is paper describes MANAGELEX, a lexicon management tool, developed at Hamburg University, Natural Language Systems Division. After a general introduction on lexicons, the authors present the architecture and functionality of MANAGELEX. Sections 3 and 4 give information on two of the MANAGELEX modules concerning the choice and the structural organization of the linguistic features in a lexicon.","PeriodicalId":346957,"journal":{"name":"LDV Forum","volume":null,"pages":null},"PeriodicalIF":0.0,"publicationDate":"2006-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"123646038","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
Exchange Formats: TBX, OLIF, and Beyond 交换格式:TBX、OLIF和其他格式
Pub Date : 2006-07-01 DOI: 10.21248/jlcl.21.2006.81
G. Thurmair
Th is paper tries to comment on some of the standardisation eff orts in the area of exchange formats for lexical resources. Th e fi rst family of standards was centred around terminological data, producing exchange formats like MATER/ MARTIF and TBX, based on an organisation of the data as concepts and (language-specifi c) terms. When the exchange of fully annotated lexical data came into play, standards like OLIF and MILE were proposed; they focus on the representation and the exchange of (mono- and multilingual) dictionary entries and their attributes (Thurmair/Lieske 2002). Recent developments are organised around the creation of markup frameworks, try to defi
本文试图对词汇资源交换格式方面的一些标准化工作进行评析。第一个标准家族以术语数据为中心,基于数据作为概念和(特定于语言的)术语的组织,产生了像MATER/ MARTIF和TBX这样的交换格式。当完全注释的词法数据交换开始发挥作用时,提出了OLIF和MILE等标准;他们关注的是(单语言和多语言)词典条目及其属性的表示和交换(thurmaair /Lieske 2002)。最近的开发都是围绕着创建标记框架来组织的,请尝试定义
{"title":"Exchange Formats: TBX, OLIF, and Beyond","authors":"G. Thurmair","doi":"10.21248/jlcl.21.2006.81","DOIUrl":"https://doi.org/10.21248/jlcl.21.2006.81","url":null,"abstract":"Th is paper tries to comment on some of the standardisation eff orts in the area of exchange formats for lexical resources. Th e fi rst family of standards was centred around terminological data, producing exchange formats like MATER/ MARTIF and TBX, based on an organisation of the data as concepts and (language-specifi c) terms. When the exchange of fully annotated lexical data came into play, standards like OLIF and MILE were proposed; they focus on the representation and the exchange of (mono- and multilingual) dictionary entries and their attributes (Thurmair/Lieske 2002). Recent developments are organised around the creation of markup frameworks, try to defi","PeriodicalId":346957,"journal":{"name":"LDV Forum","volume":null,"pages":null},"PeriodicalIF":0.0,"publicationDate":"2006-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"114800493","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 3
www.terminologieforum.de - The Internet Discussion Platform for Terminological Subjects www.terminologieforum.de -互联网术语主题讨论平台
Pub Date : 2006-07-01 DOI: 10.21248/jlcl.21.2006.84
Rachel Herwartz, Birgit Wöllbrink
1 Idea After having founded a consultancy in the fi elds of terminology and translation management and solutions) in 2004, Rachel Herwartz realized that there was no central and independent meeting point on the internet to discuss terminological subjects. On the one hand, there are web discussion platforms which also cover issues in the fi eld of terminology work and translation such as e.g. the “tekom webforum” (www.tekom.de) or the BDÜ discussion platform. However, these are not independent as they are only accessible to members of the respective associations. Th eir intention is to support expert discussions among the associations’ members. On the other hand, there are web portals such as “DTP – Deutsches Terminologie-Portal” www.terminologieforum.de The Internet Discussion Platform for Terminological Subjects Rachel Herwartz und Birgit Wöllbrink
Rachel Herwartz在2004年创立了一家专业术语(翻译管理和解决方案)咨询公司后,意识到互联网上没有一个中心和独立的会议点来讨论术语主题。一方面,网络讨论平台也涵盖术语工作和翻译领域的问题,如“tekom网络论坛”(www.tekom.de)或BDÜ讨论平台。然而,这些不是独立的,因为它们只对各自协会的成员开放。其目的是支持协会成员之间的专家讨论。另一方面,也有诸如“DTP - Deutsches terminologies - portal”www.terminologieforum.de、Rachel Herwartz和Birgit的互联网术语主题讨论平台Wöllbrink等门户网站
{"title":"www.terminologieforum.de - The Internet Discussion Platform for Terminological Subjects","authors":"Rachel Herwartz, Birgit Wöllbrink","doi":"10.21248/jlcl.21.2006.84","DOIUrl":"https://doi.org/10.21248/jlcl.21.2006.84","url":null,"abstract":"1 Idea After having founded a consultancy in the fi elds of terminology and translation management and solutions) in 2004, Rachel Herwartz realized that there was no central and independent meeting point on the internet to discuss terminological subjects. On the one hand, there are web discussion platforms which also cover issues in the fi eld of terminology work and translation such as e.g. the “tekom webforum” (www.tekom.de) or the BDÜ discussion platform. However, these are not independent as they are only accessible to members of the respective associations. Th eir intention is to support expert discussions among the associations’ members. On the other hand, there are web portals such as “DTP – Deutsches Terminologie-Portal” www.terminologieforum.de The Internet Discussion Platform for Terminological Subjects Rachel Herwartz und Birgit Wöllbrink","PeriodicalId":346957,"journal":{"name":"LDV Forum","volume":null,"pages":null},"PeriodicalIF":0.0,"publicationDate":"2006-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"115993483","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
An Ontology-based Framework for Text Mining 基于本体的文本挖掘框架
Pub Date : 2005-07-01 DOI: 10.21248/jlcl.20.2005.70
Stephan Bloehdorn, P. Cimiano, A. Hotho, Steffen Staab
Structuring of text document knowledge frequently appears either by ontologies and metadata or by automatic (un-)unsupervised text categorization. This paper describes our integrated framework OTTO (OnTology-based Text mining framewOrk). OTTO uses text mining to learn the target ontology from text documents and uses then the same target ontology in order to improve the effectiveness of both supervised and unsupervised text categorization approaches.
文本文档知识的结构化通常是通过本体和元数据或自动(无)监督文本分类来实现的。本文描述了我们的集成框架OTTO(基于本体的文本挖掘框架)。OTTO使用文本挖掘从文本文档中学习目标本体,然后使用相同的目标本体,以提高监督和无监督文本分类方法的有效性。
{"title":"An Ontology-based Framework for Text Mining","authors":"Stephan Bloehdorn, P. Cimiano, A. Hotho, Steffen Staab","doi":"10.21248/jlcl.20.2005.70","DOIUrl":"https://doi.org/10.21248/jlcl.20.2005.70","url":null,"abstract":"Structuring of text document knowledge frequently appears either by ontologies and metadata or by automatic (un-)unsupervised text categorization. This paper describes our integrated framework OTTO (OnTology-based Text mining framewOrk). OTTO uses text mining to learn the target ontology from text documents and uses then the same target ontology in order to improve the effectiveness of both supervised and unsupervised text categorization approaches.","PeriodicalId":346957,"journal":{"name":"LDV Forum","volume":null,"pages":null},"PeriodicalIF":0.0,"publicationDate":"2005-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"125557611","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 63
Language-Independent Text Parsing of Arbitrary HTML-Documents. Towards A Foundation For Web Genre Identification 任意html文档的独立于语言的文本解析。网络类型识别的基础
Pub Date : 2005-07-01 DOI: 10.21248/jlcl.20.2005.75
Georg Rehm
This article describes an approach to parsing and processing arbitrary web pages in order to detect macrostructural objects such as headlines, explicitlyand implicitly-marked lists, and text blocks of different types. The text parser analyses a document by means of several processing stages and inserts the analysis results directly into the DOM tree in the form of XML elements and attributes, so that both the original HTML structure, and the determined macrostructure are available at the same time for secondary processing steps. This text parser is being developed for a novel kind of search engine that aims to classify web pages into web genres so that the search engine user will be able to specify one or more keywords, as well as one or more web genres of the documents to be found.
本文描述了一种分析和处理任意网页的方法,以检测宏观结构对象,如标题、显式和隐式标记列表以及不同类型的文本块。文本解析器通过几个处理阶段对文档进行分析,并将分析结果以XML元素和属性的形式直接插入DOM树中,这样就可以同时使用原始的HTML结构和确定的宏结构进行二次处理。这个文本解析器是为一种新的搜索引擎开发的,它旨在将网页分类为网络类型,以便搜索引擎用户能够指定一个或多个关键字,以及要查找的文档的一个或多个网络类型。
{"title":"Language-Independent Text Parsing of Arbitrary HTML-Documents. Towards A Foundation For Web Genre Identification","authors":"Georg Rehm","doi":"10.21248/jlcl.20.2005.75","DOIUrl":"https://doi.org/10.21248/jlcl.20.2005.75","url":null,"abstract":"This article describes an approach to parsing and processing arbitrary web pages in order to detect macrostructural objects such as headlines, explicitlyand implicitly-marked lists, and text blocks of different types. The text parser analyses a document by means of several processing stages and inserts the analysis results directly into the DOM tree in the form of XML elements and attributes, so that both the original HTML structure, and the determined macrostructure are available at the same time for secondary processing steps. This text parser is being developed for a novel kind of search engine that aims to classify web pages into web genres so that the search engine user will be able to specify one or more keywords, as well as one or more web genres of the documents to be found.","PeriodicalId":346957,"journal":{"name":"LDV Forum","volume":null,"pages":null},"PeriodicalIF":0.0,"publicationDate":"2005-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"129573944","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 7
Korpuslinguistik - zu wissenschaftstheoretischer Grundlagen und methodologischen Perspektiven 骨科语言学,科学基础与科学探询方法
Pub Date : 2005-07-01 DOI: 10.21248/jlcl.20.2005.72
R. Köhler
Im Zusammenhang mit den folgenden Überlegungen steht der Terminus Korpuslinguistik für die Gesamtheit aller Tätigkeiten, die darauf gerichtet sind, (1) umfangreiches authentisches Sprachoder Textmaterial (gesprochen oder geschrieben) zu sammeln, zusammen zu stellen, aufzubereiten, mit Informationen zu annotieren, zu verwalten und zu warten sowie verfügbar zu machen, (2) solches Material für wissenschaftliche oder technische Zwecke oder andere Anwendungen systematisch auszuwerten. Das oft konstatierte, wachsende Interesse an Korpus-basierten Ansätzen hat verschiedene Gründe. Zunächst waren Vorbedingungen für die zunehmende Erstellung bzw. Verwendung von großen maschinenoperablen Textkorpora Fortschritte in der Hardund Softwaretechnik sowie leistungsstarke Verfahren der Sprachtechnologie. Die heutige Hardware-, Softwareund Netzwerktechnik erleichtern Digitalisierung, elektronische Produktion, Speicherung und Verbreitung von großen Textmengen und sichern somit die Verfügbarkeit von Sprachkorpora. Sprachtechische Verfahren ermöglichen die Indizierung, (teil-)automatische linguistische Annotation sowie effektive Zugriffsund Abfragesysteme. Mit der Verfügbarkeit großer und größter Materialsammlungen wurde die früher übliche intellektuelle Inspektion von Texten nach und nach durch die Verwendung statistischer Verfahren abgelöst. Der Durchbruch für die quantitativ-empirischen Ansätze in der maschinellen Sprachverarbeitung kam u. a. mit den Erfolgen der Hidden-MarkovModelle in Systemen zur Verarbeitung gesprochener Sprache. Doch auch in anderen Bereichen der Sprachtechnik konnten bereits bald viel versprechende Ergebnisse durch den Einsatz statistischer Verfahren erzielt werden. Heute gibt es kaum ein Anwendungsfeld der Computerlinguistik, in dem statistische Methoden nicht – in Kombination mit der oder als Alternative zur diskret-symbolischen Verarbeitung – eine wichtige Rolle spielen. Wissenschaftstheoretisch betrachtet sind große Mengen von Sprachdaten und ihre statistische Auswertung unverzichtbar für das Überprüfen von Hypothesen, da sprachliche und textuelle Erscheinungen nur in Ausnahmefällen ausreichend mit Hilfe rein formaler Ansätze erfasst werden können. Neben den wissenschaftstheoretischen Einsichten hat dies besonders das praktische Scheitern computerlinguistischer Ansätze, die allein auf formalen Grammatiken u. ä. beruhen, zu genüge gezeigt. Vagheit, Unschärfe, Indeterminiertheit, Variabilität, Dynamik etc. sind Charakteristika der Sprache, die nur durch quantitative Begriffe und Modelle adäquat abgedeckt werden können. Dazu kommt die in vielen Fällen prinzipiell bestehende Unmöglichkeit, den jeweiligen Untersuchungsge-
终点在有关下列考虑中间是Korpuslinguistik为所有参加这个项目的活动旨在:(1)大量宝贵的惬意的Sprachoder Textmaterial(说或写)收集在一起,信息可以提供annotieren、管理等提供(2)这种材料科学或技术用途或其他应用系统的各项.时不时地观察到,人们对以腐败为基础的方法越来越关注。一开始,这个前提条件是在强力培养和使用大型的打字作业系统(字墙)技术以及发声技术方面的强大进程中取得突破。今天,硬件、软件和网络技术使得数字化、电子生产、大量字词的储存和传送更加容易,也因此可以保证语音支柱的存在。发声程序允许分析得出的旁白以及有效的连接及查问系统随着大量重要材料的供应,现在传统的情报检查已经被用统计程序取代。在机械语言处理方面的工作是一个巨大的突破,它的一个例子是希地思想的图像在计算机处理系统中所取得的经验。但是在语言商学的其他领域也已经开始通过统计程序取得了很有希望的结果。如今,毫无疑问计算机语言学的应用领域中除了统计方法之外并未发挥重要的作用,可以加之两者为名,也可以替代纯粹象征的作用。从科学理论角度讲,大量的语音数据及其统计分析对验证假设至关重要,因为不超过例外的情况下才能够准确地描述语言和文本。除科学上的洞见外,这使得仅从正式的语法或其他事物出发的计算语言学方法在实践上完全失败。惯性、不灭性、争论性、动态等等是语言的特点,这些特点只能通过定量概念和模型充分掩盖。而且在许多情况下根本不可能再处理一场疾病
{"title":"Korpuslinguistik - zu wissenschaftstheoretischer Grundlagen und methodologischen Perspektiven","authors":"R. Köhler","doi":"10.21248/jlcl.20.2005.72","DOIUrl":"https://doi.org/10.21248/jlcl.20.2005.72","url":null,"abstract":"Im Zusammenhang mit den folgenden Überlegungen steht der Terminus Korpuslinguistik für die Gesamtheit aller Tätigkeiten, die darauf gerichtet sind, (1) umfangreiches authentisches Sprachoder Textmaterial (gesprochen oder geschrieben) zu sammeln, zusammen zu stellen, aufzubereiten, mit Informationen zu annotieren, zu verwalten und zu warten sowie verfügbar zu machen, (2) solches Material für wissenschaftliche oder technische Zwecke oder andere Anwendungen systematisch auszuwerten. Das oft konstatierte, wachsende Interesse an Korpus-basierten Ansätzen hat verschiedene Gründe. Zunächst waren Vorbedingungen für die zunehmende Erstellung bzw. Verwendung von großen maschinenoperablen Textkorpora Fortschritte in der Hardund Softwaretechnik sowie leistungsstarke Verfahren der Sprachtechnologie. Die heutige Hardware-, Softwareund Netzwerktechnik erleichtern Digitalisierung, elektronische Produktion, Speicherung und Verbreitung von großen Textmengen und sichern somit die Verfügbarkeit von Sprachkorpora. Sprachtechische Verfahren ermöglichen die Indizierung, (teil-)automatische linguistische Annotation sowie effektive Zugriffsund Abfragesysteme. Mit der Verfügbarkeit großer und größter Materialsammlungen wurde die früher übliche intellektuelle Inspektion von Texten nach und nach durch die Verwendung statistischer Verfahren abgelöst. Der Durchbruch für die quantitativ-empirischen Ansätze in der maschinellen Sprachverarbeitung kam u. a. mit den Erfolgen der Hidden-MarkovModelle in Systemen zur Verarbeitung gesprochener Sprache. Doch auch in anderen Bereichen der Sprachtechnik konnten bereits bald viel versprechende Ergebnisse durch den Einsatz statistischer Verfahren erzielt werden. Heute gibt es kaum ein Anwendungsfeld der Computerlinguistik, in dem statistische Methoden nicht – in Kombination mit der oder als Alternative zur diskret-symbolischen Verarbeitung – eine wichtige Rolle spielen. Wissenschaftstheoretisch betrachtet sind große Mengen von Sprachdaten und ihre statistische Auswertung unverzichtbar für das Überprüfen von Hypothesen, da sprachliche und textuelle Erscheinungen nur in Ausnahmefällen ausreichend mit Hilfe rein formaler Ansätze erfasst werden können. Neben den wissenschaftstheoretischen Einsichten hat dies besonders das praktische Scheitern computerlinguistischer Ansätze, die allein auf formalen Grammatiken u. ä. beruhen, zu genüge gezeigt. Vagheit, Unschärfe, Indeterminiertheit, Variabilität, Dynamik etc. sind Charakteristika der Sprache, die nur durch quantitative Begriffe und Modelle adäquat abgedeckt werden können. Dazu kommt die in vielen Fällen prinzipiell bestehende Unmöglichkeit, den jeweiligen Untersuchungsge-","PeriodicalId":346957,"journal":{"name":"LDV Forum","volume":null,"pages":null},"PeriodicalIF":0.0,"publicationDate":"2005-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"127457892","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 5
Ontology Learning from Text: A Survey of Methods 文本本体学习:方法综述
Pub Date : 2005-07-01 DOI: 10.21248/jlcl.20.2005.76
Chris Biemann
After the vision of the Semantic Web was broadcasted at the turn of the millennium, ontology became a synonym for the solution to many problems concerning the fact that computers do not understand human language: if there were an ontology and every document were marked up with it and we had agents that would understand the markup, then computers would finally be able to process our queries in a really sophisticated way. Some years later, the success of Google shows us that the vision has not come true, being hampered by the incredible amount of extra work required for the intellectual encoding of semantic mark-up – as compared to simply uploading an HTML page. To alleviate this acquisition bottleneck, the field of ontology learning has since emerged as an important sub-field of ontology engineering. It is widely accepted that ontologies can facilitate text understanding and automatic processing of textual resources. Moving from words to concepts not only mitigates data sparseness issues, but also promises appealing solutions to polysemy and homonymy by finding non-ambiguous concepts that may map to various realizations in – possibly ambiguous – words. Numerous applications using lexical-semantic databases like WordNet (Miller, 1990) and its non-English counterparts, e.g. EuroWordNet (Vossen, 1997) or CoreNet (Choi and Bae, 2004) demonstrate the utility of semantic resources for natural language processing. Learning semantic resources from text instead of manually creating them might be dangerous in terms of correctness, but has undeniable advantages: Creating resources for text processing from the texts to be processed will fit the semantic component neatly and directly to them, which will never be possible with general-purpose resources. Further, the cost per entry is greatly reduced, giving rise to much larger resources than an advocate of a manual approach could ever afford. On the other hand, none of the methods used today are good enough for creating semantic resources of any kind in a completely unsupervised fashion, albeit automatic methods can facilitate manual construction to a large extent. The term ontology is understood in a variety of ways and has been used in philosophy for many centuries. In contrast, the notion of ontology in the field of computer science is younger – but almost used as inconsistently, when it comes to the details of the definition. The intention of this essay is to give an overview of different methods that learn ontologies or ontology-like structures from unstructured text. Ontology learning from other sources, issues in description languages, ontology editors, ontology merging and ontology evolving transcend the scope of this article. Surveys on ontology learning from text and other sources can be found in Ding and Foo (2002) and Gomez-Perez
在千禧年之交,语义网的愿景被传播之后,本体成为解决许多问题的同义词,这些问题涉及计算机不理解人类语言的事实:如果有一个本体,每个文档都用它标记,我们有能够理解标记的代理,那么计算机最终将能够以一种真正复杂的方式处理我们的查询。几年后,Google的成功告诉我们,这个愿景并没有实现,因为与简单上传HTML页面相比,语义标记的智能编码需要大量额外的工作。为了缓解这一获取瓶颈,本体学习领域已成为本体工程的一个重要分支领域。本体可以促进文本理解和文本资源的自动处理,这已被广泛接受。从单词转移到概念不仅可以缓解数据稀疏性问题,而且还可以通过寻找可以映射到(可能是模糊的)单词中的各种实现的非模糊概念,为多义和同音提供吸引人的解决方案。大量使用词汇语义数据库的应用,如WordNet (Miller, 1990)和非英语数据库,如EuroWordNet (Vossen, 1997)或CoreNet (Choi和Bae, 2004),证明了语义资源在自然语言处理中的效用。从文本中学习语义资源,而不是手动创建语义资源,在正确性方面可能是危险的,但它具有不可否认的优势:从要处理的文本中创建用于文本处理的资源,将使语义组件整齐地直接适合于它们,这是通用资源永远不可能做到的。此外,每个条目的成本大大降低,从而产生比人工方法的倡导者所能负担得起的更大的资源。另一方面,目前使用的方法都不足以以完全无监督的方式创建任何类型的语义资源,尽管自动方法可以在很大程度上促进人工构建。“本体论”一词有多种理解方式,并已在哲学中使用了许多世纪。相比之下,计算机科学领域的本体概念更年轻,但在定义的细节上几乎是不一致的。本文的目的是概述从非结构化文本中学习本体或类本体结构的不同方法。从其他来源学习本体、描述语言中的问题、本体编辑、本体合并和本体演化超出了本文的讨论范围。Ding和Foo(2002)和Gomez-Perez对文本和其他来源的本体学习进行了调查
{"title":"Ontology Learning from Text: A Survey of Methods","authors":"Chris Biemann","doi":"10.21248/jlcl.20.2005.76","DOIUrl":"https://doi.org/10.21248/jlcl.20.2005.76","url":null,"abstract":"After the vision of the Semantic Web was broadcasted at the turn of the millennium, ontology became a synonym for the solution to many problems concerning the fact that computers do not understand human language: if there were an ontology and every document were marked up with it and we had agents that would understand the markup, then computers would finally be able to process our queries in a really sophisticated way. Some years later, the success of Google shows us that the vision has not come true, being hampered by the incredible amount of extra work required for the intellectual encoding of semantic mark-up – as compared to simply uploading an HTML page. To alleviate this acquisition bottleneck, the field of ontology learning has since emerged as an important sub-field of ontology engineering. It is widely accepted that ontologies can facilitate text understanding and automatic processing of textual resources. Moving from words to concepts not only mitigates data sparseness issues, but also promises appealing solutions to polysemy and homonymy by finding non-ambiguous concepts that may map to various realizations in – possibly ambiguous – words. Numerous applications using lexical-semantic databases like WordNet (Miller, 1990) and its non-English counterparts, e.g. EuroWordNet (Vossen, 1997) or CoreNet (Choi and Bae, 2004) demonstrate the utility of semantic resources for natural language processing. Learning semantic resources from text instead of manually creating them might be dangerous in terms of correctness, but has undeniable advantages: Creating resources for text processing from the texts to be processed will fit the semantic component neatly and directly to them, which will never be possible with general-purpose resources. Further, the cost per entry is greatly reduced, giving rise to much larger resources than an advocate of a manual approach could ever afford. On the other hand, none of the methods used today are good enough for creating semantic resources of any kind in a completely unsupervised fashion, albeit automatic methods can facilitate manual construction to a large extent. The term ontology is understood in a variety of ways and has been used in philosophy for many centuries. In contrast, the notion of ontology in the field of computer science is younger – but almost used as inconsistently, when it comes to the details of the definition. The intention of this essay is to give an overview of different methods that learn ontologies or ontology-like structures from unstructured text. Ontology learning from other sources, issues in description languages, ontology editors, ontology merging and ontology evolving transcend the scope of this article. Surveys on ontology learning from text and other sources can be found in Ding and Foo (2002) and Gomez-Perez","PeriodicalId":346957,"journal":{"name":"LDV Forum","volume":null,"pages":null},"PeriodicalIF":0.0,"publicationDate":"2005-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"121508534","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 181
On Semantic Spaces 论语义空间
Pub Date : 2005-07-01 DOI: 10.21248/jlcl.20.2005.69
Edda Leopold
This contribution gives an overview about different approaches to semantic spaces. It is not a exhaustive survey, but rather a personal view on different approaches which use metric spaces for the representation of meanings of linguistic units. The aim is to demonstrate the similarities of apparently different approaches and to inspire the generalisation of semantic spaces tailored to the representation of texts to arbitrary semiotic artefacts. I assume that the primary purpose of a semiotic system is communication. A semiotic system S̃ consists of signs s. Signs fulfil a communicative function f (s) within the semiotic system in order to meet the communicative requirements of system’s user. There are different similarity relations between functions of signs. In its most general form a semantic space can be defined as follows:
这篇文章概述了处理语义空间的不同方法。这不是一个详尽的调查,而是对使用度量空间表示语言单位意义的不同方法的个人观点。其目的是展示明显不同方法的相似性,并激发针对任意符号学人工制品的文本表示量身定制的语义空间的泛化。我认为符号系统的主要目的是交流。符号系统由符号S组成。符号在符号系统中履行交际功能f (S),以满足系统用户的交际需求。符号函数之间存在着不同的相似关系。语义空间的最一般形式可以定义如下:
{"title":"On Semantic Spaces","authors":"Edda Leopold","doi":"10.21248/jlcl.20.2005.69","DOIUrl":"https://doi.org/10.21248/jlcl.20.2005.69","url":null,"abstract":"This contribution gives an overview about different approaches to semantic spaces. It is not a exhaustive survey, but rather a personal view on different approaches which use metric spaces for the representation of meanings of linguistic units. The aim is to demonstrate the similarities of apparently different approaches and to inspire the generalisation of semantic spaces tailored to the representation of texts to arbitrary semiotic artefacts. I assume that the primary purpose of a semiotic system is communication. A semiotic system S̃ consists of signs s. Signs fulfil a communicative function f (s) within the semiotic system in order to meet the communicative requirements of system’s user. There are different similarity relations between functions of signs. In its most general form a semantic space can be defined as follows:","PeriodicalId":346957,"journal":{"name":"LDV Forum","volume":null,"pages":null},"PeriodicalIF":0.0,"publicationDate":"2005-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"128828290","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 2
Data Mining-Konzepte und graphentheoretische Methoden zur Analyse hypertextueller Daten 数据的概念和图像分析超文本数据的悲悯方法
Pub Date : 2005-07-01 DOI: 10.21248/jlcl.20.2005.71
Matthias Dehmer
Der vorliegende Artikel hat das Hauptziel, eine verständliche Übersicht bezüglich der Einsetzbarkeit von Data Mining-Konzepten auf hypertextuellen Daten zu geben, wobei insbesondere graphentheoretische Methoden fokussiert werden. Die Anwendung von klassischen Data Mining-Konzepten, wie z.B. die Clusterund die Klassifikationsanalyse, auf webbasierte Daten wird als Web Mining bezeichnet. Ein Teilbereich des Web Mining, der in dieser Arbeit besonders im Vordergrund steht, ist das Web Structure Mining, welches die Aufdeckung und die Erforschung von strukturellen Aspekten webbasierter Hypertextstrukturen zum Ziel hat. Die strukturelle Untersuchung von Hypertexten und speziell deren graphentheoretische Analyse hat sich besonders durch die Entwicklung des World Wide Web (WWW) zu einem eigenständigen Forschungsbereich im Hypertextumfeld entwickelt. Vergleicht man den aktuellen Forschungsstand dieses Bereiches jedoch aus der Sicht der Informationssysteme im Hypertextumfeld – den Hypertextsystemen – so fällt auf, dass die Entwicklung und Erforschung der Hypertextsysteme deutlich stärker und schneller fortgeschritten ist als die der strukturellen Analyse. Mit der Bedeutung der multimedialen Kommunikation stellen aber gerade graphentheoretische Methoden ein hohes Analysepotenzial zur Verfügung. Es besteht jedoch noch eine Herausforderung in der Entwicklung aussagekräftigerer, graphbasierter Modelle und graphentheoretischer Analysealgorithmen, die webbasierte Dokumentstrukturen ohne großen Strukturverlust verarbeiten können. Dieser Artikel ist wie folgt strukturiert: In Kapitel (2) wird zunächst eine kurze Zusammenfassung der Grundlagen bezüglich Hypertext und Hypermedia gegeben. Während in Kapitel (3) Data Mining-Konzepte und die Teilgebiete des Web Mining vorgestellt werden, gibt Kapitel (4) einen Überblick über bestehende Arbeiten der graphentheoretischen Analyse von Hypertexten. Kapitel (5) stellt Struktur entdeckende Verfahren, die Clusteringverfahren, vor, die hier insbesondere als Motivation zur Anwendung auf Ergebnisse zu sehen sind, welche mit graphbasierten Methoden des Web Structure Mining erzielt werden.
本文的主要目标是阐明数据基于超文本的概念使用情况,特别是强调用于测绘的方法。传统概念的应用,例如集群和分类分析,被认为是基于网页的数据。本文主要探讨的部分是网络运钞机,它可以揭露和研究基于网络的超文本结构的结构。特别是通过万维网的发展,对超文本环境的结构性研究和胚胎分析已经成为一个独立的研究对象。相比当前研究这个,但是,从信息的角度在Hypertextumfeld Hypertextsystemen——好像注意到发展和研究Hypertextsysteme和更快的速度远远高于先进时,人们.结构分析但是,由于多媒体通讯的重要性,多媒体方法提供了巨大的分析潜力。然而,我们还面临另一个挑战,即开发更有效的、基于数值的模型和用于分析的算法,以便处理基于网页的文档结构而不遭受重大结构损失。本文的组织结构如下:第2章(2)节先简述有双曲或超媒体跟进的基本内容。本文在第三章介绍了网络探讨的概念及相关领域时,介绍了对超文本笔录分析的当前工作情况。第5章(第5章)介绍了一套被发现的集群式技术,这些工作已经被认为是对结果进行弃正式开发的一种动机。
{"title":"Data Mining-Konzepte und graphentheoretische Methoden zur Analyse hypertextueller Daten","authors":"Matthias Dehmer","doi":"10.21248/jlcl.20.2005.71","DOIUrl":"https://doi.org/10.21248/jlcl.20.2005.71","url":null,"abstract":"Der vorliegende Artikel hat das Hauptziel, eine verständliche Übersicht bezüglich der Einsetzbarkeit von Data Mining-Konzepten auf hypertextuellen Daten zu geben, wobei insbesondere graphentheoretische Methoden fokussiert werden. Die Anwendung von klassischen Data Mining-Konzepten, wie z.B. die Clusterund die Klassifikationsanalyse, auf webbasierte Daten wird als Web Mining bezeichnet. Ein Teilbereich des Web Mining, der in dieser Arbeit besonders im Vordergrund steht, ist das Web Structure Mining, welches die Aufdeckung und die Erforschung von strukturellen Aspekten webbasierter Hypertextstrukturen zum Ziel hat. Die strukturelle Untersuchung von Hypertexten und speziell deren graphentheoretische Analyse hat sich besonders durch die Entwicklung des World Wide Web (WWW) zu einem eigenständigen Forschungsbereich im Hypertextumfeld entwickelt. Vergleicht man den aktuellen Forschungsstand dieses Bereiches jedoch aus der Sicht der Informationssysteme im Hypertextumfeld – den Hypertextsystemen – so fällt auf, dass die Entwicklung und Erforschung der Hypertextsysteme deutlich stärker und schneller fortgeschritten ist als die der strukturellen Analyse. Mit der Bedeutung der multimedialen Kommunikation stellen aber gerade graphentheoretische Methoden ein hohes Analysepotenzial zur Verfügung. Es besteht jedoch noch eine Herausforderung in der Entwicklung aussagekräftigerer, graphbasierter Modelle und graphentheoretischer Analysealgorithmen, die webbasierte Dokumentstrukturen ohne großen Strukturverlust verarbeiten können. Dieser Artikel ist wie folgt strukturiert: In Kapitel (2) wird zunächst eine kurze Zusammenfassung der Grundlagen bezüglich Hypertext und Hypermedia gegeben. Während in Kapitel (3) Data Mining-Konzepte und die Teilgebiete des Web Mining vorgestellt werden, gibt Kapitel (4) einen Überblick über bestehende Arbeiten der graphentheoretischen Analyse von Hypertexten. Kapitel (5) stellt Struktur entdeckende Verfahren, die Clusteringverfahren, vor, die hier insbesondere als Motivation zur Anwendung auf Ergebnisse zu sehen sind, welche mit graphbasierten Methoden des Web Structure Mining erzielt werden.","PeriodicalId":346957,"journal":{"name":"LDV Forum","volume":null,"pages":null},"PeriodicalIF":0.0,"publicationDate":"2005-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"116072508","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 4
Einleitung: Perspektiven und Positionen des Text Mining 引言:文章的观点和立场
Pub Date : 2005-07-01 DOI: 10.21248/jlcl.20.2005.67
Alexander Mehler, C. Wolff
Beiträge zum Thema Text Mining beginnen vielfach mit dem Hinweis auf die enorme Zunahme online verfügbarer Dokumente, ob nun im Internet oder in Intranets (Losiewicz et al. 2000; Merkl 2000; Feldman 2001; Mehler 2001; Joachims & Leopold 2002). Der hiermit einhergehenden „Informationsflut“ wird das Ungenügen des Information Retrieval (IR) bzw. seiner gängigen Verfahren der Informationsaufbereitung und Informationserschließung gegenübergestellt. Es wird bemängelt, dass sich das IR weitgehend darin erschöpft, Teilmengen von Textkollektionen auf Suchanfragen hin aufzufinden und in der Regel bloß listenförmig anzuordnen. Das auf diese Weise dargestellte Spannungsverhältnis von Informationsexplosion und Defiziten bestehender IR-Verfahren bildet den Hintergrund für die Entwicklung von Verfahren zur automatischen Verarbeitung textueller Einheiten, die sich stärker an den Anforderungen von Informationssuchenden orientieren. Anders ausgedrückt: Mit der Einführung der Neuen Medien wächst die Bedeutung digitalisierter Dokumente als Primärmedium für die Verarbeitung, Verbreitung und Verwaltung von Information in öffentlichen und betrieblichen Organisationen. Dabei steht wegen der Menge zu verarbeitender Einheiten die Alternative einer intellektuellen Dokumenterschließung nicht zur Verfügung. Andererseits wachsen die Anforderung an eine automatische Textanalyse, der das klassische IR nicht gerecht wird. Der Mehrzahl der hiervon betroffenen textuellen Einheiten fehlt die explizite Strukturiertheit formaler Datenstrukturen. Vielmehr weisen sie je nach Textbzw. Dokumenttyp ganz unterschiedliche Strukturierungsgrade auf. Dabei korreliert die Flexibilität der Organisationsziele negativ mit dem Grad an explizierter Strukturiertheit und positiv mit der Anzahl jener Texte und Texttypen (E-Mails, Memos, Expertisen, technische Dokumentationen etc.), die im Zuge ihrer Realisierung produziert bzw. rezipiert werden. Vor diesem Hintergrund entsteht ein Bedarf an Texttechnologien, die ihren Benutzern nicht nur „intelligente“ Schnittstellen zur Textrezeption anbieten, sondern zugleich auf inhaltsorientierte Text-
文字运钞机的投入往往以指出可以在网上或联网使用的文件数量大幅增加为起点(Losiewicz等,2000)。Merkl 2000;费尔德曼2001;Mehler 2001;2002年)这就意味着信息“洪流”与信息来源不足以或其信息处理和信息开发的惯例程序相比。主要是对工业时代的人抱怨说,工业时代强迫人们在搜寻问题上找到部分文本,而且通常要求字体排名表。这个图所代表的信息爆炸和现有伊朗进程所产生的紧张关系,构成了一种背景,用于设计自动处理文本单位的技术,更符合查寻资料者的需要。换句话说,随着新媒体的采用,数字化文件作为处理、传播和管理公共和运营组织信息的主要媒介的重要性也得到提升。提供知识记录的人竟少之又少。另一方面,出现了这种要求自动文本分析的实际情况,这与传统的非插入式。大多数相关的文本单位缺乏建立形式数据结构。而是它取决于我的文字和显示出非常不同的组织层级。这是一个消极的关联,其组织目标的灵活性与书面和文字类型(电子邮件、备忘录、信息、技术文档等)在实现的过程中被复制和复制的次数是负相关的。在这样的背景下,我们对文本技术的需求是迫切的,它不仅提供“聪明”的文本理解方式,也同样需要以内容驱动的文本为主
{"title":"Einleitung: Perspektiven und Positionen des Text Mining","authors":"Alexander Mehler, C. Wolff","doi":"10.21248/jlcl.20.2005.67","DOIUrl":"https://doi.org/10.21248/jlcl.20.2005.67","url":null,"abstract":"Beiträge zum Thema Text Mining beginnen vielfach mit dem Hinweis auf die enorme Zunahme online verfügbarer Dokumente, ob nun im Internet oder in Intranets (Losiewicz et al. 2000; Merkl 2000; Feldman 2001; Mehler 2001; Joachims & Leopold 2002). Der hiermit einhergehenden „Informationsflut“ wird das Ungenügen des Information Retrieval (IR) bzw. seiner gängigen Verfahren der Informationsaufbereitung und Informationserschließung gegenübergestellt. Es wird bemängelt, dass sich das IR weitgehend darin erschöpft, Teilmengen von Textkollektionen auf Suchanfragen hin aufzufinden und in der Regel bloß listenförmig anzuordnen. Das auf diese Weise dargestellte Spannungsverhältnis von Informationsexplosion und Defiziten bestehender IR-Verfahren bildet den Hintergrund für die Entwicklung von Verfahren zur automatischen Verarbeitung textueller Einheiten, die sich stärker an den Anforderungen von Informationssuchenden orientieren. Anders ausgedrückt: Mit der Einführung der Neuen Medien wächst die Bedeutung digitalisierter Dokumente als Primärmedium für die Verarbeitung, Verbreitung und Verwaltung von Information in öffentlichen und betrieblichen Organisationen. Dabei steht wegen der Menge zu verarbeitender Einheiten die Alternative einer intellektuellen Dokumenterschließung nicht zur Verfügung. Andererseits wachsen die Anforderung an eine automatische Textanalyse, der das klassische IR nicht gerecht wird. Der Mehrzahl der hiervon betroffenen textuellen Einheiten fehlt die explizite Strukturiertheit formaler Datenstrukturen. Vielmehr weisen sie je nach Textbzw. Dokumenttyp ganz unterschiedliche Strukturierungsgrade auf. Dabei korreliert die Flexibilität der Organisationsziele negativ mit dem Grad an explizierter Strukturiertheit und positiv mit der Anzahl jener Texte und Texttypen (E-Mails, Memos, Expertisen, technische Dokumentationen etc.), die im Zuge ihrer Realisierung produziert bzw. rezipiert werden. Vor diesem Hintergrund entsteht ein Bedarf an Texttechnologien, die ihren Benutzern nicht nur „intelligente“ Schnittstellen zur Textrezeption anbieten, sondern zugleich auf inhaltsorientierte Text-","PeriodicalId":346957,"journal":{"name":"LDV Forum","volume":null,"pages":null},"PeriodicalIF":0.0,"publicationDate":"2005-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"129537555","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 15
期刊
LDV Forum
全部 Acc. Chem. Res. ACS Applied Bio Materials ACS Appl. Electron. Mater. ACS Appl. Energy Mater. ACS Appl. Mater. Interfaces ACS Appl. Nano Mater. ACS Appl. Polym. Mater. ACS BIOMATER-SCI ENG ACS Catal. ACS Cent. Sci. ACS Chem. Biol. ACS Chemical Health & Safety ACS Chem. Neurosci. ACS Comb. Sci. ACS Earth Space Chem. ACS Energy Lett. ACS Infect. Dis. ACS Macro Lett. ACS Mater. Lett. ACS Med. Chem. Lett. ACS Nano ACS Omega ACS Photonics ACS Sens. ACS Sustainable Chem. Eng. ACS Synth. Biol. Anal. Chem. BIOCHEMISTRY-US Bioconjugate Chem. BIOMACROMOLECULES Chem. Res. Toxicol. Chem. Rev. Chem. Mater. CRYST GROWTH DES ENERG FUEL Environ. Sci. Technol. Environ. Sci. Technol. Lett. Eur. J. Inorg. Chem. IND ENG CHEM RES Inorg. Chem. J. Agric. Food. Chem. J. Chem. Eng. Data J. Chem. Educ. J. Chem. Inf. Model. J. Chem. Theory Comput. J. Med. Chem. J. Nat. Prod. J PROTEOME RES J. Am. Chem. Soc. LANGMUIR MACROMOLECULES Mol. Pharmaceutics Nano Lett. Org. Lett. ORG PROCESS RES DEV ORGANOMETALLICS J. Org. Chem. J. Phys. Chem. J. Phys. Chem. A J. Phys. Chem. B J. Phys. Chem. C J. Phys. Chem. Lett. Analyst Anal. Methods Biomater. Sci. Catal. Sci. Technol. Chem. Commun. Chem. Soc. Rev. CHEM EDUC RES PRACT CRYSTENGCOMM Dalton Trans. Energy Environ. Sci. ENVIRON SCI-NANO ENVIRON SCI-PROC IMP ENVIRON SCI-WAT RES Faraday Discuss. Food Funct. Green Chem. Inorg. Chem. Front. Integr. Biol. J. Anal. At. Spectrom. J. Mater. Chem. A J. Mater. Chem. B J. Mater. Chem. C Lab Chip Mater. Chem. Front. Mater. Horiz. MEDCHEMCOMM Metallomics Mol. Biosyst. Mol. Syst. Des. Eng. Nanoscale Nanoscale Horiz. Nat. Prod. Rep. New J. Chem. Org. Biomol. Chem. Org. Chem. Front. PHOTOCH PHOTOBIO SCI PCCP Polym. Chem.
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1