J. Lang. Technol. Comput. Linguistics最新文献_第5页

Using Web Corpora for the Automatic Acquisition of Lexical-Semantic Knowledge 基于网络语料库的词汇语义知识自动获取

J. Lang. Technol. Comput. Linguistics

Pub Date : 2013-07-01 DOI: 10.21248/jlcl.28.2013.177

Sabine Schulte im Walde, Stefan Müller

This article presents two case studies to explore whether and how web corpora can be used to automatically acquire lexical-semantic knowledge from distributional information. For this purpose, we compare three German web corpora and a traditional newspaper corpus on modelling two types of semantic relatedness: (1) Assuming that free word associations are semantically related to their stimuli, we explore to which extent stimulus– associate pairs from various associations norms are available in the corpus data. (2) Assuming that the distributional similarity between a noun–noun compound and its nominal constituents corresponds to the compound’s degree of compositionality, we rely on simple corpus co-occurrence features to predict compositionality. The case studies demonstrate that the corpora can indeed be used to model semantic relatedness, (1) covering up to 73/77% of verb/noun–association types within a 5-word window of the corpora, and (2) predicting compositionality with a correlation of ρ = 0.65 against human ratings. Furthermore, our studies illustrate that the corpus parameters domain, size and cleanness all have an effect on the semantic tasks.

本文通过两个案例研究来探讨网络语料库是否能够以及如何从分布信息中自动获取词汇语义知识。为此，我们比较了三个德语网络语料库和一个传统报纸语料库对两种类型语义相关性的建模:(1)假设自由词联想与其刺激物在语义上相关，我们探索了语料库数据中来自各种联想规范的刺激物关联对的可用程度。(2)假设名词-名词复合词与其名词性成分之间的分布相似度与该复合词的组合程度相对应，我们依赖于简单的语料库共现特征来预测组合性。案例研究表明，语料库确实可以用来建模语义相关性，(1)在语料库的5个单词窗口内覆盖高达73/77%的动词/名词关联类型，(2)预测组合性，与人类评级的相关性为ρ = 0.65。此外，我们的研究表明，语料库参数领域、大小和清洁度都对语义任务有影响。

{"title":"Using Web Corpora for the Automatic Acquisition of Lexical-Semantic Knowledge","authors":"Sabine Schulte im Walde, Stefan Müller","doi":"10.21248/jlcl.28.2013.177","DOIUrl":"https://doi.org/10.21248/jlcl.28.2013.177","url":null,"abstract":"This article presents two case studies to explore whether and how web corpora can be used to automatically acquire lexical-semantic knowledge from distributional information. For this purpose, we compare three German web corpora and a traditional newspaper corpus on modelling two types of semantic relatedness: (1) Assuming that free word associations are semantically related to their stimuli, we explore to which extent stimulus– associate pairs from various associations norms are available in the corpus data. (2) Assuming that the distributional similarity between a noun–noun compound and its nominal constituents corresponds to the compound’s degree of compositionality, we rely on simple corpus co-occurrence features to predict compositionality. The case studies demonstrate that the corpora can indeed be used to model semantic relatedness, (1) covering up to 73/77% of verb/noun–association types within a 5-word window of the corpora, and (2) predicting compositionality with a correlation of ρ = 0.65 against human ratings. Furthermore, our studies illustrate that the corpus parameters domain, size and cleanness all have an effect on the semantic tasks.","PeriodicalId":402489,"journal":{"name":"J. Lang. Technol. Comput. Linguistics","volume":"142 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2013-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"121785537","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 4

POS für(s) FOLK - Part of Speech Tagging des Forschungs- und Lehrkorpus Gesprochenes Deutsch 声音部分的研究和教育制度的演讲

J. Lang. Technol. Comput. Linguistics

Pub Date : 2013-07-01 DOI: 10.21248/jlcl.28.2013.171

Swantje Westpfahl, Thomas C. Schmidt

1 Einleitung Im Rahmen des FOLK-Projekts (Forschungsund Lehrkorpus Gesprochenes Deutsch), das am Institut für Deutsche Sprache (IDS) ein großes wissenschaftsöffentliches Gesprächskorpus aufbaut, soll mit Hilfe des TreeTaggers (SCHMID 1995) und des Stuttgart-TübingenTagsets (STTS), (SCHILLER ET AL. 1999) ein automatisiertes Part-of-Speech-Tagging (POSTagging) für Spontansprache ermöglicht werden. Zuerst nur auf FOLK angewendet, soll dieser Tagger später auch für weitere Korpora spontansprachlicher Daten in der Datenbank für Gesprochenes Deutsch (DGD), (INSTITUT FÜR DEUTSCHE SPRACHE) genutzt werden. Da das Forschungsund Lehrkorpus kontinuierlich ausgebaut wird, muss das POS-Tagging aus Effizienzgründen mittelfristig vollautomatisch erfolgen. Dabei wird eine Fehlerquote von unter 5 Prozent angestrebt. Weil sowohl das Tagset als auch der Tagger für geschriebene Sprache konzipiert bzw. trainiert wurden und beim automatisierten Taggen der Transkripte die Fehlerquote bei fast 20 Prozent lag, muss eine Anpassung sowohl des Tagging-Verfahrens als auch des Tagsets an Spontansprache vorgenommen werden. Aus diesem Grund wurden die Fehler, die bei einem ersten Versuch des automatisierten Taggings dreier Transkripte des Korpus mit dem TreeTagger und dem STTS auftraten, auf ihre Ursachen hin analysiert. Daraufhin konnten Vorschläge zur Verbesserung des POS-Taggings in Hinblick auf eine Anpassung des Tagsets sowie des Tagging-Verfahrens gemacht werden.

1引言中FOLK-Projekts (Forschungsund Lehrkorpus興趣德语)在学院德语(的)大wissenschaftsöffentliches Gesprächskorpus基础能力,该TreeTaggers (SCHMID表示1995)和《Stuttgart-TübingenTagsets (STTS)、(席勒等人. 1999)自动Part-of-Speech-Tagging Spontansprache POSTagging的一种.首先只应用于FOLK，此后本可以将它用于到英语口语数据库中进一步收集的额外语言数据。作为研究和教学课题的持续改进，从效率的角度看，这门课程必须在中期是完全自动化的。产品误差幅度低于5%。由于白天和白天文都是设计和训练的，并自动化白天体和白天体之间的误差幅度接近20%，所以白天体和白天体之间都需要进行调整。出于这个原因，我们考察了强制自天体的三个本体的自动翻译过程中发生的错误，这些错误发生在事件的原因上。结果，就如何改进分类和分类方法提出建议。

{"title":"POS für(s) FOLK - Part of Speech Tagging des Forschungs- und Lehrkorpus Gesprochenes Deutsch","authors":"Swantje Westpfahl, Thomas C. Schmidt","doi":"10.21248/jlcl.28.2013.171","DOIUrl":"https://doi.org/10.21248/jlcl.28.2013.171","url":null,"abstract":"1 Einleitung Im Rahmen des FOLK-Projekts (Forschungsund Lehrkorpus Gesprochenes Deutsch), das am Institut für Deutsche Sprache (IDS) ein großes wissenschaftsöffentliches Gesprächskorpus aufbaut, soll mit Hilfe des TreeTaggers (SCHMID 1995) und des Stuttgart-TübingenTagsets (STTS), (SCHILLER ET AL. 1999) ein automatisiertes Part-of-Speech-Tagging (POSTagging) für Spontansprache ermöglicht werden. Zuerst nur auf FOLK angewendet, soll dieser Tagger später auch für weitere Korpora spontansprachlicher Daten in der Datenbank für Gesprochenes Deutsch (DGD), (INSTITUT FÜR DEUTSCHE SPRACHE) genutzt werden. Da das Forschungsund Lehrkorpus kontinuierlich ausgebaut wird, muss das POS-Tagging aus Effizienzgründen mittelfristig vollautomatisch erfolgen. Dabei wird eine Fehlerquote von unter 5 Prozent angestrebt. Weil sowohl das Tagset als auch der Tagger für geschriebene Sprache konzipiert bzw. trainiert wurden und beim automatisierten Taggen der Transkripte die Fehlerquote bei fast 20 Prozent lag, muss eine Anpassung sowohl des Tagging-Verfahrens als auch des Tagsets an Spontansprache vorgenommen werden. Aus diesem Grund wurden die Fehler, die bei einem ersten Versuch des automatisierten Taggings dreier Transkripte des Korpus mit dem TreeTagger und dem STTS auftraten, auf ihre Ursachen hin analysiert. Daraufhin konnten Vorschläge zur Verbesserung des POS-Taggings in Hinblick auf eine Anpassung des Tagsets sowie des Tagging-Verfahrens gemacht werden.","PeriodicalId":402489,"journal":{"name":"J. Lang. Technol. Comput. Linguistics","volume":"9 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2013-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"130780301","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 20

Word and Sentence Tokenization with Hidden Markov Models 基于隐马尔可夫模型的单词和句子标记化

J. Lang. Technol. Comput. Linguistics

Pub Date : 2013-07-01 DOI: 10.21248/jlcl.28.2013.176

Bryan Jurish, Kay-Michael Würzner

We present a novel method (“waste”) for the segmentation of text into tokens and sentences. Our approach makes use of a Hidden Markov Model for the detection of segment boundaries. Model parameters can be estimated from pre-segmented text which is widely available in the form of treebanks or aligned multi-lingual corpora. We formally define the waste boundary detection model and evaluate the system’s performance on corpora from various languages as well as a small corpus of computer-mediated communication.

我们提出了一种新的方法(“浪费”)，将文本分割为标记和句子。我们的方法利用隐马尔可夫模型来检测段边界。模型参数可以从预分割的文本中估计，这些文本以树库或对齐的多语言语料库的形式广泛存在。我们正式定义了废物边界检测模型，并评估了系统在各种语言语料库以及计算机媒介通信的小型语料库上的性能。

引用次数: 53

STTS-Konfusionsklassen beim Tagging von Fremdsprachlernertexten 这里没有人可以进行

J. Lang. Technol. Comput. Linguistics

Pub Date : 2013-07-01 DOI: 10.21248/jlcl.28.2013.169

Marc Reznicek, Heike Zinsmeister

Fur viele aktuelle Fragestellungen der Zweitund Fremdspracherwerbsforschung („L2Erwerbsforschung“) sind Lernerkorpora unverzichtbar geworden. Sie stellen Texte von L2Lernern1 zur Verfugung, oftmals erganzt durch vergleichbare Texte von Muttersprachlern der Zielsprache. Beschrankten sich Analysen der Lernerkorpusforschung in den ersten Jahren hauptsachlich auf einzelne Wortformen (vgl. Granger, 1998), hat sich das Forschungsinteresse bestandig hin zu komplexeren grammatischen Kategorien entwickelt. Dazu zahlen u.A. die Untersuchung tiefer syntaktischer Analysen (Dickinson und Ragheb, 2009; Hirschmann et al., 2013, u.a.) oder die Strategien der Markierung von Koharenzrelationen (z.B. Breckle und Zinsmeister, 2012). Derartige Analysen bauen dabei nur selten auf der Textoberflache selbst auf, sondern setzen i.d.R. die Annotation von Wortarten fur jedes Texttoken voraus und ggfs. weitere, darauf aufbauende Annotationsebenen. Annotationen dienen generell immer der Suche nach Klassen in den Daten, die anhand der Oberflachenformen allein nicht leicht zuganglich waren (im Kontext von Lernerkorpora vgl. Diaz-Negrillo et al., 2010). Ist man z.B. an einer Analyse von Possessivpronomen interessiert, wurde man bei einer Korpussuche, die nur Zugriff auf die Wortformen selbst hat, bei der ambigen Form meinen neben Beispielen fur das Possessivpronomen (1) auch alle Belege fur die gleichlautende Verbform (2) finden. Das Suchergebnis ware also sehr ‘unsauber’, da die Wortform selbst keinen Aufschluss uber ihre Interpretation gibt. Eine Annotation mit Wortarten wurde die beiden Lesarten disambiguieren und damit die Ruckgabe der Suchanfrage praziser machen. Die Ruckgabe wurde weniger ungewunschte Lesarten enthalten, die man andernfalls bei der Ergebnissichtung manuell ausschliesen musste. Kurz gesagt, eine Suchanfrage auf Wortarten-annotierten Daten ist fur den Nutzer effizienter als eine Suche auf reinen Wortformen.

如今，知识轨迹已成为许多第二和外来劳动劳动研究(“劳动所得”实验所提出的无效要求)不可或缺的组成部分。他们用与目标语言类似的文本试图取得l2学习1的文本。他对第一个学期所学习的一些研究进行了严格的分析，重点关注每一个名词(参路三合会)。1998年，格兰杰引起了越来越多的兴趣。包括对更深入的同步分析研究(Dickinson和Ragheb)2013年的赫尔舍曼等人，或者数学上的系数标(比如Breckle和vig, 2012年)。这种分析很少会把每一个文本区域作为根据新追踪系统前缀往往是为了寻找更多的分类，而有些分类仅仅是上层的表层并不容易被接受(在学习班中，反对三分法的道理中)。《新世界译本》，2010年)比如，如果要对物主代词的分析感兴趣，在只能访问单词本身的范畴内，为物主同词代词的例子是[1]的例子，另外也包括同样词汇(2)的所有证据。因此，搜索结果十分“不好看”，因为这个词组本身没有清楚知道他们的解释。赞比亚的人人都拥有这样的特征。因此，这些折字的字法不再有那么多的狂妄，人们不得不用手动的阅读来消除产生的结果。简而言之，查询含词汇的数据比直接搜索符号更有效。

{"title":"STTS-Konfusionsklassen beim Tagging von Fremdsprachlernertexten","authors":"Marc Reznicek, Heike Zinsmeister","doi":"10.21248/jlcl.28.2013.169","DOIUrl":"https://doi.org/10.21248/jlcl.28.2013.169","url":null,"abstract":"Fur viele aktuelle Fragestellungen der Zweitund Fremdspracherwerbsforschung („L2Erwerbsforschung“) sind Lernerkorpora unverzichtbar geworden. Sie stellen Texte von L2Lernern1 zur Verfugung, oftmals erganzt durch vergleichbare Texte von Muttersprachlern der Zielsprache. Beschrankten sich Analysen der Lernerkorpusforschung in den ersten Jahren hauptsachlich auf einzelne Wortformen (vgl. Granger, 1998), hat sich das Forschungsinteresse bestandig hin zu komplexeren grammatischen Kategorien entwickelt. Dazu zahlen u.A. die Untersuchung tiefer syntaktischer Analysen (Dickinson und Ragheb, 2009; Hirschmann et al., 2013, u.a.) oder die Strategien der Markierung von Koharenzrelationen (z.B. Breckle und Zinsmeister, 2012). Derartige Analysen bauen dabei nur selten auf der Textoberflache selbst auf, sondern setzen i.d.R. die Annotation von Wortarten fur jedes Texttoken voraus und ggfs. weitere, darauf aufbauende Annotationsebenen. Annotationen dienen generell immer der Suche nach Klassen in den Daten, die anhand der Oberflachenformen allein nicht leicht zuganglich waren (im Kontext von Lernerkorpora vgl. Diaz-Negrillo et al., 2010). Ist man z.B. an einer Analyse von Possessivpronomen interessiert, wurde man bei einer Korpussuche, die nur Zugriff auf die Wortformen selbst hat, bei der ambigen Form meinen neben Beispielen fur das Possessivpronomen (1) auch alle Belege fur die gleichlautende Verbform (2) finden. Das Suchergebnis ware also sehr ‘unsauber’, da die Wortform selbst keinen Aufschluss uber ihre Interpretation gibt. Eine Annotation mit Wortarten wurde die beiden Lesarten disambiguieren und damit die Ruckgabe der Suchanfrage praziser machen. Die Ruckgabe wurde weniger ungewunschte Lesarten enthalten, die man andernfalls bei der Ergebnissichtung manuell ausschliesen musste. Kurz gesagt, eine Suchanfrage auf Wortarten-annotierten Daten ist fur den Nutzer effizienter als eine Suche auf reinen Wortformen.","PeriodicalId":402489,"journal":{"name":"J. Lang. Technol. Comput. Linguistics","volume":"39 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2013-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"125499645","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 5

STTS als Part-of-Speech-Tagset in Tübinger Baumbanken STTS是<s:1>宾格·鲍姆班肯的词性标记集

J. Lang. Technol. Comput. Linguistics

Pub Date : 2013-07-01 DOI: 10.21248/jlcl.28.2013.166

Heike Telljohann, Yannick Versley, K. Beck, Erhard W. Hinrichs, Thomas Zastrow

Das Stuttgart-Tubingen Tagset (STTS, Schiller et al., 1999) ist der De-facto-Standard fur das Tagging von Wortarten in deutschen Texten, und die uberwiegende Mehrzahl der POS-annotierten Ressourcen furs Deutsche – darunter die Baumbanken NeGra (Skut et al., 1997), TIGER (Brants et al., 2002), TuBa-D/S (Hinrichs et al., 2000) und TuBa-D/Z (Hinrichs et al., 2004), und viele andere Korpora – verwenden dieses Tagset. In dieser Rolle stellt das STTS in dreierlei Hinsicht einen wichtigen Referenzpunkt dar: Zum einen als ausgewiesenes Tagset fur die moderne Standardsprache, das die Interoperabilitat mit einem komplexen Gefuge an Werkzeugen sowohl zur Wortartenauszeichnung als auch zur darauf aufbauenden Auszeichnung syntaktischer und anderer Strukturen. Zum anderen ist das STTS Ausgangspunkt fur Arbeiten jenseits der geschriebenen Standardsprache, die standardsprachliche Konstrukte im Sinne der ursprunglichen Richtlinien annotieren und nur dort abweichen, wo Phanomene in der Standardsprache der Gegenwart untypisch sind oder als ungrammatisch gelten (Buchstabierungen in der gesprochensprachlichen TuBa-D/S; auseinandergeschriebene Komposita in den fruhneuhochdeutschen Texten der Mercurius-Baumbank, siehe Pauly et al., 2012; zu weiteren Beispielen siehe weitere Artikel dieser Ausgabe). Weiterhin dient das STTS solchen Annotationsvorhaben als Referenzpunkt, die aufgrund ihrer unterschiedlichen Fragestellung eine andere Granularitat der Tags anstreben. Beispiele hierfur sind das Historische Tagset (HiTS; Dipper et al., diese Ausgabe), das feingranulare Wortartentags fur die Analyse fruherer Sprachstufen des Deutschen bereitstellt, oder das sprachubergreifende Tagset von Petrov et al. (2012), das zur Vereinheitlichung zwischen Sprachen eine wesentlich grobere Granularitat als das STTS verwendet. In diesem Artikel soll es darum gehen, eine Bestandsaufnahme des STTS vor allem in der Rolle als Tagset fur Standardsprache, insbesondere anhand der in Tubingen erstellten Korpora, vorzunehmen. Eine solche Bestandsaufnahme soll verdeutlichen, welche Aspekte neben der deskriptiven Adaquatheit und der grundsatzlichen Anwendbarkeit wichtig sind, aber nur langfristig durch kontinuierliche Inspektion und Revision sichtbar werden. Die Frage, was jenseits der ursprunglichen Tagsetdefinition zu einer konsistenten Anwendung des STTS gehort, reicht dabei hinein in die ebenfalls wichtige Frage der Interoperabilitat mit bestehenden Werkzeugen und Ressourcen, die sich realiter auf eine bestimmte Ausdeutung des Standards bezieht und uber die ursprunglichen Richtlinien hinausgeht.

这Stuttgart-Tubingen Tagset (STTS,席勒的al ., 1999),刷De-facto-Standard标签从Wortarten德国文献和uberwiegende大部分POS-annotierten资源是德国战斗机——包括Baumbanken舞后(Skut等人.,1997),老虎(Brants之类al . 2002) TuBa-D / S (Hinrichs与al ., 2000)和TuBa-D / Z (Hinrichs等人.,2004)。还有许多Korpora——使用这个Tagset .在这个角色到STTS在三个方面重大的Referenzpunkt:当ausgewiesenes Tagset为现代语言,Interoperabilitat用复杂Gefuge工具以Wortartenauszeichnung和许多人认为中荣誉syntaktischer和其他结构.对于外来STTS起点贴工作跨越了书写的语言,standardsprachliche体系之目的ursprunglichen准则annotieren和只有在偏离Phanomene地方语言,现在的非典型或ungrammatisch适用(Buchstabierungen在gesprochensprachlichen TuBa-D / S;在默库里伊斯河银行的早期高德著作中两相分析的综合作品，见2012年保利等人;更多详情请见本刊其他文章)此外，俗语也把太空作为参照点，其一是其一其一，其一其一要试探菜色。为此例子包括:Dipper，这一期)，为分析德语早期语阶提供了细小的词汇理解，或者为Petrov等语阶的语言理解提供了语言理解，在语言之间实现统一时，你使用了比STTS大得多的词汇。这篇文章试图总结STTS的调查，特别是作为标准语言的日间总结，特别是在图宾根建立的社团。这一清单应说明不仅需要说明性阐述和原则可用于哪些方面，但只有通过持续不断的检查和审计才能发现。被问到之外ursprunglichen Tagsetdefinition konsistenten STTS条的执行情况,就带往了Interoperabilitat的另一个重要问题与现有的工具和资源realiter以某种Ausdeutung标准指和uber ursprunglichen准则超越.

{"title":"STTS als Part-of-Speech-Tagset in Tübinger Baumbanken","authors":"Heike Telljohann, Yannick Versley, K. Beck, Erhard W. Hinrichs, Thomas Zastrow","doi":"10.21248/jlcl.28.2013.166","DOIUrl":"https://doi.org/10.21248/jlcl.28.2013.166","url":null,"abstract":"Das Stuttgart-Tubingen Tagset (STTS, Schiller et al., 1999) ist der De-facto-Standard fur das Tagging von Wortarten in deutschen Texten, und die uberwiegende Mehrzahl der POS-annotierten Ressourcen furs Deutsche – darunter die Baumbanken NeGra (Skut et al., 1997), TIGER (Brants et al., 2002), TuBa-D/S (Hinrichs et al., 2000) und TuBa-D/Z (Hinrichs et al., 2004), und viele andere Korpora – verwenden dieses Tagset. In dieser Rolle stellt das STTS in dreierlei Hinsicht einen wichtigen Referenzpunkt dar: Zum einen als ausgewiesenes Tagset fur die moderne Standardsprache, das die Interoperabilitat mit einem komplexen Gefuge an Werkzeugen sowohl zur Wortartenauszeichnung als auch zur darauf aufbauenden Auszeichnung syntaktischer und anderer Strukturen. Zum anderen ist das STTS Ausgangspunkt fur Arbeiten jenseits der geschriebenen Standardsprache, die standardsprachliche Konstrukte im Sinne der ursprunglichen Richtlinien annotieren und nur dort abweichen, wo Phanomene in der Standardsprache der Gegenwart untypisch sind oder als ungrammatisch gelten (Buchstabierungen in der gesprochensprachlichen TuBa-D/S; auseinandergeschriebene Komposita in den fruhneuhochdeutschen Texten der Mercurius-Baumbank, siehe Pauly et al., 2012; zu weiteren Beispielen siehe weitere Artikel dieser Ausgabe). Weiterhin dient das STTS solchen Annotationsvorhaben als Referenzpunkt, die aufgrund ihrer unterschiedlichen Fragestellung eine andere Granularitat der Tags anstreben. Beispiele hierfur sind das Historische Tagset (HiTS; Dipper et al., diese Ausgabe), das feingranulare Wortartentags fur die Analyse fruherer Sprachstufen des Deutschen bereitstellt, oder das sprachubergreifende Tagset von Petrov et al. (2012), das zur Vereinheitlichung zwischen Sprachen eine wesentlich grobere Granularitat als das STTS verwendet. In diesem Artikel soll es darum gehen, eine Bestandsaufnahme des STTS vor allem in der Rolle als Tagset fur Standardsprache, insbesondere anhand der in Tubingen erstellten Korpora, vorzunehmen. Eine solche Bestandsaufnahme soll verdeutlichen, welche Aspekte neben der deskriptiven Adaquatheit und der grundsatzlichen Anwendbarkeit wichtig sind, aber nur langfristig durch kontinuierliche Inspektion und Revision sichtbar werden. Die Frage, was jenseits der ursprunglichen Tagsetdefinition zu einer konsistenten Anwendung des STTS gehort, reicht dabei hinein in die ebenfalls wichtige Frage der Interoperabilitat mit bestehenden Werkzeugen und Ressourcen, die sich realiter auf eine bestimmte Ausdeutung des Standards bezieht und uber die ursprunglichen Richtlinien hinausgeht.","PeriodicalId":402489,"journal":{"name":"J. Lang. Technol. Comput. Linguistics","volume":"157 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2013-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"114528668","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 1

HiTS: ein Tagset für historische Sprachstufen des Deutschen 命中。这是德语的历史性语阶的聚会

J. Lang. Technol. Comput. Linguistics

Pub Date : 2013-07-01 DOI: 10.21248/jlcl.28.2013.170

S. Dipper, K. Donhauser, T. Klein, S. Linde, Stefan Müller, K. Wegera

Im Kontext der Projekte zur Erstellung historischer Sprachkorpora „Referenzkorpus Altdeutsch“ und „Referenzkorpus Mittelhochdeutsch“ entstand ein Tagset fur die Wortartanalyse, HiTS („Historisches Tagset“). Im Projekt „Referenzkorpus Fruhneuhochdeutsch“ wird eine vereinfachte Version davon angewendet, da v.a. die spateren Zeitraume schon nahe am neuhochdeutschen (nhd.) Stand sind.2 HiTS orientiert sich am „Stuttgart-Tubingen Tagset“ (STTS, Schiller et al., 1999), dem Standardtagset fur nhd. Korpora, und ubernimmt — neben einer ganzen Reihe von Tags — auch das hierarchische Design der Tagnamen. Ursprunglich sollte das Tagset komplett auf STTS aufbauen und dieses lediglich um einige neue Tags erweitern. Es stellte sich jedoch heraus, dass neben einigen notwendigen feineren Unterscheidungen (z.B. bei den Pronominaladverbien) auch die Tagnamen des STTS nicht immer geeignet schienen. Z.B. sind in HiTS der definite und indefinite Artikel eine Unterklasse der Determinativa — die Sonderstellung des Artikels, die im STTS durch ein eigenes Tag ‘ART’ betont wird, ist eine neuere Entwicklung. Das Tagset dient zur Annotation diachroner Daten. Einige wenige Tags finden dabei nur in den alt(hoch)deutschen Daten Anwendung. Um diachrone Untersuchungen bis in die jetzige Zeit zu ermoglichen, werden im vorliegenden Artikel den HiTS-Tags die jeweils entsprechenden STTS-Tags gegenubergestellt. Allerdings ist nicht in jedem Fall eine eindeutige Abbildung moglich. So wird z.B. in HiTS zwischen attributivisch und substantivisch verwendeten Zahlen unterschieden, nicht aber im STTS. Umgekehrt unterscheidet HiTS nicht zwischen elliptischen („kopflosen“) Nominalphrasen und substantivierten Adjektiven (s. Abschnitt 5), was das STTS aber tut.

在建立传统德语参考文件和中高德语参考文件的项目中，有一个词汇分析日，即“历史日”。在“风险性学术”项目中，采用了简化形式，因为…在版本。对斯图加特图廷塔兴的是为nhd制定的标准下午4点。下士接下来承接了一系列的白天同时他还负责着标签名的精简设计这个格子最初的位置，应该是把白天式的但是事实证明，除了一些必要的微妙的区分(例如代名词的区分)，石的标签也并不总是适合。比如，最近登出的一些叠词显示了指定登陆场的次等分类。登陆社以自己的“类”来强调这篇文章。这个聚会是用来纪念diachroner的几天和几天和只有德国的(高)年纪数据可用。为了使检查瞬间彻底改观，本篇课文会把当天不同的时候和日的时候对照使用。但是并不是所有的数据都是清晰的，比如，在属性和数字之间区分，但在单元格中不可能。反之，“无头”的椭圆法和数字比喻(第5篇)之间并没有什么区别。

{"title":"HiTS: ein Tagset für historische Sprachstufen des Deutschen","authors":"S. Dipper, K. Donhauser, T. Klein, S. Linde, Stefan Müller, K. Wegera","doi":"10.21248/jlcl.28.2013.170","DOIUrl":"https://doi.org/10.21248/jlcl.28.2013.170","url":null,"abstract":"Im Kontext der Projekte zur Erstellung historischer Sprachkorpora „Referenzkorpus Altdeutsch“ und „Referenzkorpus Mittelhochdeutsch“ entstand ein Tagset fur die Wortartanalyse, HiTS („Historisches Tagset“). Im Projekt „Referenzkorpus Fruhneuhochdeutsch“ wird eine vereinfachte Version davon angewendet, da v.a. die spateren Zeitraume schon nahe am neuhochdeutschen (nhd.) Stand sind.2 HiTS orientiert sich am „Stuttgart-Tubingen Tagset“ (STTS, Schiller et al., 1999), dem Standardtagset fur nhd. Korpora, und ubernimmt — neben einer ganzen Reihe von Tags — auch das hierarchische Design der Tagnamen. Ursprunglich sollte das Tagset komplett auf STTS aufbauen und dieses lediglich um einige neue Tags erweitern. Es stellte sich jedoch heraus, dass neben einigen notwendigen feineren Unterscheidungen (z.B. bei den Pronominaladverbien) auch die Tagnamen des STTS nicht immer geeignet schienen. Z.B. sind in HiTS der definite und indefinite Artikel eine Unterklasse der Determinativa — die Sonderstellung des Artikels, die im STTS durch ein eigenes Tag ‘ART’ betont wird, ist eine neuere Entwicklung. Das Tagset dient zur Annotation diachroner Daten. Einige wenige Tags finden dabei nur in den alt(hoch)deutschen Daten Anwendung. Um diachrone Untersuchungen bis in die jetzige Zeit zu ermoglichen, werden im vorliegenden Artikel den HiTS-Tags die jeweils entsprechenden STTS-Tags gegenubergestellt. Allerdings ist nicht in jedem Fall eine eindeutige Abbildung moglich. So wird z.B. in HiTS zwischen attributivisch und substantivisch verwendeten Zahlen unterschieden, nicht aber im STTS. Umgekehrt unterscheidet HiTS nicht zwischen elliptischen („kopflosen“) Nominalphrasen und substantivierten Adjektiven (s. Abschnitt 5), was das STTS aber tut.","PeriodicalId":402489,"journal":{"name":"J. Lang. Technol. Comput. Linguistics","volume":"39 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2013-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"127644353","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 27

TEI and LMF crosswalks TEI和LMF人行横道

J. Lang. Technol. Comput. Linguistics

Pub Date : 2013-01-11 DOI: 10.21248/jlcl.30.2015.195

Laurent Romary

The present paper explores various arguments in favour of making the Text Encoding Initia-tive (TEI) guidelines an appropriate serialisation for ISO standard 24613:2008 (LMF, Lexi-cal Mark-up Framework) . It also identifies the issues that would have to be resolved in order to reach an appropriate implementation of these ideas, in particular in terms of infor-mational coverage. We show how the customisation facilities offered by the TEI guidelines can provide an adequate background, not only to cover missing components within the current Dictionary chapter of the TEI guidelines, but also to allow specific lexical projects to deal with local constraints. We expect this proposal to be a basis for a future ISO project in the context of the on going revision of LMF.

本文探讨了支持将文本编码倡议(TEI)指南适当序列化为ISO标准24613:2008 (LMF, Lexi-cal标记框架)的各种论点。它还确定了为了适当执行这些想法，特别是在新闻报道方面必须解决的问题。我们展示了TEI指南提供的定制设施如何提供足够的背景，不仅涵盖了TEI指南当前词典章节中缺失的部分，而且还允许特定的词汇项目处理当地的限制。我们希望这一建议能够成为正在进行的LMF修订背景下未来ISO项目的基础。

引用次数: 18

Automatically Linking GermaNet to Wikipedia for Harvesting Corpus Examples for GermaNet Senses 自动链接GermaNet到维基百科，用于收集GermaNet感官的语料库示例

J. Lang. Technol. Comput. Linguistics

Pub Date : 2012-07-01 DOI: 10.21248/jlcl.27.2012.156

Verena Henrich, E. Hinrichs, Klaus Suttner

The comprehension of a word sense is much easier when its usages are illustrated by example sentences in linguistic contexts. Hence, examples are crucially important to better understand the sense of a word in a dictionary. The goal of this research is the semi-automatic enrichment of senses from the German wordnet GermaNet with corpus examples from the online encyclopedia Wikipedia. The paper describes the automatic mapping of GermaNet senses to Wikipedia articles, using proven, state-ofthe-art word sense disambiguation methods, in particular different versions of word overlap algorithms and PageRank as well as classifiers that combine these methods. This mapping is optimized for precision and then used to automatically harvest corpus examples from Wikipedia for GermaNet senses. The paper presents details about the optimization of the model for the GermaNet-Wikipedia mapping and concludes with a detailed evaluation of the quantity and quality of the harvested examples. Apart from enriching the GermaNet resource, the harvested corpus examples can also be used to construct a corpus of German nouns that are annotated with GermaNet senses. This sense-annotated corpus can be used for a wide range of NLP applications.

如果在语言语境中用例句来说明词义的用法，理解词义就容易得多。因此，举例对于更好地理解字典中单词的含义至关重要。本研究的目标是用在线百科全书维基百科的语料库实例半自动地丰富德语wordnet GermaNet中的感官。本文描述了德语语义到维基百科文章的自动映射，使用经过验证的、最先进的词义消歧方法，特别是不同版本的词重叠算法和PageRank，以及结合这些方法的分类器。该映射优化了精度，然后用于从维基百科中自动获取语料库示例。本文详细介绍了德国-维基百科映射模型的优化，并对收获的示例的数量和质量进行了详细的评估。除了丰富德语语料库资源外，收集到的语料库实例还可以用来构建一个德语名词语料库，并用德语语料库的意义进行注释。这个语义注释的语料库可以用于广泛的自然语言处理应用。

{"title":"Automatically Linking GermaNet to Wikipedia for Harvesting Corpus Examples for GermaNet Senses","authors":"Verena Henrich, E. Hinrichs, Klaus Suttner","doi":"10.21248/jlcl.27.2012.156","DOIUrl":"https://doi.org/10.21248/jlcl.27.2012.156","url":null,"abstract":"The comprehension of a word sense is much easier when its usages are illustrated by example sentences in linguistic contexts. Hence, examples are crucially important to better understand the sense of a word in a dictionary. The goal of this research is the semi-automatic enrichment of senses from the German wordnet GermaNet with corpus examples from the online encyclopedia Wikipedia. The paper describes the automatic mapping of GermaNet senses to Wikipedia articles, using proven, state-ofthe-art word sense disambiguation methods, in particular different versions of word overlap algorithms and PageRank as well as classifiers that combine these methods. This mapping is optimized for precision and then used to automatically harvest corpus examples from Wikipedia for GermaNet senses. The paper presents details about the optimization of the model for the GermaNet-Wikipedia mapping and concludes with a detailed evaluation of the quantity and quality of the harvested examples. Apart from enriching the GermaNet resource, the harvested corpus examples can also be used to construct a corpus of German nouns that are annotated with GermaNet senses. This sense-annotated corpus can be used for a wide range of NLP applications.","PeriodicalId":402489,"journal":{"name":"J. Lang. Technol. Comput. Linguistics","volume":"50 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2012-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"124625361","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 12

Peculiarities of Avestan Manuscripts for Computational Linguistics 计算语言学中阿维斯陀手稿的特点

J. Lang. Technol. Comput. Linguistics

Pub Date : 2012-07-01 DOI: 10.21248/jlcl.27.2012.161

Thomas Jügel

This paper will discuss several computational tools f r creating a stemma of Avestan manuscripts, such as: a letter similarity matrix, a mor phological expander, and co-occurrence networks. After a short introduction to Avestan and Avestan manuscripts and a representation of Avestan peculiarities concerning the creati on of stemmata, the operatability of the above-mentioned tools for this text corpus will be discussed. Finally, I will give a brief outlook on the complexity of a database structure f o Avestan texts. Introduction The Avesta, represented by the edition of G ELDNER (1886-96), appears to be a sort of Bible containing several books or chapters, cf. S KJÆRVØ’s “sacred book of the Zoroastrians” (2009: 44); and, indeed, in Middle Iranian times (i .e., before 600 AD) there existed a kind of text corpus, rather than ‘a book’, of holy texts (C ANTERA 2004). However, GELDNER’s edition disguises the actual texts of the manuscripts because what we have today is not a book but a collection of ceremonies attested in various manuscripts. Avestan is the term for an Old Iranian language, as such a member of the IndoEuropean language family. The actual name of the la ngu ge is not known to us. The name ‘Avestan’ is taken from Middle Persian texts which refer to their religious text corpus as the “abest ā(g)”. When manuscripts containing these religious t exts came to light for European research, they were referred to as “Avesta” and the language as “Avestan”. 2 Avestan is known to us in two varieties, called “Ol d Avestan” and “Young Avestan”. This is so because they display two different chron ol gical layers of Avestan. However, they also differ in some linguistic respect so that t ey represent two different dialects of the same language (e.g., genitive singular of xratu“wisdom” is xratə̄uš in Old Avestan but xraθβō in Young Avestan, for further examples see DE VAAN 2003: 8ff.). The Avestan manuscripts (henceforth MS) can be sort ed into several groups, the main grouping is: 1) the ‘Pahlavi-MSs’, and 2) the ‘Sade -MSs’. The Pahlavi-MSs contain the Avestan text plus its translation and commentaries, g nerally Middle Persian, but there are translations into Sanskrit, Gujarati and/or New Per sian as well. 3 The Sade-MSs (i.e., the “pure” MS) only contain ritual instructions in Midd le Persian, etc., besides the Avestan text. The Pahlavi-MS served as exegetical texts written f or scholarly use only. On the contrary, the Sade-MSs were for the daily use in the ceremoni es. These different purposes had an influence on the copying process (cf. Section 1). The aforementioned grouping can be made by first gl ance at the MS because of the various writings these MSs do or do not contain. Be sid s the grouping into Pahlaviand Sade-MSs, the MSs are further classified into diffe rent ceremonies. There are four of them: the Yasna Rapihwin, V īsprad, Yašt, and V īdēvdād ceremony. Depending on the season or on the deity who is invoked, there are further diff erences

本文将讨论用于创建阿维斯陀手稿体系的几种计算工具，例如:字母相似矩阵，更多的生理扩展器和共现网络。在对阿维斯陀语和阿维斯陀语手稿的简短介绍以及阿维斯陀语关于词干的创造的特点的表现之后，将讨论上述文本语料库工具的可操作性。最后，我将简要介绍一下阿维斯陀文本数据库结构的复杂性。阿维斯塔，代表的版本G ELDNER(1886-96)，似乎是一种圣经包含几本书或章节，参见S KJÆRVØ的“琐罗亚斯德教神圣的书”(2009:44);事实上，在中伊朗时期(例如:(公元600年之前)存在一种文本语料库，而不是“一本书”，神圣的文本(C ANTERA 2004)。然而，GELDNER的版本掩盖了手稿的实际文本，因为我们今天拥有的不是一本书，而是各种手稿中证明的仪式的集合。阿维斯陀语是古伊朗语的术语，作为印欧语系的一员。我们不知道拉古格的确切名字。“阿维斯陀”这个名字取自中古波斯文本，这些文本将他们的宗教文本语料库称为“abest ā(g)”。当包含这些宗教文本的手稿为欧洲研究所发现时，它们被称为“阿维斯陀”，这种语言被称为“阿维斯陀语”。我们知道阿维斯陀有两种变体，称为“老阿维斯陀”和“年轻阿维斯陀”。这是因为它们显示了阿维斯陀的两个不同的历史层次。然而，它们在某些语言学方面也有所不同，因此它们代表同一种语言的两种不同方言(例如，xratu“智慧”的属格单数在古阿维斯陀语中是xrat æ ya usi，但在年轻阿维斯陀语中是xraθβ γ，进一步的例子见DE VAAN 2003: 8ff.)。阿维斯陀手稿(以下简称MS)可以分为几个组，主要的组是:1)“巴列维-MS”，2)“萨德-MS”。巴列维- mss包含阿维斯陀文本及其翻译和评论，通常是中波斯语，但也有梵语，古吉拉特语和/或新波斯语的翻译。3萨德-MS(即“纯粹的”MS)除了阿维斯陀文本外，只包含中波斯语的仪式说明等。巴列维- ms作为训诂文本只写学术用途。相反，萨德小姐是在日常仪式上使用的。这些不同的目的对复制过程产生了影响(参见第1节)。上述分组可以通过对MS的第一眼进行，因为这些MS包含或不包含各种著述。他说，在分组为Pahlaviand Sade-MSs之后，MSs进一步分为不同的仪式。有四种仪式:Yasna Rapihwin, V īsprad, Yašt和V īdēvdād仪式。根据季节或被召唤的神，在其他方面相同的东西会有进一步的差异

{"title":"Peculiarities of Avestan Manuscripts for Computational Linguistics","authors":"Thomas Jügel","doi":"10.21248/jlcl.27.2012.161","DOIUrl":"https://doi.org/10.21248/jlcl.27.2012.161","url":null,"abstract":"This paper will discuss several computational tools f r creating a stemma of Avestan manuscripts, such as: a letter similarity matrix, a mor phological expander, and co-occurrence networks. After a short introduction to Avestan and Avestan manuscripts and a representation of Avestan peculiarities concerning the creati on of stemmata, the operatability of the above-mentioned tools for this text corpus will be discussed. Finally, I will give a brief outlook on the complexity of a database structure f o Avestan texts. Introduction The Avesta, represented by the edition of G ELDNER (1886-96), appears to be a sort of Bible containing several books or chapters, cf. S KJÆRVØ’s “sacred book of the Zoroastrians” (2009: 44); and, indeed, in Middle Iranian times (i .e., before 600 AD) there existed a kind of text corpus, rather than ‘a book’, of holy texts (C ANTERA 2004). However, GELDNER’s edition disguises the actual texts of the manuscripts because what we have today is not a book but a collection of ceremonies attested in various manuscripts. Avestan is the term for an Old Iranian language, as such a member of the IndoEuropean language family. The actual name of the la ngu ge is not known to us. The name ‘Avestan’ is taken from Middle Persian texts which refer to their religious text corpus as the “abest ā(g)”. When manuscripts containing these religious t exts came to light for European research, they were referred to as “Avesta” and the language as “Avestan”. 2 Avestan is known to us in two varieties, called “Ol d Avestan” and “Young Avestan”. This is so because they display two different chron ol gical layers of Avestan. However, they also differ in some linguistic respect so that t ey represent two different dialects of the same language (e.g., genitive singular of xratu“wisdom” is xratə̄uš in Old Avestan but xraθβō in Young Avestan, for further examples see DE VAAN 2003: 8ff.). The Avestan manuscripts (henceforth MS) can be sort ed into several groups, the main grouping is: 1) the ‘Pahlavi-MSs’, and 2) the ‘Sade -MSs’. The Pahlavi-MSs contain the Avestan text plus its translation and commentaries, g nerally Middle Persian, but there are translations into Sanskrit, Gujarati and/or New Per sian as well. 3 The Sade-MSs (i.e., the “pure” MS) only contain ritual instructions in Midd le Persian, etc., besides the Avestan text. The Pahlavi-MS served as exegetical texts written f or scholarly use only. On the contrary, the Sade-MSs were for the daily use in the ceremoni es. These different purposes had an influence on the copying process (cf. Section 1). The aforementioned grouping can be made by first gl ance at the MS because of the various writings these MSs do or do not contain. Be sid s the grouping into Pahlaviand Sade-MSs, the MSs are further classified into diffe rent ceremonies. There are four of them: the Yasna Rapihwin, V īsprad, Yašt, and V īdēvdād ceremony. Depending on the season or on the deity who is invoked, there are further diff erences","PeriodicalId":402489,"journal":{"name":"J. Lang. Technol. Comput. Linguistics","volume":"26 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2012-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"128987952","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 1

Strukturelle Mehrdeutigkeit in frühneuhochdeutschen Texten 古希腊早期德国文本中的结构性模糊不清

J. Lang. Technol. Comput. Linguistics

Pub Date : 2012-07-01 DOI: 10.21248/jlcl.27.2012.164

Dennis Pauly, Ulyana Senyuk, Ulrike Demske

In der synchron orientierten Sprachwissenschaft ist in letzter Zeit ein verstärktes Interesse an syntaktisch annotierten Korpora zu erkennen. Für das Gegenwartsdeutsche wären hier das tigerbzw. negra-Projekt zu nennen, in deren Rahmen bereits umfangreiche, syntaktisch annotierte Zeitungskorpora entstanden sind (Brants et al. 1999, 2002). Gerade in früheren Sprachstufen sind digitalisierte und linguistisch aufbereitete Korpora als Datenquelle allerdings von noch größerer Relevanz, denn eine introspektive Datenerhebung ist hier im Gegensatz zum Gegenwartsdeutschen nicht möglich, eine Untersuchung hat also notwendigerweise immer korpusbasiert zu erfolgen. Dementsprechend gibt es für bestimmte Sprachstufen wie das Mittelenglische mit der Penn-Datenbank schon größere, syntaktisch annotierte Korpora (Kroch/Taylor 2000). Auch für die einzelnen Sprachperioden des Deutschen werden derzeit Referenzkorpora aufgebaut, die mit linguistischen Informationen angereichert sind. Dazu gehören neben den DFG-Projekten zum Althochdeutschen (Berlin, Frankfurt/M. und Jena), Mittelhochdeutschen (Bochum und Bonn) und Frühneuhochdeutschen (Bochum, Halle und Potsdam) auch das GerManC-Projekt zum frühen Neuhochdeutschen (1650 – 1800) an der Universität Manchester und das iswoc-Projekt (Information Structure and Word Order Change in Germanic and Romance Languages, Bech/Eide 2011), das unter anderem syntaktische Informationen zum Althochdeutschen enthalten wird. Das hier vorgestellte Korpus ist ein syntaktisch annotiertes Korpus des Frühneuhochdeutschen, das im Rahmen eines Pilotprojekts von 2003 bis 2005 an der Universität des Saarlandes mit dem Ziel entstanden ist, an Texten, die sich sowohl durch große Varianz auf allen Ebenen des Sprachsystems als auch durch eine große Komplexität ihrer Phrasen und Sätze auszeichnen (Admoni 1980), die Möglichkeiten einer halbautomatischen Annotation zu erproben. Basierend auf den Erfahrungen aus diesem Pilotprojekt sollen dann größere Textmengen aus dem Frühneuhochdeutschen im Baumbankformat aufbereitet und als annotiertes Referenzkorpus auf einer geeigneten Plattform frei zugänglich zur Verfügung gestellt werden. Eine solche Baumbank historischer Texte ermöglicht es dann, ausgesuchte Fragestellungen der historischen Syntax gezielter und auch in quantitativer Hinsicht zu untersuchen.1 Darüber hinaus stellt die hohe Komplexität aus annotatorischer Sicht auch eine besondere Herausforderung dar, was die Qualität bzw. Konsistenz der Annotation angeht. Wir werden im Folgenden das syntaktisch annotierte mercurius-Korpus zum Frühneuhochdeutschen vorstellen und dabei sowohl auf die Textauswahl wie auch auf die gewählte Annotationsweise näher eingehen. Anhand von morphologischen Strukturen wie N-N-Komposita und Partikelverben sollen dann exemplarisch die Probleme disku-

近年来，越来越多的人对“全同步”社交圈作业的兴趣，越来越大。指的是你的虎穴“negra工程”造成了一个大型的附带注释的社团(Brants等)。(但更大的意义在于过去学过的区分是数字化和语言学的社团作为数据源，因为它自身的内部信息搜索是不可能的跟现在的德国不一样，所以研究必然是基于古兰经的。类似地，有一些特殊的语阶项目，例如使用的是林肯资料库的中英文，已经成立了更大的集体社团。(Kroch/Taylor 2000)在过去，参考文献a也在建立，这两个阶段充满了语言信息。除deg外，传统德意志民主共和国(柏林，法兰克福/M)也提供了项目。耶)、Mittelhochdeutschen(波鸿和波恩)和Frühneuhochdeutschen(波鸿、大厅和波茨坦)也GerManC-Projekt到早期Neuhochdeutschen(1650 - 1800)曼彻斯特大学与这iswoc-Projekt类似的信息(Word订单变化在Germanic and浪漫Languages、Bech /誓言2011)工程,包括自己的信息变成含有“ant .语法琴琴这想象一个syntaktisch annotiertes Frühneuhochdeutschen文本的范围内试点大学2003至2005年的Saarlandes诞生,以期在文献方面需要通过巨大的多样性以及Sprachsystems部门各级储存大量复杂的空话和句子独一无二(Admoni 1980)构建一个半自动Annotation试验.这个试点项目将利用我们得到的经验，用树银行的模式处理大量新高德语字体，作为参考文件，供选择平台免费使用。这样一棵树，让我们能以目标明确和量化的方式对历史句法所提出的问题进行分析。1另外，从认知理论角度来看，高度复杂的概念对于认知的质量和一致性也构成了特别的挑战。在下文，我们会介绍早期新高登人的默库里乌斯系列，同时进一步探讨每节经文的选词和所选的分析方式。基于n曲线和粒子特征等形态学结构，这些论点很能引发我们研究的问题

{"title":"Strukturelle Mehrdeutigkeit in frühneuhochdeutschen Texten","authors":"Dennis Pauly, Ulyana Senyuk, Ulrike Demske","doi":"10.21248/jlcl.27.2012.164","DOIUrl":"https://doi.org/10.21248/jlcl.27.2012.164","url":null,"abstract":"In der synchron orientierten Sprachwissenschaft ist in letzter Zeit ein verstärktes Interesse an syntaktisch annotierten Korpora zu erkennen. Für das Gegenwartsdeutsche wären hier das tigerbzw. negra-Projekt zu nennen, in deren Rahmen bereits umfangreiche, syntaktisch annotierte Zeitungskorpora entstanden sind (Brants et al. 1999, 2002). Gerade in früheren Sprachstufen sind digitalisierte und linguistisch aufbereitete Korpora als Datenquelle allerdings von noch größerer Relevanz, denn eine introspektive Datenerhebung ist hier im Gegensatz zum Gegenwartsdeutschen nicht möglich, eine Untersuchung hat also notwendigerweise immer korpusbasiert zu erfolgen. Dementsprechend gibt es für bestimmte Sprachstufen wie das Mittelenglische mit der Penn-Datenbank schon größere, syntaktisch annotierte Korpora (Kroch/Taylor 2000). Auch für die einzelnen Sprachperioden des Deutschen werden derzeit Referenzkorpora aufgebaut, die mit linguistischen Informationen angereichert sind. Dazu gehören neben den DFG-Projekten zum Althochdeutschen (Berlin, Frankfurt/M. und Jena), Mittelhochdeutschen (Bochum und Bonn) und Frühneuhochdeutschen (Bochum, Halle und Potsdam) auch das GerManC-Projekt zum frühen Neuhochdeutschen (1650 – 1800) an der Universität Manchester und das iswoc-Projekt (Information Structure and Word Order Change in Germanic and Romance Languages, Bech/Eide 2011), das unter anderem syntaktische Informationen zum Althochdeutschen enthalten wird. Das hier vorgestellte Korpus ist ein syntaktisch annotiertes Korpus des Frühneuhochdeutschen, das im Rahmen eines Pilotprojekts von 2003 bis 2005 an der Universität des Saarlandes mit dem Ziel entstanden ist, an Texten, die sich sowohl durch große Varianz auf allen Ebenen des Sprachsystems als auch durch eine große Komplexität ihrer Phrasen und Sätze auszeichnen (Admoni 1980), die Möglichkeiten einer halbautomatischen Annotation zu erproben. Basierend auf den Erfahrungen aus diesem Pilotprojekt sollen dann größere Textmengen aus dem Frühneuhochdeutschen im Baumbankformat aufbereitet und als annotiertes Referenzkorpus auf einer geeigneten Plattform frei zugänglich zur Verfügung gestellt werden. Eine solche Baumbank historischer Texte ermöglicht es dann, ausgesuchte Fragestellungen der historischen Syntax gezielter und auch in quantitativer Hinsicht zu untersuchen.1 Darüber hinaus stellt die hohe Komplexität aus annotatorischer Sicht auch eine besondere Herausforderung dar, was die Qualität bzw. Konsistenz der Annotation angeht. Wir werden im Folgenden das syntaktisch annotierte mercurius-Korpus zum Frühneuhochdeutschen vorstellen und dabei sowohl auf die Textauswahl wie auch auf die gewählte Annotationsweise näher eingehen. Anhand von morphologischen Strukturen wie N-N-Komposita und Partikelverben sollen dann exemplarisch die Probleme disku-","PeriodicalId":402489,"journal":{"name":"J. Lang. Technol. Comput. Linguistics","volume":"56 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2012-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"129546189","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 3