Pub Date : 2013-07-01DOI: 10.21248/jlcl.28.2013.177
Sabine Schulte im Walde, Stefan Müller
This article presents two case studies to explore whether and how web corpora can be used to automatically acquire lexical-semantic knowledge from distributional information. For this purpose, we compare three German web corpora and a traditional newspaper corpus on modelling two types of semantic relatedness: (1) Assuming that free word associations are semantically related to their stimuli, we explore to which extent stimulus– associate pairs from various associations norms are available in the corpus data. (2) Assuming that the distributional similarity between a noun–noun compound and its nominal constituents corresponds to the compound’s degree of compositionality, we rely on simple corpus co-occurrence features to predict compositionality. The case studies demonstrate that the corpora can indeed be used to model semantic relatedness, (1) covering up to 73/77% of verb/noun–association types within a 5-word window of the corpora, and (2) predicting compositionality with a correlation of ρ = 0.65 against human ratings. Furthermore, our studies illustrate that the corpus parameters domain, size and cleanness all have an effect on the semantic tasks.
{"title":"Using Web Corpora for the Automatic Acquisition of Lexical-Semantic Knowledge","authors":"Sabine Schulte im Walde, Stefan Müller","doi":"10.21248/jlcl.28.2013.177","DOIUrl":"https://doi.org/10.21248/jlcl.28.2013.177","url":null,"abstract":"This article presents two case studies to explore whether and how web corpora can be used to automatically acquire lexical-semantic knowledge from distributional information. For this purpose, we compare three German web corpora and a traditional newspaper corpus on modelling two types of semantic relatedness: (1) Assuming that free word associations are semantically related to their stimuli, we explore to which extent stimulus– associate pairs from various associations norms are available in the corpus data. (2) Assuming that the distributional similarity between a noun–noun compound and its nominal constituents corresponds to the compound’s degree of compositionality, we rely on simple corpus co-occurrence features to predict compositionality. The case studies demonstrate that the corpora can indeed be used to model semantic relatedness, (1) covering up to 73/77% of verb/noun–association types within a 5-word window of the corpora, and (2) predicting compositionality with a correlation of ρ = 0.65 against human ratings. Furthermore, our studies illustrate that the corpus parameters domain, size and cleanness all have an effect on the semantic tasks.","PeriodicalId":402489,"journal":{"name":"J. Lang. Technol. Comput. Linguistics","volume":"142 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2013-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"121785537","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2013-07-01DOI: 10.21248/jlcl.28.2013.171
Swantje Westpfahl, Thomas C. Schmidt
1 Einleitung Im Rahmen des FOLK-Projekts (Forschungsund Lehrkorpus Gesprochenes Deutsch), das am Institut für Deutsche Sprache (IDS) ein großes wissenschaftsöffentliches Gesprächskorpus aufbaut, soll mit Hilfe des TreeTaggers (SCHMID 1995) und des Stuttgart-TübingenTagsets (STTS), (SCHILLER ET AL. 1999) ein automatisiertes Part-of-Speech-Tagging (POSTagging) für Spontansprache ermöglicht werden. Zuerst nur auf FOLK angewendet, soll dieser Tagger später auch für weitere Korpora spontansprachlicher Daten in der Datenbank für Gesprochenes Deutsch (DGD), (INSTITUT FÜR DEUTSCHE SPRACHE) genutzt werden. Da das Forschungsund Lehrkorpus kontinuierlich ausgebaut wird, muss das POS-Tagging aus Effizienzgründen mittelfristig vollautomatisch erfolgen. Dabei wird eine Fehlerquote von unter 5 Prozent angestrebt. Weil sowohl das Tagset als auch der Tagger für geschriebene Sprache konzipiert bzw. trainiert wurden und beim automatisierten Taggen der Transkripte die Fehlerquote bei fast 20 Prozent lag, muss eine Anpassung sowohl des Tagging-Verfahrens als auch des Tagsets an Spontansprache vorgenommen werden. Aus diesem Grund wurden die Fehler, die bei einem ersten Versuch des automatisierten Taggings dreier Transkripte des Korpus mit dem TreeTagger und dem STTS auftraten, auf ihre Ursachen hin analysiert. Daraufhin konnten Vorschläge zur Verbesserung des POS-Taggings in Hinblick auf eine Anpassung des Tagsets sowie des Tagging-Verfahrens gemacht werden.
{"title":"POS für(s) FOLK - Part of Speech Tagging des Forschungs- und Lehrkorpus Gesprochenes Deutsch","authors":"Swantje Westpfahl, Thomas C. Schmidt","doi":"10.21248/jlcl.28.2013.171","DOIUrl":"https://doi.org/10.21248/jlcl.28.2013.171","url":null,"abstract":"1 Einleitung Im Rahmen des FOLK-Projekts (Forschungsund Lehrkorpus Gesprochenes Deutsch), das am Institut für Deutsche Sprache (IDS) ein großes wissenschaftsöffentliches Gesprächskorpus aufbaut, soll mit Hilfe des TreeTaggers (SCHMID 1995) und des Stuttgart-TübingenTagsets (STTS), (SCHILLER ET AL. 1999) ein automatisiertes Part-of-Speech-Tagging (POSTagging) für Spontansprache ermöglicht werden. Zuerst nur auf FOLK angewendet, soll dieser Tagger später auch für weitere Korpora spontansprachlicher Daten in der Datenbank für Gesprochenes Deutsch (DGD), (INSTITUT FÜR DEUTSCHE SPRACHE) genutzt werden. Da das Forschungsund Lehrkorpus kontinuierlich ausgebaut wird, muss das POS-Tagging aus Effizienzgründen mittelfristig vollautomatisch erfolgen. Dabei wird eine Fehlerquote von unter 5 Prozent angestrebt. Weil sowohl das Tagset als auch der Tagger für geschriebene Sprache konzipiert bzw. trainiert wurden und beim automatisierten Taggen der Transkripte die Fehlerquote bei fast 20 Prozent lag, muss eine Anpassung sowohl des Tagging-Verfahrens als auch des Tagsets an Spontansprache vorgenommen werden. Aus diesem Grund wurden die Fehler, die bei einem ersten Versuch des automatisierten Taggings dreier Transkripte des Korpus mit dem TreeTagger und dem STTS auftraten, auf ihre Ursachen hin analysiert. Daraufhin konnten Vorschläge zur Verbesserung des POS-Taggings in Hinblick auf eine Anpassung des Tagsets sowie des Tagging-Verfahrens gemacht werden.","PeriodicalId":402489,"journal":{"name":"J. Lang. Technol. Comput. Linguistics","volume":"9 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2013-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"130780301","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2013-07-01DOI: 10.21248/jlcl.28.2013.176
Bryan Jurish, Kay-Michael Würzner
We present a novel method (“waste”) for the segmentation of text into tokens and sentences. Our approach makes use of a Hidden Markov Model for the detection of segment boundaries. Model parameters can be estimated from pre-segmented text which is widely available in the form of treebanks or aligned multi-lingual corpora. We formally define the waste boundary detection model and evaluate the system’s performance on corpora from various languages as well as a small corpus of computer-mediated communication.
{"title":"Word and Sentence Tokenization with Hidden Markov Models","authors":"Bryan Jurish, Kay-Michael Würzner","doi":"10.21248/jlcl.28.2013.176","DOIUrl":"https://doi.org/10.21248/jlcl.28.2013.176","url":null,"abstract":"We present a novel method (“waste”) for the segmentation of text into tokens and sentences. Our approach makes use of a Hidden Markov Model for the detection of segment boundaries. Model parameters can be estimated from pre-segmented text which is widely available in the form of treebanks or aligned multi-lingual corpora. We formally define the waste boundary detection model and evaluate the system’s performance on corpora from various languages as well as a small corpus of computer-mediated communication.","PeriodicalId":402489,"journal":{"name":"J. Lang. Technol. Comput. Linguistics","volume":"28 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2013-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"122101966","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2013-07-01DOI: 10.21248/jlcl.28.2013.169
Marc Reznicek, Heike Zinsmeister
Fur viele aktuelle Fragestellungen der Zweitund Fremdspracherwerbsforschung („L2Erwerbsforschung“) sind Lernerkorpora unverzichtbar geworden. Sie stellen Texte von L2Lernern1 zur Verfugung, oftmals erganzt durch vergleichbare Texte von Muttersprachlern der Zielsprache. Beschrankten sich Analysen der Lernerkorpusforschung in den ersten Jahren hauptsachlich auf einzelne Wortformen (vgl. Granger, 1998), hat sich das Forschungsinteresse bestandig hin zu komplexeren grammatischen Kategorien entwickelt. Dazu zahlen u.A. die Untersuchung tiefer syntaktischer Analysen (Dickinson und Ragheb, 2009; Hirschmann et al., 2013, u.a.) oder die Strategien der Markierung von Koharenzrelationen (z.B. Breckle und Zinsmeister, 2012). Derartige Analysen bauen dabei nur selten auf der Textoberflache selbst auf, sondern setzen i.d.R. die Annotation von Wortarten fur jedes Texttoken voraus und ggfs. weitere, darauf aufbauende Annotationsebenen. Annotationen dienen generell immer der Suche nach Klassen in den Daten, die anhand der Oberflachenformen allein nicht leicht zuganglich waren (im Kontext von Lernerkorpora vgl. Diaz-Negrillo et al., 2010). Ist man z.B. an einer Analyse von Possessivpronomen interessiert, wurde man bei einer Korpussuche, die nur Zugriff auf die Wortformen selbst hat, bei der ambigen Form meinen neben Beispielen fur das Possessivpronomen (1) auch alle Belege fur die gleichlautende Verbform (2) finden. Das Suchergebnis ware also sehr ‘unsauber’, da die Wortform selbst keinen Aufschluss uber ihre Interpretation gibt. Eine Annotation mit Wortarten wurde die beiden Lesarten disambiguieren und damit die Ruckgabe der Suchanfrage praziser machen. Die Ruckgabe wurde weniger ungewunschte Lesarten enthalten, die man andernfalls bei der Ergebnissichtung manuell ausschliesen musste. Kurz gesagt, eine Suchanfrage auf Wortarten-annotierten Daten ist fur den Nutzer effizienter als eine Suche auf reinen Wortformen.
{"title":"STTS-Konfusionsklassen beim Tagging von Fremdsprachlernertexten","authors":"Marc Reznicek, Heike Zinsmeister","doi":"10.21248/jlcl.28.2013.169","DOIUrl":"https://doi.org/10.21248/jlcl.28.2013.169","url":null,"abstract":"Fur viele aktuelle Fragestellungen der Zweitund Fremdspracherwerbsforschung („L2Erwerbsforschung“) sind Lernerkorpora unverzichtbar geworden. Sie stellen Texte von L2Lernern1 zur Verfugung, oftmals erganzt durch vergleichbare Texte von Muttersprachlern der Zielsprache. Beschrankten sich Analysen der Lernerkorpusforschung in den ersten Jahren hauptsachlich auf einzelne Wortformen (vgl. Granger, 1998), hat sich das Forschungsinteresse bestandig hin zu komplexeren grammatischen Kategorien entwickelt. Dazu zahlen u.A. die Untersuchung tiefer syntaktischer Analysen (Dickinson und Ragheb, 2009; Hirschmann et al., 2013, u.a.) oder die Strategien der Markierung von Koharenzrelationen (z.B. Breckle und Zinsmeister, 2012). Derartige Analysen bauen dabei nur selten auf der Textoberflache selbst auf, sondern setzen i.d.R. die Annotation von Wortarten fur jedes Texttoken voraus und ggfs. weitere, darauf aufbauende Annotationsebenen. Annotationen dienen generell immer der Suche nach Klassen in den Daten, die anhand der Oberflachenformen allein nicht leicht zuganglich waren (im Kontext von Lernerkorpora vgl. Diaz-Negrillo et al., 2010). Ist man z.B. an einer Analyse von Possessivpronomen interessiert, wurde man bei einer Korpussuche, die nur Zugriff auf die Wortformen selbst hat, bei der ambigen Form meinen neben Beispielen fur das Possessivpronomen (1) auch alle Belege fur die gleichlautende Verbform (2) finden. Das Suchergebnis ware also sehr ‘unsauber’, da die Wortform selbst keinen Aufschluss uber ihre Interpretation gibt. Eine Annotation mit Wortarten wurde die beiden Lesarten disambiguieren und damit die Ruckgabe der Suchanfrage praziser machen. Die Ruckgabe wurde weniger ungewunschte Lesarten enthalten, die man andernfalls bei der Ergebnissichtung manuell ausschliesen musste. Kurz gesagt, eine Suchanfrage auf Wortarten-annotierten Daten ist fur den Nutzer effizienter als eine Suche auf reinen Wortformen.","PeriodicalId":402489,"journal":{"name":"J. Lang. Technol. Comput. Linguistics","volume":"39 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2013-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"125499645","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2013-07-01DOI: 10.21248/jlcl.28.2013.166
Heike Telljohann, Yannick Versley, K. Beck, Erhard W. Hinrichs, Thomas Zastrow
Das Stuttgart-Tubingen Tagset (STTS, Schiller et al., 1999) ist der De-facto-Standard fur das Tagging von Wortarten in deutschen Texten, und die uberwiegende Mehrzahl der POS-annotierten Ressourcen furs Deutsche – darunter die Baumbanken NeGra (Skut et al., 1997), TIGER (Brants et al., 2002), TuBa-D/S (Hinrichs et al., 2000) und TuBa-D/Z (Hinrichs et al., 2004), und viele andere Korpora – verwenden dieses Tagset. In dieser Rolle stellt das STTS in dreierlei Hinsicht einen wichtigen Referenzpunkt dar: Zum einen als ausgewiesenes Tagset fur die moderne Standardsprache, das die Interoperabilitat mit einem komplexen Gefuge an Werkzeugen sowohl zur Wortartenauszeichnung als auch zur darauf aufbauenden Auszeichnung syntaktischer und anderer Strukturen. Zum anderen ist das STTS Ausgangspunkt fur Arbeiten jenseits der geschriebenen Standardsprache, die standardsprachliche Konstrukte im Sinne der ursprunglichen Richtlinien annotieren und nur dort abweichen, wo Phanomene in der Standardsprache der Gegenwart untypisch sind oder als ungrammatisch gelten (Buchstabierungen in der gesprochensprachlichen TuBa-D/S; auseinandergeschriebene Komposita in den fruhneuhochdeutschen Texten der Mercurius-Baumbank, siehe Pauly et al., 2012; zu weiteren Beispielen siehe weitere Artikel dieser Ausgabe). Weiterhin dient das STTS solchen Annotationsvorhaben als Referenzpunkt, die aufgrund ihrer unterschiedlichen Fragestellung eine andere Granularitat der Tags anstreben. Beispiele hierfur sind das Historische Tagset (HiTS; Dipper et al., diese Ausgabe), das feingranulare Wortartentags fur die Analyse fruherer Sprachstufen des Deutschen bereitstellt, oder das sprachubergreifende Tagset von Petrov et al. (2012), das zur Vereinheitlichung zwischen Sprachen eine wesentlich grobere Granularitat als das STTS verwendet. In diesem Artikel soll es darum gehen, eine Bestandsaufnahme des STTS vor allem in der Rolle als Tagset fur Standardsprache, insbesondere anhand der in Tubingen erstellten Korpora, vorzunehmen. Eine solche Bestandsaufnahme soll verdeutlichen, welche Aspekte neben der deskriptiven Adaquatheit und der grundsatzlichen Anwendbarkeit wichtig sind, aber nur langfristig durch kontinuierliche Inspektion und Revision sichtbar werden. Die Frage, was jenseits der ursprunglichen Tagsetdefinition zu einer konsistenten Anwendung des STTS gehort, reicht dabei hinein in die ebenfalls wichtige Frage der Interoperabilitat mit bestehenden Werkzeugen und Ressourcen, die sich realiter auf eine bestimmte Ausdeutung des Standards bezieht und uber die ursprunglichen Richtlinien hinausgeht.
{"title":"STTS als Part-of-Speech-Tagset in Tübinger Baumbanken","authors":"Heike Telljohann, Yannick Versley, K. Beck, Erhard W. Hinrichs, Thomas Zastrow","doi":"10.21248/jlcl.28.2013.166","DOIUrl":"https://doi.org/10.21248/jlcl.28.2013.166","url":null,"abstract":"Das Stuttgart-Tubingen Tagset (STTS, Schiller et al., 1999) ist der De-facto-Standard fur das Tagging von Wortarten in deutschen Texten, und die uberwiegende Mehrzahl der POS-annotierten Ressourcen furs Deutsche – darunter die Baumbanken NeGra (Skut et al., 1997), TIGER (Brants et al., 2002), TuBa-D/S (Hinrichs et al., 2000) und TuBa-D/Z (Hinrichs et al., 2004), und viele andere Korpora – verwenden dieses Tagset. In dieser Rolle stellt das STTS in dreierlei Hinsicht einen wichtigen Referenzpunkt dar: Zum einen als ausgewiesenes Tagset fur die moderne Standardsprache, das die Interoperabilitat mit einem komplexen Gefuge an Werkzeugen sowohl zur Wortartenauszeichnung als auch zur darauf aufbauenden Auszeichnung syntaktischer und anderer Strukturen. Zum anderen ist das STTS Ausgangspunkt fur Arbeiten jenseits der geschriebenen Standardsprache, die standardsprachliche Konstrukte im Sinne der ursprunglichen Richtlinien annotieren und nur dort abweichen, wo Phanomene in der Standardsprache der Gegenwart untypisch sind oder als ungrammatisch gelten (Buchstabierungen in der gesprochensprachlichen TuBa-D/S; auseinandergeschriebene Komposita in den fruhneuhochdeutschen Texten der Mercurius-Baumbank, siehe Pauly et al., 2012; zu weiteren Beispielen siehe weitere Artikel dieser Ausgabe). Weiterhin dient das STTS solchen Annotationsvorhaben als Referenzpunkt, die aufgrund ihrer unterschiedlichen Fragestellung eine andere Granularitat der Tags anstreben. Beispiele hierfur sind das Historische Tagset (HiTS; Dipper et al., diese Ausgabe), das feingranulare Wortartentags fur die Analyse fruherer Sprachstufen des Deutschen bereitstellt, oder das sprachubergreifende Tagset von Petrov et al. (2012), das zur Vereinheitlichung zwischen Sprachen eine wesentlich grobere Granularitat als das STTS verwendet. In diesem Artikel soll es darum gehen, eine Bestandsaufnahme des STTS vor allem in der Rolle als Tagset fur Standardsprache, insbesondere anhand der in Tubingen erstellten Korpora, vorzunehmen. Eine solche Bestandsaufnahme soll verdeutlichen, welche Aspekte neben der deskriptiven Adaquatheit und der grundsatzlichen Anwendbarkeit wichtig sind, aber nur langfristig durch kontinuierliche Inspektion und Revision sichtbar werden. Die Frage, was jenseits der ursprunglichen Tagsetdefinition zu einer konsistenten Anwendung des STTS gehort, reicht dabei hinein in die ebenfalls wichtige Frage der Interoperabilitat mit bestehenden Werkzeugen und Ressourcen, die sich realiter auf eine bestimmte Ausdeutung des Standards bezieht und uber die ursprunglichen Richtlinien hinausgeht.","PeriodicalId":402489,"journal":{"name":"J. Lang. Technol. Comput. Linguistics","volume":"157 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2013-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"114528668","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2013-07-01DOI: 10.21248/jlcl.28.2013.170
S. Dipper, K. Donhauser, T. Klein, S. Linde, Stefan Müller, K. Wegera
Im Kontext der Projekte zur Erstellung historischer Sprachkorpora „Referenzkorpus Altdeutsch“ und „Referenzkorpus Mittelhochdeutsch“ entstand ein Tagset fur die Wortartanalyse, HiTS („Historisches Tagset“). Im Projekt „Referenzkorpus Fruhneuhochdeutsch“ wird eine vereinfachte Version davon angewendet, da v.a. die spateren Zeitraume schon nahe am neuhochdeutschen (nhd.) Stand sind.2 HiTS orientiert sich am „Stuttgart-Tubingen Tagset“ (STTS, Schiller et al., 1999), dem Standardtagset fur nhd. Korpora, und ubernimmt — neben einer ganzen Reihe von Tags — auch das hierarchische Design der Tagnamen. Ursprunglich sollte das Tagset komplett auf STTS aufbauen und dieses lediglich um einige neue Tags erweitern. Es stellte sich jedoch heraus, dass neben einigen notwendigen feineren Unterscheidungen (z.B. bei den Pronominaladverbien) auch die Tagnamen des STTS nicht immer geeignet schienen. Z.B. sind in HiTS der definite und indefinite Artikel eine Unterklasse der Determinativa — die Sonderstellung des Artikels, die im STTS durch ein eigenes Tag ‘ART’ betont wird, ist eine neuere Entwicklung. Das Tagset dient zur Annotation diachroner Daten. Einige wenige Tags finden dabei nur in den alt(hoch)deutschen Daten Anwendung. Um diachrone Untersuchungen bis in die jetzige Zeit zu ermoglichen, werden im vorliegenden Artikel den HiTS-Tags die jeweils entsprechenden STTS-Tags gegenubergestellt. Allerdings ist nicht in jedem Fall eine eindeutige Abbildung moglich. So wird z.B. in HiTS zwischen attributivisch und substantivisch verwendeten Zahlen unterschieden, nicht aber im STTS. Umgekehrt unterscheidet HiTS nicht zwischen elliptischen („kopflosen“) Nominalphrasen und substantivierten Adjektiven (s. Abschnitt 5), was das STTS aber tut.
{"title":"HiTS: ein Tagset für historische Sprachstufen des Deutschen","authors":"S. Dipper, K. Donhauser, T. Klein, S. Linde, Stefan Müller, K. Wegera","doi":"10.21248/jlcl.28.2013.170","DOIUrl":"https://doi.org/10.21248/jlcl.28.2013.170","url":null,"abstract":"Im Kontext der Projekte zur Erstellung historischer Sprachkorpora „Referenzkorpus Altdeutsch“ und „Referenzkorpus Mittelhochdeutsch“ entstand ein Tagset fur die Wortartanalyse, HiTS („Historisches Tagset“). Im Projekt „Referenzkorpus Fruhneuhochdeutsch“ wird eine vereinfachte Version davon angewendet, da v.a. die spateren Zeitraume schon nahe am neuhochdeutschen (nhd.) Stand sind.2 HiTS orientiert sich am „Stuttgart-Tubingen Tagset“ (STTS, Schiller et al., 1999), dem Standardtagset fur nhd. Korpora, und ubernimmt — neben einer ganzen Reihe von Tags — auch das hierarchische Design der Tagnamen. Ursprunglich sollte das Tagset komplett auf STTS aufbauen und dieses lediglich um einige neue Tags erweitern. Es stellte sich jedoch heraus, dass neben einigen notwendigen feineren Unterscheidungen (z.B. bei den Pronominaladverbien) auch die Tagnamen des STTS nicht immer geeignet schienen. Z.B. sind in HiTS der definite und indefinite Artikel eine Unterklasse der Determinativa — die Sonderstellung des Artikels, die im STTS durch ein eigenes Tag ‘ART’ betont wird, ist eine neuere Entwicklung. Das Tagset dient zur Annotation diachroner Daten. Einige wenige Tags finden dabei nur in den alt(hoch)deutschen Daten Anwendung. Um diachrone Untersuchungen bis in die jetzige Zeit zu ermoglichen, werden im vorliegenden Artikel den HiTS-Tags die jeweils entsprechenden STTS-Tags gegenubergestellt. Allerdings ist nicht in jedem Fall eine eindeutige Abbildung moglich. So wird z.B. in HiTS zwischen attributivisch und substantivisch verwendeten Zahlen unterschieden, nicht aber im STTS. Umgekehrt unterscheidet HiTS nicht zwischen elliptischen („kopflosen“) Nominalphrasen und substantivierten Adjektiven (s. Abschnitt 5), was das STTS aber tut.","PeriodicalId":402489,"journal":{"name":"J. Lang. Technol. Comput. Linguistics","volume":"39 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2013-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"127644353","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2013-01-11DOI: 10.21248/jlcl.30.2015.195
Laurent Romary
The present paper explores various arguments in favour of making the Text Encoding Initia-tive (TEI) guidelines an appropriate serialisation for ISO standard 24613:2008 (LMF, Lexi-cal Mark-up Framework) . It also identifies the issues that would have to be resolved in order to reach an appropriate implementation of these ideas, in particular in terms of infor-mational coverage. We show how the customisation facilities offered by the TEI guidelines can provide an adequate background, not only to cover missing components within the current Dictionary chapter of the TEI guidelines, but also to allow specific lexical projects to deal with local constraints. We expect this proposal to be a basis for a future ISO project in the context of the on going revision of LMF.
{"title":"TEI and LMF crosswalks","authors":"Laurent Romary","doi":"10.21248/jlcl.30.2015.195","DOIUrl":"https://doi.org/10.21248/jlcl.30.2015.195","url":null,"abstract":"The present paper explores various arguments in favour of making the Text Encoding Initia-tive (TEI) guidelines an appropriate serialisation for ISO standard 24613:2008 (LMF, Lexi-cal Mark-up Framework) . It also identifies the issues that would have to be resolved in order to reach an appropriate implementation of these ideas, in particular in terms of infor-mational coverage. We show how the customisation facilities offered by the TEI guidelines can provide an adequate background, not only to cover missing components within the current Dictionary chapter of the TEI guidelines, but also to allow specific lexical projects to deal with local constraints. We expect this proposal to be a basis for a future ISO project in the context of the on going revision of LMF.","PeriodicalId":402489,"journal":{"name":"J. Lang. Technol. Comput. Linguistics","volume":"74 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2013-01-11","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"122828908","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2012-07-01DOI: 10.21248/jlcl.27.2012.156
Verena Henrich, E. Hinrichs, Klaus Suttner
The comprehension of a word sense is much easier when its usages are illustrated by example sentences in linguistic contexts. Hence, examples are crucially important to better understand the sense of a word in a dictionary. The goal of this research is the semi-automatic enrichment of senses from the German wordnet GermaNet with corpus examples from the online encyclopedia Wikipedia. The paper describes the automatic mapping of GermaNet senses to Wikipedia articles, using proven, state-ofthe-art word sense disambiguation methods, in particular different versions of word overlap algorithms and PageRank as well as classifiers that combine these methods. This mapping is optimized for precision and then used to automatically harvest corpus examples from Wikipedia for GermaNet senses. The paper presents details about the optimization of the model for the GermaNet-Wikipedia mapping and concludes with a detailed evaluation of the quantity and quality of the harvested examples. Apart from enriching the GermaNet resource, the harvested corpus examples can also be used to construct a corpus of German nouns that are annotated with GermaNet senses. This sense-annotated corpus can be used for a wide range of NLP applications.
{"title":"Automatically Linking GermaNet to Wikipedia for Harvesting Corpus Examples for GermaNet Senses","authors":"Verena Henrich, E. Hinrichs, Klaus Suttner","doi":"10.21248/jlcl.27.2012.156","DOIUrl":"https://doi.org/10.21248/jlcl.27.2012.156","url":null,"abstract":"The comprehension of a word sense is much easier when its usages are illustrated by example sentences in linguistic contexts. Hence, examples are crucially important to better understand the sense of a word in a dictionary. The goal of this research is the semi-automatic enrichment of senses from the German wordnet GermaNet with corpus examples from the online encyclopedia Wikipedia. The paper describes the automatic mapping of GermaNet senses to Wikipedia articles, using proven, state-ofthe-art word sense disambiguation methods, in particular different versions of word overlap algorithms and PageRank as well as classifiers that combine these methods. This mapping is optimized for precision and then used to automatically harvest corpus examples from Wikipedia for GermaNet senses. The paper presents details about the optimization of the model for the GermaNet-Wikipedia mapping and concludes with a detailed evaluation of the quantity and quality of the harvested examples. Apart from enriching the GermaNet resource, the harvested corpus examples can also be used to construct a corpus of German nouns that are annotated with GermaNet senses. This sense-annotated corpus can be used for a wide range of NLP applications.","PeriodicalId":402489,"journal":{"name":"J. Lang. Technol. Comput. Linguistics","volume":"50 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2012-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"124625361","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2012-07-01DOI: 10.21248/jlcl.27.2012.161
Thomas Jügel
This paper will discuss several computational tools f r creating a stemma of Avestan manuscripts, such as: a letter similarity matrix, a mor phological expander, and co-occurrence networks. After a short introduction to Avestan and Avestan manuscripts and a representation of Avestan peculiarities concerning the creati on of stemmata, the operatability of the above-mentioned tools for this text corpus will be discussed. Finally, I will give a brief outlook on the complexity of a database structure f o Avestan texts. Introduction The Avesta, represented by the edition of G ELDNER (1886-96), appears to be a sort of Bible containing several books or chapters, cf. S KJÆRVØ’s “sacred book of the Zoroastrians” (2009: 44); and, indeed, in Middle Iranian times (i .e., before 600 AD) there existed a kind of text corpus, rather than ‘a book’, of holy texts (C ANTERA 2004). However, GELDNER’s edition disguises the actual texts of the manuscripts because what we have today is not a book but a collection of ceremonies attested in various manuscripts. Avestan is the term for an Old Iranian language, as such a member of the IndoEuropean language family. The actual name of the la ngu ge is not known to us. The name ‘Avestan’ is taken from Middle Persian texts which refer to their religious text corpus as the “abest ā(g)”. When manuscripts containing these religious t exts came to light for European research, they were referred to as “Avesta” and the language as “Avestan”. 2 Avestan is known to us in two varieties, called “Ol d Avestan” and “Young Avestan”. This is so because they display two different chron ol gical layers of Avestan. However, they also differ in some linguistic respect so that t ey represent two different dialects of the same language (e.g., genitive singular of xratu“wisdom” is xratə̄uš in Old Avestan but xraθβō in Young Avestan, for further examples see DE VAAN 2003: 8ff.). The Avestan manuscripts (henceforth MS) can be sort ed into several groups, the main grouping is: 1) the ‘Pahlavi-MSs’, and 2) the ‘Sade -MSs’. The Pahlavi-MSs contain the Avestan text plus its translation and commentaries, g nerally Middle Persian, but there are translations into Sanskrit, Gujarati and/or New Per sian as well. 3 The Sade-MSs (i.e., the “pure” MS) only contain ritual instructions in Midd le Persian, etc., besides the Avestan text. The Pahlavi-MS served as exegetical texts written f or scholarly use only. On the contrary, the Sade-MSs were for the daily use in the ceremoni es. These different purposes had an influence on the copying process (cf. Section 1). The aforementioned grouping can be made by first gl ance at the MS because of the various writings these MSs do or do not contain. Be sid s the grouping into Pahlaviand Sade-MSs, the MSs are further classified into diffe rent ceremonies. There are four of them: the Yasna Rapihwin, V īsprad, Yašt, and V īdēvdād ceremony. Depending on the season or on the deity who is invoked, there are further diff erences
本文将讨论用于创建阿维斯陀手稿体系的几种计算工具,例如:字母相似矩阵,更多的生理扩展器和共现网络。在对阿维斯陀语和阿维斯陀语手稿的简短介绍以及阿维斯陀语关于词干的创造的特点的表现之后,将讨论上述文本语料库工具的可操作性。最后,我将简要介绍一下阿维斯陀文本数据库结构的复杂性。阿维斯塔,代表的版本G ELDNER(1886-96),似乎是一种圣经包含几本书或章节,参见S KJÆRVØ的“琐罗亚斯德教神圣的书”(2009:44);事实上,在中伊朗时期(例如:(公元600年之前)存在一种文本语料库,而不是“一本书”,神圣的文本(C ANTERA 2004)。然而,GELDNER的版本掩盖了手稿的实际文本,因为我们今天拥有的不是一本书,而是各种手稿中证明的仪式的集合。阿维斯陀语是古伊朗语的术语,作为印欧语系的一员。我们不知道拉古格的确切名字。“阿维斯陀”这个名字取自中古波斯文本,这些文本将他们的宗教文本语料库称为“abest ā(g)”。当包含这些宗教文本的手稿为欧洲研究所发现时,它们被称为“阿维斯陀”,这种语言被称为“阿维斯陀语”。我们知道阿维斯陀有两种变体,称为“老阿维斯陀”和“年轻阿维斯陀”。这是因为它们显示了阿维斯陀的两个不同的历史层次。然而,它们在某些语言学方面也有所不同,因此它们代表同一种语言的两种不同方言(例如,xratu“智慧”的属格单数在古阿维斯陀语中是xrat æ ya usi,但在年轻阿维斯陀语中是xraθβ γ,进一步的例子见DE VAAN 2003: 8ff.)。阿维斯陀手稿(以下简称MS)可以分为几个组,主要的组是:1)“巴列维-MS”,2)“萨德-MS”。巴列维- mss包含阿维斯陀文本及其翻译和评论,通常是中波斯语,但也有梵语,古吉拉特语和/或新波斯语的翻译。3萨德-MS(即“纯粹的”MS)除了阿维斯陀文本外,只包含中波斯语的仪式说明等。巴列维- ms作为训诂文本只写学术用途。相反,萨德小姐是在日常仪式上使用的。这些不同的目的对复制过程产生了影响(参见第1节)。上述分组可以通过对MS的第一眼进行,因为这些MS包含或不包含各种著述。他说,在分组为Pahlaviand Sade-MSs之后,MSs进一步分为不同的仪式。有四种仪式:Yasna Rapihwin, V īsprad, Yašt和V īdēvdād仪式。根据季节或被召唤的神,在其他方面相同的东西会有进一步的差异
{"title":"Peculiarities of Avestan Manuscripts for Computational Linguistics","authors":"Thomas Jügel","doi":"10.21248/jlcl.27.2012.161","DOIUrl":"https://doi.org/10.21248/jlcl.27.2012.161","url":null,"abstract":"This paper will discuss several computational tools f r creating a stemma of Avestan manuscripts, such as: a letter similarity matrix, a mor phological expander, and co-occurrence networks. After a short introduction to Avestan and Avestan manuscripts and a representation of Avestan peculiarities concerning the creati on of stemmata, the operatability of the above-mentioned tools for this text corpus will be discussed. Finally, I will give a brief outlook on the complexity of a database structure f o Avestan texts. Introduction The Avesta, represented by the edition of G ELDNER (1886-96), appears to be a sort of Bible containing several books or chapters, cf. S KJÆRVØ’s “sacred book of the Zoroastrians” (2009: 44); and, indeed, in Middle Iranian times (i .e., before 600 AD) there existed a kind of text corpus, rather than ‘a book’, of holy texts (C ANTERA 2004). However, GELDNER’s edition disguises the actual texts of the manuscripts because what we have today is not a book but a collection of ceremonies attested in various manuscripts. Avestan is the term for an Old Iranian language, as such a member of the IndoEuropean language family. The actual name of the la ngu ge is not known to us. The name ‘Avestan’ is taken from Middle Persian texts which refer to their religious text corpus as the “abest ā(g)”. When manuscripts containing these religious t exts came to light for European research, they were referred to as “Avesta” and the language as “Avestan”. 2 Avestan is known to us in two varieties, called “Ol d Avestan” and “Young Avestan”. This is so because they display two different chron ol gical layers of Avestan. However, they also differ in some linguistic respect so that t ey represent two different dialects of the same language (e.g., genitive singular of xratu“wisdom” is xratə̄uš in Old Avestan but xraθβō in Young Avestan, for further examples see DE VAAN 2003: 8ff.). The Avestan manuscripts (henceforth MS) can be sort ed into several groups, the main grouping is: 1) the ‘Pahlavi-MSs’, and 2) the ‘Sade -MSs’. The Pahlavi-MSs contain the Avestan text plus its translation and commentaries, g nerally Middle Persian, but there are translations into Sanskrit, Gujarati and/or New Per sian as well. 3 The Sade-MSs (i.e., the “pure” MS) only contain ritual instructions in Midd le Persian, etc., besides the Avestan text. The Pahlavi-MS served as exegetical texts written f or scholarly use only. On the contrary, the Sade-MSs were for the daily use in the ceremoni es. These different purposes had an influence on the copying process (cf. Section 1). The aforementioned grouping can be made by first gl ance at the MS because of the various writings these MSs do or do not contain. Be sid s the grouping into Pahlaviand Sade-MSs, the MSs are further classified into diffe rent ceremonies. There are four of them: the Yasna Rapihwin, V īsprad, Yašt, and V īdēvdād ceremony. Depending on the season or on the deity who is invoked, there are further diff erences","PeriodicalId":402489,"journal":{"name":"J. Lang. Technol. Comput. Linguistics","volume":"26 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2012-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"128987952","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2012-07-01DOI: 10.21248/jlcl.27.2012.164
Dennis Pauly, Ulyana Senyuk, Ulrike Demske
In der synchron orientierten Sprachwissenschaft ist in letzter Zeit ein verstärktes Interesse an syntaktisch annotierten Korpora zu erkennen. Für das Gegenwartsdeutsche wären hier das tigerbzw. negra-Projekt zu nennen, in deren Rahmen bereits umfangreiche, syntaktisch annotierte Zeitungskorpora entstanden sind (Brants et al. 1999, 2002). Gerade in früheren Sprachstufen sind digitalisierte und linguistisch aufbereitete Korpora als Datenquelle allerdings von noch größerer Relevanz, denn eine introspektive Datenerhebung ist hier im Gegensatz zum Gegenwartsdeutschen nicht möglich, eine Untersuchung hat also notwendigerweise immer korpusbasiert zu erfolgen. Dementsprechend gibt es für bestimmte Sprachstufen wie das Mittelenglische mit der Penn-Datenbank schon größere, syntaktisch annotierte Korpora (Kroch/Taylor 2000). Auch für die einzelnen Sprachperioden des Deutschen werden derzeit Referenzkorpora aufgebaut, die mit linguistischen Informationen angereichert sind. Dazu gehören neben den DFG-Projekten zum Althochdeutschen (Berlin, Frankfurt/M. und Jena), Mittelhochdeutschen (Bochum und Bonn) und Frühneuhochdeutschen (Bochum, Halle und Potsdam) auch das GerManC-Projekt zum frühen Neuhochdeutschen (1650 – 1800) an der Universität Manchester und das iswoc-Projekt (Information Structure and Word Order Change in Germanic and Romance Languages, Bech/Eide 2011), das unter anderem syntaktische Informationen zum Althochdeutschen enthalten wird. Das hier vorgestellte Korpus ist ein syntaktisch annotiertes Korpus des Frühneuhochdeutschen, das im Rahmen eines Pilotprojekts von 2003 bis 2005 an der Universität des Saarlandes mit dem Ziel entstanden ist, an Texten, die sich sowohl durch große Varianz auf allen Ebenen des Sprachsystems als auch durch eine große Komplexität ihrer Phrasen und Sätze auszeichnen (Admoni 1980), die Möglichkeiten einer halbautomatischen Annotation zu erproben. Basierend auf den Erfahrungen aus diesem Pilotprojekt sollen dann größere Textmengen aus dem Frühneuhochdeutschen im Baumbankformat aufbereitet und als annotiertes Referenzkorpus auf einer geeigneten Plattform frei zugänglich zur Verfügung gestellt werden. Eine solche Baumbank historischer Texte ermöglicht es dann, ausgesuchte Fragestellungen der historischen Syntax gezielter und auch in quantitativer Hinsicht zu untersuchen.1 Darüber hinaus stellt die hohe Komplexität aus annotatorischer Sicht auch eine besondere Herausforderung dar, was die Qualität bzw. Konsistenz der Annotation angeht. Wir werden im Folgenden das syntaktisch annotierte mercurius-Korpus zum Frühneuhochdeutschen vorstellen und dabei sowohl auf die Textauswahl wie auch auf die gewählte Annotationsweise näher eingehen. Anhand von morphologischen Strukturen wie N-N-Komposita und Partikelverben sollen dann exemplarisch die Probleme disku-
{"title":"Strukturelle Mehrdeutigkeit in frühneuhochdeutschen Texten","authors":"Dennis Pauly, Ulyana Senyuk, Ulrike Demske","doi":"10.21248/jlcl.27.2012.164","DOIUrl":"https://doi.org/10.21248/jlcl.27.2012.164","url":null,"abstract":"In der synchron orientierten Sprachwissenschaft ist in letzter Zeit ein verstärktes Interesse an syntaktisch annotierten Korpora zu erkennen. Für das Gegenwartsdeutsche wären hier das tigerbzw. negra-Projekt zu nennen, in deren Rahmen bereits umfangreiche, syntaktisch annotierte Zeitungskorpora entstanden sind (Brants et al. 1999, 2002). Gerade in früheren Sprachstufen sind digitalisierte und linguistisch aufbereitete Korpora als Datenquelle allerdings von noch größerer Relevanz, denn eine introspektive Datenerhebung ist hier im Gegensatz zum Gegenwartsdeutschen nicht möglich, eine Untersuchung hat also notwendigerweise immer korpusbasiert zu erfolgen. Dementsprechend gibt es für bestimmte Sprachstufen wie das Mittelenglische mit der Penn-Datenbank schon größere, syntaktisch annotierte Korpora (Kroch/Taylor 2000). Auch für die einzelnen Sprachperioden des Deutschen werden derzeit Referenzkorpora aufgebaut, die mit linguistischen Informationen angereichert sind. Dazu gehören neben den DFG-Projekten zum Althochdeutschen (Berlin, Frankfurt/M. und Jena), Mittelhochdeutschen (Bochum und Bonn) und Frühneuhochdeutschen (Bochum, Halle und Potsdam) auch das GerManC-Projekt zum frühen Neuhochdeutschen (1650 – 1800) an der Universität Manchester und das iswoc-Projekt (Information Structure and Word Order Change in Germanic and Romance Languages, Bech/Eide 2011), das unter anderem syntaktische Informationen zum Althochdeutschen enthalten wird. Das hier vorgestellte Korpus ist ein syntaktisch annotiertes Korpus des Frühneuhochdeutschen, das im Rahmen eines Pilotprojekts von 2003 bis 2005 an der Universität des Saarlandes mit dem Ziel entstanden ist, an Texten, die sich sowohl durch große Varianz auf allen Ebenen des Sprachsystems als auch durch eine große Komplexität ihrer Phrasen und Sätze auszeichnen (Admoni 1980), die Möglichkeiten einer halbautomatischen Annotation zu erproben. Basierend auf den Erfahrungen aus diesem Pilotprojekt sollen dann größere Textmengen aus dem Frühneuhochdeutschen im Baumbankformat aufbereitet und als annotiertes Referenzkorpus auf einer geeigneten Plattform frei zugänglich zur Verfügung gestellt werden. Eine solche Baumbank historischer Texte ermöglicht es dann, ausgesuchte Fragestellungen der historischen Syntax gezielter und auch in quantitativer Hinsicht zu untersuchen.1 Darüber hinaus stellt die hohe Komplexität aus annotatorischer Sicht auch eine besondere Herausforderung dar, was die Qualität bzw. Konsistenz der Annotation angeht. Wir werden im Folgenden das syntaktisch annotierte mercurius-Korpus zum Frühneuhochdeutschen vorstellen und dabei sowohl auf die Textauswahl wie auch auf die gewählte Annotationsweise näher eingehen. Anhand von morphologischen Strukturen wie N-N-Komposita und Partikelverben sollen dann exemplarisch die Probleme disku-","PeriodicalId":402489,"journal":{"name":"J. Lang. Technol. Comput. Linguistics","volume":"56 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2012-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"129546189","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}