LDV Forum最新文献_第6页

Separable Partikelverben und Verben mit typischen Adverbialen - Systematische Kontraste Deutsch-Französisch / Französisch-Deutsch 分隔符描述典型的德法德德法德动词

LDV Forum

Pub Date : 2003-07-01 DOI: 10.21248/jlcl.18.2003.30

Dieter Seelbach

Unser Ziel ist die Entwicklung von bilingualen (elektronischen) Lexika DeutschFranzösisch/Französisch-Deutsch und die Entwicklung von Übersetzungshilfen. Gleichzeitig wollen wir linguistische Vorund Zuarbeit liefern für das lexikalische Parsing in diesen Sprachen im Rahmen der Finite-State Technologie (z. B. für INTEX (Unitex), Silberztein 1993; Paumier 2000 oder CISLEX, Guenthner/Maier-Meyer 1996). Methodisch liegt unserer Arbeit die Lexikongrammatik (M. Gross und G. Gross et al., Vivès 1998, Seelbach 2000 und 2002) zugrunde, in der der Begriff des elementaren Satzes eine zentrale Rolle spielt. In dieser der distributionellen und transformationellen Methode (Z.S. Harris) verpflichteten Grammatikkonzeption wird beispielsweise auch das zentrale Problem der Polysemie zunächst einmal über den Begriff des elementaren Satzes in Angriff genommen, der genau einen Prädikatsausdruck (Operator) enthält und eine Anzahl von Argumenten, die selbst keine Prädikatsausdrücke sind. Die systematische Untersuchung der Verwendungen von Prädikatsausdrücken im elementaren Satz öffnet den Weg für den multilingualen Vergleich und konkret für die Erarbeitung von bilingualen Lexikoneinträgen. Dabei hat sich nicht nur die zu einer (kontrastiven) Typologie entwickelte Klassifizierung der Prädikatsausdrücke als einfache Wörter und als Mehrwortausdrücke als nützlich erwiesen, sondern auch die explizite Beschreibung deren syntaktischer Eigenschaften in Form der "Tables". Diese mündete unter anderem in die Erarbeitung von semantischen (Verwendungs-)Klassen von verbalen Prädikaten wie 'reasoning verbs', psychologische Verben, Kommunikationsverben, symmetrische Verben und deren jeweiligen Unterklassen. Insbesondere haben sich für die vergleichende Beschreibung und Übersetzung der (morpho-)syntaktischen Ausdrucksformen von Prädikaten drei weitere Konzepte als höchst brauchbare Werkzeuge erwiesen: die Stützverben, mit deren Hilfe nominale Prädikate 'konjugiert' und ansatzweise sogar semantisch klassifiziert werden können (vgl. 2.3), die Objektklassen mit ihren typischen Prädikatsausdrücken (G. Gross 1995 und 1998) und die für Prädikatsausdrücke bisweilen typischen Adverbialen (M. Gross 1986 und 2000). Die beiden zuletzt erwähnten Phänomene finden wir vereint in

我们的目标是发展两种语言学(电子)辞典，法语和法语两种语言学工具。与此同时，我们希望通过最终国家技术(如unix (unix)， 1993年元银)为不同语言的字典提供语言词汇的前期工作。扔掉它们吧，宝贝我们工作的方法是Lexikongrammatik (Gross先生和g为格罗斯等人s .小薇è1998年下午五点钟2000年和2002年)一词的背后,起主导作用的基本句句子.在这distributionellen和transformationellen方法(Z.S. Harris)承诺Grammatikkonzeption等也会的中心问题是Polysemie首先对基本句末尾这个词就实质性的改变,将一个Prädikatsausdruck(操作员)含有大量的观点,即使不是Prädikatsausdrücke .系统分析将定罪前一句话的功用改变了多语言学家比较和发展双语言学词典的具体方法。不仅证明了构成(对比)章法的开场白的分类是个非常有用的词汇，还进一步显示了他们的结构特征，表现为“Tables”。此外，这些发明还逐步发展出语义(使用)一类的动词类别，如“推理动词”、心理学动词、交流动词、对称动词及其对应的子类。特别是，对比描述和翻译正态特征(形态学)的另外三个概念时，发现这另外三个概念是非常有用的工具:带有“名义前缀”或甚至可以用名词进行排序的学院动词。(2.3)“对象类”带有典型前列法(G. Gross 1995和1998)和接受过“前列法”的动词(M. Gross 1986和2000)。最后所说的两种现象我们都同归于尽

{"title":"Separable Partikelverben und Verben mit typischen Adverbialen - Systematische Kontraste Deutsch-Französisch / Französisch-Deutsch","authors":"Dieter Seelbach","doi":"10.21248/jlcl.18.2003.30","DOIUrl":"https://doi.org/10.21248/jlcl.18.2003.30","url":null,"abstract":"Unser Ziel ist die Entwicklung von bilingualen (elektronischen) Lexika DeutschFranzösisch/Französisch-Deutsch und die Entwicklung von Übersetzungshilfen. Gleichzeitig wollen wir linguistische Vorund Zuarbeit liefern für das lexikalische Parsing in diesen Sprachen im Rahmen der Finite-State Technologie (z. B. für INTEX (Unitex), Silberztein 1993; Paumier 2000 oder CISLEX, Guenthner/Maier-Meyer 1996). Methodisch liegt unserer Arbeit die Lexikongrammatik (M. Gross und G. Gross et al., Vivès 1998, Seelbach 2000 und 2002) zugrunde, in der der Begriff des elementaren Satzes eine zentrale Rolle spielt. In dieser der distributionellen und transformationellen Methode (Z.S. Harris) verpflichteten Grammatikkonzeption wird beispielsweise auch das zentrale Problem der Polysemie zunächst einmal über den Begriff des elementaren Satzes in Angriff genommen, der genau einen Prädikatsausdruck (Operator) enthält und eine Anzahl von Argumenten, die selbst keine Prädikatsausdrücke sind. Die systematische Untersuchung der Verwendungen von Prädikatsausdrücken im elementaren Satz öffnet den Weg für den multilingualen Vergleich und konkret für die Erarbeitung von bilingualen Lexikoneinträgen. Dabei hat sich nicht nur die zu einer (kontrastiven) Typologie entwickelte Klassifizierung der Prädikatsausdrücke als einfache Wörter und als Mehrwortausdrücke als nützlich erwiesen, sondern auch die explizite Beschreibung deren syntaktischer Eigenschaften in Form der \"Tables\". Diese mündete unter anderem in die Erarbeitung von semantischen (Verwendungs-)Klassen von verbalen Prädikaten wie 'reasoning verbs', psychologische Verben, Kommunikationsverben, symmetrische Verben und deren jeweiligen Unterklassen. Insbesondere haben sich für die vergleichende Beschreibung und Übersetzung der (morpho-)syntaktischen Ausdrucksformen von Prädikaten drei weitere Konzepte als höchst brauchbare Werkzeuge erwiesen: die Stützverben, mit deren Hilfe nominale Prädikate 'konjugiert' und ansatzweise sogar semantisch klassifiziert werden können (vgl. 2.3), die Objektklassen mit ihren typischen Prädikatsausdrücken (G. Gross 1995 und 1998) und die für Prädikatsausdrücke bisweilen typischen Adverbialen (M. Gross 1986 und 2000). Die beiden zuletzt erwähnten Phänomene finden wir vereint in","PeriodicalId":346957,"journal":{"name":"LDV Forum","volume":"102 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2003-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"116307533","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 3

XML als Beschreibungssprache syntaktisch annotierter Korpora XML为一次同音朗诵社团

LDV Forum

Pub Date : 2003-07-01 DOI: 10.21248/jlcl.18.2003.44

Sven Naumann

In den letzten Jahren ist die Zahl der verfügbaren linguistisch annotierten Korpora ständig gewachsen. Zu den bekanntesten gehören das Brown-Korpus, das SusanneKorpus, die Penn-Treebank, das Negra-Korpus, das Tiger-Korpus und die im Zusammenhang mit dem Verbmobil-Projekt entstandenen Korpora. Neben den bekannten Differenzen in den zur Annotierung verwendeten Vokabularen (morpho-syntaktische Tags und Merkmale, Bezeichner für syntaktische Kategorien und semantische Rollen, etc.) werden Analysen, die Daten aus mehreren dieser Korpora nutzen wollen, vor allem durch die Tatsache erschwert, dass fast jedes dieser Korpora ein eigenes Annotierungsschemata verwendet. Im Folgenden soll es darum gehen, (a) die Vorund Nachteile von XML als Korpusbeschreibungssprache anhand eines sich im Aufbau befindenden Korpus zu diskutieren, (b) die für dieses Korpus gewählte XML-Struktur zu beschreiben und (c) die zur Pflege und Entwicklung des Korpus konzipierte Software vorzustellen.

过去几年来可用的语言学家微博过去三年来不断增长布朗氏工艺中最著名的三个是:苏珊妮氏工艺、宾夕法尼亚州、尼斯企业协会、老虎协会以及基于珍氏企业建立的社团。除了已知的分歧中用于Annotierung Vokabularen (morpho-syntaktische季节性特征,都会有其自己类别语法和语义角色,etc .)分析,将数据从不同这种利用Korpora,特别是还造成困难,因为几乎所有的Korpora有自己的使用Annotierungsschemata .下一步我们将:(a)使用已有的一套工具来讨论XML作为词组描述词的优势和缺点;(b)描述为本汇编而选择的XML结构;(c)展示为维护和开发该副本而设计的软件。

引用次数: 0

Zur akustischen Präsentation visueller Webinhalte - VoiceXML meets HTML & WML 用于视觉增强型传输:铃声xml meet HTML & WML

LDV Forum

Pub Date : 2003-07-01 DOI: 10.21248/jlcl.18.2003.28

T. Goebel

Das World Wide Web ist in erster Linie ein visuell ausgerichtetes Medium. Informationen werden codiert, um auf Displays verschiedener Größe angezeigt zu werden; der Anwender navigiert durch diese Daten mit Hilfe von Eingabegeräten wie Maus oder Tastatur. Nicht jeder Benutzer kann jedoch auf das Internet in dieser Art und Weise (durch Graphical User Interfaces, GUI) zugreifen, sei es, weil er aufgrund von körperlichen Beeinträchtigungen eine Maus oder Tastatur nicht bedienen kann oder unter einer Sehbehinderung leidet und somit keine visuell vermittelten Informationen aufnehmen kann, oder weil er in bestimmten Situationen seinen Blick nicht auf ein Display richten kann – wenn er beispielsweise hinter dem Steuer eines Autos sitzt. Es sollte im Sinne der Autoren von webbasierten Informationen sein, ihre Internetseiten leicht zugänglich (accessible) zu machen und dabei viele verschiedene Arten der Einund Ausgabe zu unterstützen, um somit einen größtmöglichen Anwenderkreis zu erschließen. Denkbar ist beispielsweise ein rein akustischer Zugriff auf das Internet, der für die Einund Ausgabe natürliche gesprochene Sprache vorsieht: Die Informationen werden durch ein Sprachsynthesesystem vorgelesen, der Benutzer navigiert durch Sprachbefehle. Derartige akustische Browser (auch Voice Browser genannt), die diesen Zugriff realisieren, sind insbesondere für die Gruppe der blinden und sehbehinderten Benutzer interessant, aber auch für den mobilen Anwender, der mit solchen Systemen Internetinformationen durch ein normales Telefon abrufen kann. Dafür muss ein Weg gefunden werden, die Informationen des Internets in eine akustische Form zu überführen und diese anschließend so zu präsentieren, dass der Benutzer schnell und intuitiv an die gewünschten Informationen gelangen kann. Diese Arbeit beschäftigt sich mit der akustischen Präsentation von Informationen aus dem Internet. Die untersuchten Formate sind HTML (HTML 1999) als am weites-

万维网主要是让人直接观察到的媒介。各种大小的显示屏上写入信息;用户可以通过输入设备，如鼠标或键盘来导航这些数据。不,但任何用户均可在网上购买这些方式能访问用户(通过Graphical Interfaces, GUI)是:因为他由于身体挤压到老鼠或无法使用键盘或患有一个视障的视觉而形成的信息沟通,还是因为他在有些情况下,目光不能指着屏幕——例如,当他坐在一辆汽车的车轮背后.在网络信息的作者的精神下，应当使他们的网页易于访问(accessible)，并支持许多不同类型的嵌入和输出，这样就可达到最大的用户范围。一些可能的例子是，纯粹由听觉直接的互联网输入和输出自然口语的语言:信息是通过语言系统来读的，而用户则通过语言的指令来定位。这类实现它的语音浏览器(又称声浏览器)特别对盲人和残疾人群体有兴趣，对流动用户也很感兴趣，他们可以在普通的电话上获取来自互联网的信息。要想实现这一目标，必须找到一种方法以声波形式描述互联网信息，然后以一种非触摸不可的方式呈现出来，用户可以快速、直观地获得想要的信息。这项工作旨在展示来自互联网的信息的听觉化表达。被调查的格式是在宽广的

{"title":"Zur akustischen Präsentation visueller Webinhalte - VoiceXML meets HTML & WML","authors":"T. Goebel","doi":"10.21248/jlcl.18.2003.28","DOIUrl":"https://doi.org/10.21248/jlcl.18.2003.28","url":null,"abstract":"Das World Wide Web ist in erster Linie ein visuell ausgerichtetes Medium. Informationen werden codiert, um auf Displays verschiedener Größe angezeigt zu werden; der Anwender navigiert durch diese Daten mit Hilfe von Eingabegeräten wie Maus oder Tastatur. Nicht jeder Benutzer kann jedoch auf das Internet in dieser Art und Weise (durch Graphical User Interfaces, GUI) zugreifen, sei es, weil er aufgrund von körperlichen Beeinträchtigungen eine Maus oder Tastatur nicht bedienen kann oder unter einer Sehbehinderung leidet und somit keine visuell vermittelten Informationen aufnehmen kann, oder weil er in bestimmten Situationen seinen Blick nicht auf ein Display richten kann – wenn er beispielsweise hinter dem Steuer eines Autos sitzt. Es sollte im Sinne der Autoren von webbasierten Informationen sein, ihre Internetseiten leicht zugänglich (accessible) zu machen und dabei viele verschiedene Arten der Einund Ausgabe zu unterstützen, um somit einen größtmöglichen Anwenderkreis zu erschließen. Denkbar ist beispielsweise ein rein akustischer Zugriff auf das Internet, der für die Einund Ausgabe natürliche gesprochene Sprache vorsieht: Die Informationen werden durch ein Sprachsynthesesystem vorgelesen, der Benutzer navigiert durch Sprachbefehle. Derartige akustische Browser (auch Voice Browser genannt), die diesen Zugriff realisieren, sind insbesondere für die Gruppe der blinden und sehbehinderten Benutzer interessant, aber auch für den mobilen Anwender, der mit solchen Systemen Internetinformationen durch ein normales Telefon abrufen kann. Dafür muss ein Weg gefunden werden, die Informationen des Internets in eine akustische Form zu überführen und diese anschließend so zu präsentieren, dass der Benutzer schnell und intuitiv an die gewünschten Informationen gelangen kann. Diese Arbeit beschäftigt sich mit der akustischen Präsentation von Informationen aus dem Internet. Die untersuchten Formate sind HTML (HTML 1999) als am weites-","PeriodicalId":346957,"journal":{"name":"LDV Forum","volume":"17 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2003-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"122495797","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 0

ProofML - eine Annotationssprache für natürliche Beweise 形形之词

LDV Forum

Pub Date : 2003-07-01 DOI: 10.21248/jlcl.18.2003.48

P. Koepke, Bernhard Schröder

Zusammenfassung: Ein Korpus natürlichsprachlich formulierter mathematischer Beweise soll auf das Verhältnis von Ausdruck und argumentativ-semantischer Struktur hin untersucht werden. Zu diesem Zweck werden die relevanten Strukturen mithilfe einer Annotationssprache ProofML in den Beweisen des Korpus annotiert. Die ProofML-Annotation soll dabei einerseits empirisch-analytischen Zwecken dienen, gleichzeitig aber auch eine geeignete Datenstruktur für eine automatische Textanreicherung darstellen, die für einen Beweis-Checker, also ein Programm, das weitgehend natürlichsprachlich formulierte formalwissenschaftliche Beweise auf Ihre Korrektheit hin überprüfen soll, relevante Information kodiert. Derartige Komponenten werden im Rahmen des Projektes NAPROCHE (Natural Proof Checker) entwickelt.

总结:一组自然拟定好的数学证据应当分析出它们的表达与辩论的语义结构之间的关系。为此，委员会将使用复述语言在文件的证据中列出相关结构。ProofML-Annotation应同时一方面empirisch-analytischen的目的,同时也提供了一个适当的系统构成自动Textanreicherung Datenstruktur所以Beweis-Checker来说,这个项目在很大程度上是natürlichsprachlich formalwissenschaftliche发表其正确性要盯到相关证据信息编码.这些组件在自然检验项目中进行开发。

引用次数: 1

Korpus "Skandinavische Semikommunikation" - ein mehrsprachiges Diskurskorpus auf XML-Basis “斯堪的那维亚字符串”——一个以xml为基础的多种德语光盘

LDV Forum

Pub Date : 2003-07-01 DOI: 10.21248/jlcl.18.2003.47

Thomas Schmidt

Der Sonderforschungsbereich 538 „Mehrsprachigkeit“ an der Universität Hamburg vereinigt in seinen dreizehn Teilprojekten eine Vielzahl von Forschern, die sich unter verschiedenen Herangehensweisen mit dem Thema der Mehrsprachigkeit auseinandersetzen. Die weitaus größte Zahl der Projekte arbeitet dabei empirisch auf der Grundlage von Aufnahmen gesprochener Sprache, die durch eine computergestützte Transkription der Analyse zugänglich gemacht werden. Das Projekt „Datenbank Mehrsprachigkeit“ hat sich zum Ziel gesetzt, ein gemeinsames Dach für diese Transkriptionsdaten zu schaffen, unter dem es möglich sein soll, Transkriptionen zwischen einzelnen Teilprojekten auszutauschen oder Daten aus verschiedenen Projekten gemeinsam zu analysieren. Das in diesem Beitrag vorgestellte Korpus „Skandinavische Semikommunikation“ vereinigt die im Teilprojekt K5 „Semikommunikation und rezeptive Mehrsprachigkeit im heutigen Skandinavien“ erstellten Transkriptionsdaten und gilt als Testfall und Prototyp für die Datenbank Mehrsprachigkeit. Wie z.B. in Schmidt (2001, 2002a, 2002b, i.V.) dargestellt, fungiert dabei die XML-Anwendung EXMARaLDA als zentrale Architekturkomponente. Sie übernimmt erstens die Rolle einer Interlingua zwischen den vorhandenen älteren Datenformaten. Zweitens dient sie als Zielbzw. Ausgangsformat für mehrere Eingabeund Ausgabemethoden und bildet mit diesen zusammen ein eigenständiges System zur computergestützten Transkription. Drittens schließlich ist sie Grundlage der Datenbank Mehrsprachigkeit und der von ihr zur Verfügung zu stellenden Analyseinstrumente. Abbildung 1 auf der folgenden Seite veranschaulicht dies. Auch für das hier vorgestellte Korpus „Skandinavische Semikommunikation“ ist daher das EXMARaLDA-System von zentraler Bedeutung. Wie genau bei seiner Erstellung von den verschiedenen Eingabemethoden für Transkriptionsdaten Gebrauch gemacht wird, und welche Ausgabemethoden und Analysewerkzeuge auf die Daten angewandt werden können, wird im nächsten Abschnitt ausgeführt werden.

汉堡大学的特别研究学院“多种语文”方法在其13个次级项目中混合了许多研究者，同时也基于不同方法处理多种语文。他们利用分析系统的计算机化过程，利用口语的语言来做非正式项目，记录了大量项目。数据库多语项目的目的是为这些转录数据创造一个共同的屋顶，使能够在各个次级项目之间交换转录数据，或共同分析从不同项目收集的数据。本论文介绍的“斯堪的纳维亚符文通联”综合了K5题为“今日斯堪的纳维亚”的半边通联和可普多语特性项目所生成的转录数据，并被认为是使用多种语言数据库的测试和原型。如施密特(2001年、2000年、2002年b和2002年)的研究就说明了:xml应用为中心建筑部门。首先，他们担任的角色是在现有旧数据格式之间的界面。其次，她是一个目标或目标。若干输入和输出方法的基本格式，并协同它们组成一个独立的电脑转录系统。第三，归根结底，它是建立在多种语文系统和系统所提供的分析工具之上的。下面的图1说明了这一点。因此，前斯堪的纳维亚“斯堪的纳维亚半信半疑”体系同样至关重要。不同的转录数据输入方式和输出分析工具在编写过程中具体如何使用，在下一节将说明可适用于数据的支出方法和分析工具。

{"title":"Korpus \"Skandinavische Semikommunikation\" - ein mehrsprachiges Diskurskorpus auf XML-Basis","authors":"Thomas Schmidt","doi":"10.21248/jlcl.18.2003.47","DOIUrl":"https://doi.org/10.21248/jlcl.18.2003.47","url":null,"abstract":"Der Sonderforschungsbereich 538 „Mehrsprachigkeit“ an der Universität Hamburg vereinigt in seinen dreizehn Teilprojekten eine Vielzahl von Forschern, die sich unter verschiedenen Herangehensweisen mit dem Thema der Mehrsprachigkeit auseinandersetzen. Die weitaus größte Zahl der Projekte arbeitet dabei empirisch auf der Grundlage von Aufnahmen gesprochener Sprache, die durch eine computergestützte Transkription der Analyse zugänglich gemacht werden. Das Projekt „Datenbank Mehrsprachigkeit“ hat sich zum Ziel gesetzt, ein gemeinsames Dach für diese Transkriptionsdaten zu schaffen, unter dem es möglich sein soll, Transkriptionen zwischen einzelnen Teilprojekten auszutauschen oder Daten aus verschiedenen Projekten gemeinsam zu analysieren. Das in diesem Beitrag vorgestellte Korpus „Skandinavische Semikommunikation“ vereinigt die im Teilprojekt K5 „Semikommunikation und rezeptive Mehrsprachigkeit im heutigen Skandinavien“ erstellten Transkriptionsdaten und gilt als Testfall und Prototyp für die Datenbank Mehrsprachigkeit. Wie z.B. in Schmidt (2001, 2002a, 2002b, i.V.) dargestellt, fungiert dabei die XML-Anwendung EXMARaLDA als zentrale Architekturkomponente. Sie übernimmt erstens die Rolle einer Interlingua zwischen den vorhandenen älteren Datenformaten. Zweitens dient sie als Zielbzw. Ausgangsformat für mehrere Eingabeund Ausgabemethoden und bildet mit diesen zusammen ein eigenständiges System zur computergestützten Transkription. Drittens schließlich ist sie Grundlage der Datenbank Mehrsprachigkeit und der von ihr zur Verfügung zu stellenden Analyseinstrumente. Abbildung 1 auf der folgenden Seite veranschaulicht dies. Auch für das hier vorgestellte Korpus „Skandinavische Semikommunikation“ ist daher das EXMARaLDA-System von zentraler Bedeutung. Wie genau bei seiner Erstellung von den verschiedenen Eingabemethoden für Transkriptionsdaten Gebrauch gemacht wird, und welche Ausgabemethoden und Analysewerkzeuge auf die Daten angewandt werden können, wird im nächsten Abschnitt ausgeführt werden.","PeriodicalId":346957,"journal":{"name":"LDV Forum","volume":"2017 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2003-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"127568935","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 3

Die Rolle der Phonologie in der multilingualen Sprachtechnologie 语言学在多产发声系统中的作用

LDV Forum

Pub Date : 2003-07-01 DOI: 10.21248/jlcl.18.2003.34

Julie Carson-Berndsen, M. Neugebauer

Multilinguale Kommunikation fordert die Übertragbarkeit der gängigen Techniken auf eine große Anzahl verschiedener Sprachen und stellt damit hohe Anforderungen an die Sprachtechnologie. Obwohl die Spracherkennung und die Sprachsynthese sich in den letzten Jahren in vielen Bereichen unseres Lebens durchgesetzt haben, sind die Anwendungen häufig von einer bestimmten Domäne abhängig. Auskunftssysteme, zum Beispiel, sind so beschaffen, dass Probleme aufkommen, sobald neue Wörter erkannt oder produziert werden sollen. Während die größeren Sprachen der Welt von jeder neuen Entwicklung im sprachtechnologischen Bereich profitieren, leiden die kleineren Sprachen eher unter einem Mangel an Ressourcen und Anwendungen. Dabei ist besonders für bedrohte Sprachen der Aufbau linguistischer Ressourcen, die bei der Spracherkennung oder Sprachsynthese eingesetzt werden können, von enormer Wichtigkeit. Die meisten kommerziellen Spracherkennungssysteme bauen auf stochastischen Methoden auf, die zwar implizit linguistische Informationen beinhalten, jedoch nicht in einer Form, die sich zum Beispiel unmittelbar für die Sprachsynthese eignet. Das linguistische Wissen liegt im System versteckt und kann nicht ohne weiteres explizit aufgedeckt und weiterverwendet werden. Jedes neue System bedarf einer erneuten „Trainingsphase“, damit zusätzliches Wissen hinzugefügt werden kann. Dies setzt einen großen Datensatz voraus, der auch entsprechend annotiert werden muss. Sinnvoller scheint es hingegen, alle Daten, die für neue Anwendungen gesammelt werden, so zu repräsentieren, dass sie von verschiedenartigen Technologien weiterverwendet werden können. Der Schwerpunkt bei der weiteren Entwicklung in der Sprachtechnologie muss auf generische Techniken gelegt werden, die für alle Sprachen gelten. Nur so kann eine robuste multilinguale Sprachtechnologie entstehen, die auch skalierbar ist. Um die Portabilität sprachtechnologischer Anwendungen mit Blick auf „neue“ Sprachen zu gewährleisten, ist die Entwicklung innovativer Methoden für die Akquisition und Repräsentation linguistischer Informationen verschiedener Granularitäten unumgänglich. Mit Blick auf diesen Aspekt wird in diesem Papier eine neuartige Modellierung phonologischer Informationen präsentiert, die sowohl in dem hier vertretenen compu-

多语言交流要求可以携带的传统技术的可携带性，这给发声技术带来了严格的要求。尽管识别语言和合成语言在近几年在我们生活的很多方面日益普遍，但应用程序常常取决于某一特定的领域。例如，信息系统的目的是让人们在出现或产生新单词时产生问题。虽然世界上较大的语言从基因技术的每次新发展中获益，但较小的语言却必然资源和应用严重不足。建设语言资源可以用于识别语言或合成语言至关重要。大多数商业语言识别系统都依赖于随机方法，其中包含间接的语言信息，但不以可直接用于语言合成的方式运作。语言知识埋藏在这个系统之中，并不能轻易地被明确地发现和重复使用。每一个新的训练系统都需要再进行一次训练，以补充更多的知识本数据集设了一个大数据库，并且需要将它激活。相反，或许更有理由用各种技术来表示用于新应用的所有数据。发声系统的进一步发展需要集中在适用于所有语言的通用技术上只有这样才能产生出一种强大的多边化的发声系统而且可以扩展为了确保研究“新”语言的语言应用可以实现对语言的利用，必须研制出用来搜集和代表不同凯特尔类型的语言信息的创新方法。为此，介绍了一整套模拟语音信息的新方法，在这里的compu compu中呈现了这些

{"title":"Die Rolle der Phonologie in der multilingualen Sprachtechnologie","authors":"Julie Carson-Berndsen, M. Neugebauer","doi":"10.21248/jlcl.18.2003.34","DOIUrl":"https://doi.org/10.21248/jlcl.18.2003.34","url":null,"abstract":"Multilinguale Kommunikation fordert die Übertragbarkeit der gängigen Techniken auf eine große Anzahl verschiedener Sprachen und stellt damit hohe Anforderungen an die Sprachtechnologie. Obwohl die Spracherkennung und die Sprachsynthese sich in den letzten Jahren in vielen Bereichen unseres Lebens durchgesetzt haben, sind die Anwendungen häufig von einer bestimmten Domäne abhängig. Auskunftssysteme, zum Beispiel, sind so beschaffen, dass Probleme aufkommen, sobald neue Wörter erkannt oder produziert werden sollen. Während die größeren Sprachen der Welt von jeder neuen Entwicklung im sprachtechnologischen Bereich profitieren, leiden die kleineren Sprachen eher unter einem Mangel an Ressourcen und Anwendungen. Dabei ist besonders für bedrohte Sprachen der Aufbau linguistischer Ressourcen, die bei der Spracherkennung oder Sprachsynthese eingesetzt werden können, von enormer Wichtigkeit. Die meisten kommerziellen Spracherkennungssysteme bauen auf stochastischen Methoden auf, die zwar implizit linguistische Informationen beinhalten, jedoch nicht in einer Form, die sich zum Beispiel unmittelbar für die Sprachsynthese eignet. Das linguistische Wissen liegt im System versteckt und kann nicht ohne weiteres explizit aufgedeckt und weiterverwendet werden. Jedes neue System bedarf einer erneuten „Trainingsphase“, damit zusätzliches Wissen hinzugefügt werden kann. Dies setzt einen großen Datensatz voraus, der auch entsprechend annotiert werden muss. Sinnvoller scheint es hingegen, alle Daten, die für neue Anwendungen gesammelt werden, so zu repräsentieren, dass sie von verschiedenartigen Technologien weiterverwendet werden können. Der Schwerpunkt bei der weiteren Entwicklung in der Sprachtechnologie muss auf generische Techniken gelegt werden, die für alle Sprachen gelten. Nur so kann eine robuste multilinguale Sprachtechnologie entstehen, die auch skalierbar ist. Um die Portabilität sprachtechnologischer Anwendungen mit Blick auf „neue“ Sprachen zu gewährleisten, ist die Entwicklung innovativer Methoden für die Akquisition und Repräsentation linguistischer Informationen verschiedener Granularitäten unumgänglich. Mit Blick auf diesen Aspekt wird in diesem Papier eine neuartige Modellierung phonologischer Informationen präsentiert, die sowohl in dem hier vertretenen compu-","PeriodicalId":346957,"journal":{"name":"LDV Forum","volume":"401 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2003-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"116509717","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 1

Vererbungsalgorithmen von semantischen Eigenschaften auf Assoziationsgrafen und deren Nutzung zur Klassifikation von natürlichsprachlichen Daten 相关语义特性的进化论训练了相关表述及其对自然语言数据的分类

LDV Forum

Pub Date : 2003-07-01 DOI: 10.21248/jlcl.18.2003.25

Stefan Bordag

An input word is recognized as one of a set of reference words. A set of word distance signals representative of the correspondence of the input word to the reference words is generated. A set of weighted word distance signals is also generated. Responsive to the word distance signals and the weighted word distance signals, the reference word that most closely corresponds to the input word is selected.

输入词被识别为一组参考词中的一个。生成一组代表输入词与参考词对应关系的词距离信号。还生成了一组加权词距离信号。响应词距离信号和加权词距离信号，选择与输入词最接近的参考词。

引用次数: 2

Syntaktische Strukturen - Eigenschaften und Zusammenhänge 语法结构

LDV Forum

Pub Date : 2003-07-01 DOI: 10.21248/jlcl.18.2003.40

R. Köhler

In diesem Beitrag soll ein erster Versuch beschrieben werden, nach dem Muster der bereits aufgestellten und erfolgreich uberpruften synergetisch-linguisti-schen Modelle im Bereich der Lexik (Kohler, 1986; Hammerl, 1991; Giese-king, 2002) und der Morphologie (Kohler, 1990a, 1990b, 1991; Krott, 1996, 2002) ein Basismodell eines im Rahmen der synergetischen Linguistik aufge-stellten syntaktischen Subsystems der Sprache zu erstellen und zu uberprufen. Fur die theoretische Modellierung wird von zunachst einigen wenigen syntak-tischen Einheiten, Eigenschaften und Zusammenhangen ausgegangen, die in ein entsprechendes Modell integriert werden. Die empirische Uberprufung erfolgt an Daten, die aus dem „Susanne-Korpus“ (Sampson, 1995) gewonnen wurden1.

本文旨在描述目前已建立并成功实施了多功能语言学语言学模型的第一个实验。Hammerl, 1991年;与智态学(科尔，1990年，1990年b年，1991年)Krott, 1996, 2002年)建立并审查法语核心语法亚分支系统的基本模型。模拟理论的方法是建立几个运法实体、特征和一致性，并添加到一个相应的模型中。我们根据“苏珊娜珊瑚身体”(1995年桑普森号)的数据进行了一项实证审查。

引用次数: 0

Medienanalyse und Visualisierung - Auswertung von Online-Pressetexten durch Text Mining 通过文字修改对在线新闻摘要的媒体分析和视觉评价

LDV Forum

Pub Date : 2003-07-01 DOI: 10.21248/jlcl.18.2003.49

U. Quasthoff, M. Richter, C. Wolff

Obwohl sich die Medienwissenschaft als inter- oder transdisziplinares Arbeitsfeld versteht, haben methodische Ansatze aus der angewandten Informatik bisher kaum Eingang in das Methodeninventar der Medienwissenschaft gefunden (vgl. Rusch 2002b: 70f). Die so genannten „Neuen Medien“ finden sich zwar als Subjekt medienwissenschaftlicher Betrachtungen wieder (vgl. Ludes 1998: 51ff, 129), es besteht aber ein Defizit hinsichtlich der Modernisierung geeigneter Methoden fur die Medienanalyse, die bisher von qualitativen und an einzelnen Publikationen bzw. Medienereignissen orientierten Verfahren gepragt ist (vgl. Posner 2001, Andringa 2002, Schreier 2002). Dieser Beitrag versucht aufzuzeigen, wie Text Mining-Verfahren fur die inhaltliche Auswertung von Pressetexten genutzt werden konnen und so als „angewandte Medieninformatik“ einen interdisziplinaren Beitrag zur Medienanalyse leisten konnen. Es wird ein im World Wide Web verfugbarer Informationsdienst vorgestellt, der tagesaktuell uberregionale Online-Medien auswertet und begriffsbasiert die jeweils als relevant erkannten Konzepte als „Worter des Tages“ prasentiert. Dabei kommen sowohl Darstellungen relevanter Begriffe, die einem einfachen Kategoriensystem zugeordnet sind zum Zuge, als auch Visualisierungen von aktuellen Begriffsassoziationen und Visualisierungen des Aktualitatsverlaufs einzelner Konzepte.

尽管媒体科学自认为是一个跨学科或跨学科的工作领域，但从应用计算机上方法的回应却很少被媒体科学方法方法纠缠。(rush保证b:此外，所谓的“新媒体”似乎也将成为目前媒体科学的主体。(然而，对于改进适当的媒体分析方法，存在一些不足。传统上，每一种出版物或具体事件都强调质量，并因此而注重特定的程序。(参路二:参路三章)早在几年前本文旨在说明如何利用文章内容分析辩论来报道报道，也就是“利用媒体的计算机研究”，以便为跨学科媒体分析做出贡献。介绍了一个可以在万维网上提供的信息服务。这一天，知识分子对全国在线媒体进行评估，并将这些各自视为相关概念的概念推举为“每日经文”。使用简单的分类系统描述的相关词汇和对当前概念的理解和可视化词汇。

{"title":"Medienanalyse und Visualisierung - Auswertung von Online-Pressetexten durch Text Mining","authors":"U. Quasthoff, M. Richter, C. Wolff","doi":"10.21248/jlcl.18.2003.49","DOIUrl":"https://doi.org/10.21248/jlcl.18.2003.49","url":null,"abstract":"Obwohl sich die Medienwissenschaft als inter- oder transdisziplinares Arbeitsfeld versteht, haben methodische Ansatze aus der angewandten Informatik bisher kaum \u0000Eingang in das Methodeninventar der Medienwissenschaft gefunden (vgl. Rusch 2002b: 70f). Die so genannten „Neuen Medien“ finden sich zwar als Subjekt medienwissenschaftlicher Betrachtungen wieder (vgl. Ludes 1998: 51ff, 129), es besteht aber ein Defizit hinsichtlich der Modernisierung geeigneter Methoden fur die Medienanalyse, die bisher von qualitativen und an einzelnen Publikationen bzw. Medienereignissen orientierten Verfahren gepragt ist (vgl. Posner 2001, Andringa 2002, Schreier \u00002002). Dieser Beitrag versucht aufzuzeigen, wie Text Mining-Verfahren fur die inhaltliche Auswertung von Pressetexten genutzt werden konnen und so als „angewandte Medieninformatik“ einen interdisziplinaren Beitrag zur Medienanalyse leisten konnen. Es wird ein im World Wide Web verfugbarer Informationsdienst vorgestellt, der tagesaktuell \u0000uberregionale Online-Medien auswertet und begriffsbasiert die jeweils als relevant erkannten Konzepte als „Worter des Tages“ prasentiert. Dabei kommen sowohl Darstellungen relevanter Begriffe, die einem einfachen Kategoriensystem zugeordnet sind zum Zuge, als auch Visualisierungen von aktuellen Begriffsassoziationen und Visualisierungen des Aktualitatsverlaufs einzelner Konzepte.","PeriodicalId":346957,"journal":{"name":"LDV Forum","volume":"35 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2003-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"124938648","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 5

Referenzstrukturen. Zur Quantifizierung der Koinzidenz semantischer Einheiten in Texten Referenzstrukturen .以此为计算出文章中的语义单位

LDV Forum

Pub Date : 2003-07-01 DOI: 10.21248/jlcl.18.2003.43

A. Ziegler

Verfolgt man die Idee, dass Sprachwissenschaft mehr zu leisten hat, als nach abstrakten Eigenschaften sprachlicher Ausdruckseinheiten zu fragen und diese zu beschreiben, gelangt man zwangslaufig in die turbulenten Bereiche semantischer Sprachbetrachtung. Ist dies der Fall, sieht man sich zwei fundamentalen Schwierigkeiten gegenuber: Zum einen verkompliziert sich die Sache, wenn festgestellt wird, dass Bedeutung nicht in den Wortern oder Satzen (allein) steckt, sondern sich aus Sprachwissen, Voreinstellungen, Intentionen, Kontextbedingungen, kommunikativen Handlungszusammenhangen usw. im jeweiligen konkreten Text konstituiert. Zum anderen sind aber eben diese Faktoren einer pragmatisch und semantisch orientierten Linguistik dem Wissenschaftler nicht unmittelbar zuganglich, sondern konnen nur indirekt uber den Text ermittelt werden. Eine zentrale Frage einer eingangs postulierten Sprachbetrachtung ist daher: Mit welchen Methoden – die uber den Rahmen einer rein deskriptiven Sprachbetrachtung hinausgehen – konnen wir uns einem Text nahern, um Kenntnisse hinsichtlich seiner semantischen Struktur zu erhalten? Basierend auf der Methode der Denotativen Textanalyse – wo diskurssemantische Einheiten – sogenannte Hrebs – als sprachliche Einheiten etabliert wurden – soll im Folgenden zunachst exemplarisch gezeigt werden, wie Referenzbeziehungen in Texten auf denotativer Grundlage ermittelt werden konnen. In einem zweiten Schritt wird vorgefuhrt, wie sich auf der Grundlage der denotativen Einheiten schlieslich eine assoziative Struktur von Texten ermittelten lasst, die allen Anspruchen an Operationalisierbarkeit und Validitat genugt und damit auch fur umfangreiche korpusbasierte Untersuchungen sowie fur kontrastive Analysen geeignet scheint. Es wird ein Modell der linguistischen Textstrukturanalyse dargestellt – in Anbetracht des zur Verfugung stehenden Rahmens naturlich nur sehr ausschnitthaft – dessen Erkenntnisinteresse nicht mehr ontologisch, sondern vorwiegend methodologisch orientiert ist und das versucht, Ordnungsmuster in Texten zu ermitteln, von denen anzunehmen ist, dass sie sich in einem kognitiven Differenzierungswissen der Sprachbenutzer manifestieren. Begriffe stellen nicht die Realitat dar, sondern unsere Konstruktion der Realitat.

如果要认识到语言科学在发展中除了询问和描述抽象语言表达单位之外还能做出更大的贡献，那么它就会被迫跑到剧烈的语义语言阅读领域。是如此的话,我们可以看到两种基本困难gegenuber:复杂问题时指出,意义不塞进了秘方或Satzen(一个人),而是由Sprachwissen认识,默认的意图,Kontextbedingungen Handlungszusammenhangen等具体文本里西.但是另一方面，实用和语义导向语言学中的这些因素并不是科学家直接可识别的，而是可以通过文本间接确定的。因此，文章开头的一个中心问题是:除了纯描述描述框架之外，我们可以用什么方法分析一篇文章，以继续了解其语义结构?基于言语分析方法——即言语单元被建立为语言单位，即“莱克布”(Hrebs)——在下一段文字中将揭示参考关系如何在denota基础上识别。第一步是建立以意识形态为基础的书面对立面结构，通常涉及所有旨在雷求的福利津贴和居民行为的合法性，从而通常适用于大规模的珊瑚色调查和对比分析。绩效模式语言Textstrukturanalyse表示,鉴于当然权利利用框架的只有十分ausschnitthaft——Erkenntnisinteresse ontologisch;却一直主要methodologisch的方法和试图在经文Ordnungsmuster接受调查,其中显示在海尔认知Differenzierungswissen Sprachbenutzer表现."这些概念并不是现实"而是我们为现实所构建的框架

{"title":"Referenzstrukturen. Zur Quantifizierung der Koinzidenz semantischer Einheiten in Texten","authors":"A. Ziegler","doi":"10.21248/jlcl.18.2003.43","DOIUrl":"https://doi.org/10.21248/jlcl.18.2003.43","url":null,"abstract":"Verfolgt man die Idee, dass Sprachwissenschaft mehr zu leisten hat, als nach abstrakten Eigenschaften sprachlicher Ausdruckseinheiten zu fragen und diese zu beschreiben, gelangt man zwangslaufig in die turbulenten Bereiche semantischer Sprachbetrachtung. Ist dies der Fall, sieht man sich zwei fundamentalen Schwierigkeiten gegenuber: Zum einen verkompliziert sich die Sache, wenn festgestellt wird, dass Bedeutung nicht in den Wortern oder Satzen (allein) steckt, sondern sich aus Sprachwissen, Voreinstellungen, Intentionen, Kontextbedingungen, kommunikativen Handlungszusammenhangen usw. im jeweiligen konkreten Text konstituiert. Zum anderen sind aber eben diese Faktoren einer pragmatisch und semantisch orientierten Linguistik dem Wissenschaftler nicht unmittelbar zuganglich, sondern konnen nur indirekt uber den Text ermittelt werden. Eine zentrale Frage einer eingangs postulierten Sprachbetrachtung ist daher: Mit welchen Methoden – die uber den Rahmen einer rein deskriptiven Sprachbetrachtung hinausgehen – konnen wir uns einem Text nahern, um Kenntnisse hinsichtlich seiner semantischen Struktur zu erhalten? Basierend auf der Methode der Denotativen Textanalyse – wo diskurssemantische Einheiten – sogenannte Hrebs – als sprachliche Einheiten etabliert wurden – soll im Folgenden zunachst exemplarisch gezeigt werden, wie Referenzbeziehungen in Texten auf denotativer Grundlage ermittelt werden konnen. In einem zweiten Schritt wird vorgefuhrt, wie sich auf der Grundlage der denotativen Einheiten schlieslich eine assoziative Struktur von Texten ermittelten lasst, die allen Anspruchen an Operationalisierbarkeit und Validitat genugt und damit auch fur umfangreiche korpusbasierte Untersuchungen sowie fur kontrastive Analysen geeignet scheint. Es wird ein Modell der linguistischen Textstrukturanalyse dargestellt – in Anbetracht des zur Verfugung stehenden Rahmens naturlich nur sehr ausschnitthaft – dessen Erkenntnisinteresse nicht mehr ontologisch, sondern vorwiegend methodologisch orientiert ist und das versucht, Ordnungsmuster in Texten zu ermitteln, von denen anzunehmen ist, dass sie sich in einem kognitiven Differenzierungswissen der Sprachbenutzer manifestieren. Begriffe stellen nicht die Realitat dar, sondern unsere Konstruktion der Realitat.","PeriodicalId":346957,"journal":{"name":"LDV Forum","volume":"126 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2003-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"127397883","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 0