{"title":"骨科语言学,科学基础与科学探询方法","authors":"R. Köhler","doi":"10.21248/jlcl.20.2005.72","DOIUrl":null,"url":null,"abstract":"Im Zusammenhang mit den folgenden Überlegungen steht der Terminus Korpuslinguistik für die Gesamtheit aller Tätigkeiten, die darauf gerichtet sind, (1) umfangreiches authentisches Sprachoder Textmaterial (gesprochen oder geschrieben) zu sammeln, zusammen zu stellen, aufzubereiten, mit Informationen zu annotieren, zu verwalten und zu warten sowie verfügbar zu machen, (2) solches Material für wissenschaftliche oder technische Zwecke oder andere Anwendungen systematisch auszuwerten. Das oft konstatierte, wachsende Interesse an Korpus-basierten Ansätzen hat verschiedene Gründe. Zunächst waren Vorbedingungen für die zunehmende Erstellung bzw. Verwendung von großen maschinenoperablen Textkorpora Fortschritte in der Hardund Softwaretechnik sowie leistungsstarke Verfahren der Sprachtechnologie. Die heutige Hardware-, Softwareund Netzwerktechnik erleichtern Digitalisierung, elektronische Produktion, Speicherung und Verbreitung von großen Textmengen und sichern somit die Verfügbarkeit von Sprachkorpora. Sprachtechische Verfahren ermöglichen die Indizierung, (teil-)automatische linguistische Annotation sowie effektive Zugriffsund Abfragesysteme. Mit der Verfügbarkeit großer und größter Materialsammlungen wurde die früher übliche intellektuelle Inspektion von Texten nach und nach durch die Verwendung statistischer Verfahren abgelöst. Der Durchbruch für die quantitativ-empirischen Ansätze in der maschinellen Sprachverarbeitung kam u. a. mit den Erfolgen der Hidden-MarkovModelle in Systemen zur Verarbeitung gesprochener Sprache. Doch auch in anderen Bereichen der Sprachtechnik konnten bereits bald viel versprechende Ergebnisse durch den Einsatz statistischer Verfahren erzielt werden. Heute gibt es kaum ein Anwendungsfeld der Computerlinguistik, in dem statistische Methoden nicht – in Kombination mit der oder als Alternative zur diskret-symbolischen Verarbeitung – eine wichtige Rolle spielen. Wissenschaftstheoretisch betrachtet sind große Mengen von Sprachdaten und ihre statistische Auswertung unverzichtbar für das Überprüfen von Hypothesen, da sprachliche und textuelle Erscheinungen nur in Ausnahmefällen ausreichend mit Hilfe rein formaler Ansätze erfasst werden können. Neben den wissenschaftstheoretischen Einsichten hat dies besonders das praktische Scheitern computerlinguistischer Ansätze, die allein auf formalen Grammatiken u. ä. beruhen, zu genüge gezeigt. Vagheit, Unschärfe, Indeterminiertheit, Variabilität, Dynamik etc. sind Charakteristika der Sprache, die nur durch quantitative Begriffe und Modelle adäquat abgedeckt werden können. Dazu kommt die in vielen Fällen prinzipiell bestehende Unmöglichkeit, den jeweiligen Untersuchungsge-","PeriodicalId":346957,"journal":{"name":"LDV Forum","volume":null,"pages":null},"PeriodicalIF":0.0000,"publicationDate":"2005-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"5","resultStr":"{\"title\":\"Korpuslinguistik - zu wissenschaftstheoretischer Grundlagen und methodologischen Perspektiven\",\"authors\":\"R. Köhler\",\"doi\":\"10.21248/jlcl.20.2005.72\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Im Zusammenhang mit den folgenden Überlegungen steht der Terminus Korpuslinguistik für die Gesamtheit aller Tätigkeiten, die darauf gerichtet sind, (1) umfangreiches authentisches Sprachoder Textmaterial (gesprochen oder geschrieben) zu sammeln, zusammen zu stellen, aufzubereiten, mit Informationen zu annotieren, zu verwalten und zu warten sowie verfügbar zu machen, (2) solches Material für wissenschaftliche oder technische Zwecke oder andere Anwendungen systematisch auszuwerten. Das oft konstatierte, wachsende Interesse an Korpus-basierten Ansätzen hat verschiedene Gründe. Zunächst waren Vorbedingungen für die zunehmende Erstellung bzw. Verwendung von großen maschinenoperablen Textkorpora Fortschritte in der Hardund Softwaretechnik sowie leistungsstarke Verfahren der Sprachtechnologie. Die heutige Hardware-, Softwareund Netzwerktechnik erleichtern Digitalisierung, elektronische Produktion, Speicherung und Verbreitung von großen Textmengen und sichern somit die Verfügbarkeit von Sprachkorpora. Sprachtechische Verfahren ermöglichen die Indizierung, (teil-)automatische linguistische Annotation sowie effektive Zugriffsund Abfragesysteme. Mit der Verfügbarkeit großer und größter Materialsammlungen wurde die früher übliche intellektuelle Inspektion von Texten nach und nach durch die Verwendung statistischer Verfahren abgelöst. Der Durchbruch für die quantitativ-empirischen Ansätze in der maschinellen Sprachverarbeitung kam u. a. mit den Erfolgen der Hidden-MarkovModelle in Systemen zur Verarbeitung gesprochener Sprache. Doch auch in anderen Bereichen der Sprachtechnik konnten bereits bald viel versprechende Ergebnisse durch den Einsatz statistischer Verfahren erzielt werden. Heute gibt es kaum ein Anwendungsfeld der Computerlinguistik, in dem statistische Methoden nicht – in Kombination mit der oder als Alternative zur diskret-symbolischen Verarbeitung – eine wichtige Rolle spielen. Wissenschaftstheoretisch betrachtet sind große Mengen von Sprachdaten und ihre statistische Auswertung unverzichtbar für das Überprüfen von Hypothesen, da sprachliche und textuelle Erscheinungen nur in Ausnahmefällen ausreichend mit Hilfe rein formaler Ansätze erfasst werden können. Neben den wissenschaftstheoretischen Einsichten hat dies besonders das praktische Scheitern computerlinguistischer Ansätze, die allein auf formalen Grammatiken u. ä. beruhen, zu genüge gezeigt. Vagheit, Unschärfe, Indeterminiertheit, Variabilität, Dynamik etc. sind Charakteristika der Sprache, die nur durch quantitative Begriffe und Modelle adäquat abgedeckt werden können. Dazu kommt die in vielen Fällen prinzipiell bestehende Unmöglichkeit, den jeweiligen Untersuchungsge-\",\"PeriodicalId\":346957,\"journal\":{\"name\":\"LDV Forum\",\"volume\":null,\"pages\":null},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2005-07-01\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"5\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"LDV Forum\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.21248/jlcl.20.2005.72\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"LDV Forum","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.21248/jlcl.20.2005.72","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
Korpuslinguistik - zu wissenschaftstheoretischer Grundlagen und methodologischen Perspektiven
Im Zusammenhang mit den folgenden Überlegungen steht der Terminus Korpuslinguistik für die Gesamtheit aller Tätigkeiten, die darauf gerichtet sind, (1) umfangreiches authentisches Sprachoder Textmaterial (gesprochen oder geschrieben) zu sammeln, zusammen zu stellen, aufzubereiten, mit Informationen zu annotieren, zu verwalten und zu warten sowie verfügbar zu machen, (2) solches Material für wissenschaftliche oder technische Zwecke oder andere Anwendungen systematisch auszuwerten. Das oft konstatierte, wachsende Interesse an Korpus-basierten Ansätzen hat verschiedene Gründe. Zunächst waren Vorbedingungen für die zunehmende Erstellung bzw. Verwendung von großen maschinenoperablen Textkorpora Fortschritte in der Hardund Softwaretechnik sowie leistungsstarke Verfahren der Sprachtechnologie. Die heutige Hardware-, Softwareund Netzwerktechnik erleichtern Digitalisierung, elektronische Produktion, Speicherung und Verbreitung von großen Textmengen und sichern somit die Verfügbarkeit von Sprachkorpora. Sprachtechische Verfahren ermöglichen die Indizierung, (teil-)automatische linguistische Annotation sowie effektive Zugriffsund Abfragesysteme. Mit der Verfügbarkeit großer und größter Materialsammlungen wurde die früher übliche intellektuelle Inspektion von Texten nach und nach durch die Verwendung statistischer Verfahren abgelöst. Der Durchbruch für die quantitativ-empirischen Ansätze in der maschinellen Sprachverarbeitung kam u. a. mit den Erfolgen der Hidden-MarkovModelle in Systemen zur Verarbeitung gesprochener Sprache. Doch auch in anderen Bereichen der Sprachtechnik konnten bereits bald viel versprechende Ergebnisse durch den Einsatz statistischer Verfahren erzielt werden. Heute gibt es kaum ein Anwendungsfeld der Computerlinguistik, in dem statistische Methoden nicht – in Kombination mit der oder als Alternative zur diskret-symbolischen Verarbeitung – eine wichtige Rolle spielen. Wissenschaftstheoretisch betrachtet sind große Mengen von Sprachdaten und ihre statistische Auswertung unverzichtbar für das Überprüfen von Hypothesen, da sprachliche und textuelle Erscheinungen nur in Ausnahmefällen ausreichend mit Hilfe rein formaler Ansätze erfasst werden können. Neben den wissenschaftstheoretischen Einsichten hat dies besonders das praktische Scheitern computerlinguistischer Ansätze, die allein auf formalen Grammatiken u. ä. beruhen, zu genüge gezeigt. Vagheit, Unschärfe, Indeterminiertheit, Variabilität, Dynamik etc. sind Charakteristika der Sprache, die nur durch quantitative Begriffe und Modelle adäquat abgedeckt werden können. Dazu kommt die in vielen Fällen prinzipiell bestehende Unmöglichkeit, den jeweiligen Untersuchungsge-