Einleitung: Perspektiven und Positionen des Text Mining

LDV Forum Pub Date : 2005-07-01 DOI:10.21248/jlcl.20.2005.67

Alexander Mehler, C. Wolff

{"title":"Einleitung: Perspektiven und Positionen des Text Mining","authors":"Alexander Mehler, C. Wolff","doi":"10.21248/jlcl.20.2005.67","DOIUrl":null,"url":null,"abstract":"Beiträge zum Thema Text Mining beginnen vielfach mit dem Hinweis auf die enorme Zunahme online verfügbarer Dokumente, ob nun im Internet oder in Intranets (Losiewicz et al. 2000; Merkl 2000; Feldman 2001; Mehler 2001; Joachims & Leopold 2002). Der hiermit einhergehenden „Informationsflut“ wird das Ungenügen des Information Retrieval (IR) bzw. seiner gängigen Verfahren der Informationsaufbereitung und Informationserschließung gegenübergestellt. Es wird bemängelt, dass sich das IR weitgehend darin erschöpft, Teilmengen von Textkollektionen auf Suchanfragen hin aufzufinden und in der Regel bloß listenförmig anzuordnen. Das auf diese Weise dargestellte Spannungsverhältnis von Informationsexplosion und Defiziten bestehender IR-Verfahren bildet den Hintergrund für die Entwicklung von Verfahren zur automatischen Verarbeitung textueller Einheiten, die sich stärker an den Anforderungen von Informationssuchenden orientieren. Anders ausgedrückt: Mit der Einführung der Neuen Medien wächst die Bedeutung digitalisierter Dokumente als Primärmedium für die Verarbeitung, Verbreitung und Verwaltung von Information in öffentlichen und betrieblichen Organisationen. Dabei steht wegen der Menge zu verarbeitender Einheiten die Alternative einer intellektuellen Dokumenterschließung nicht zur Verfügung. Andererseits wachsen die Anforderung an eine automatische Textanalyse, der das klassische IR nicht gerecht wird. Der Mehrzahl der hiervon betroffenen textuellen Einheiten fehlt die explizite Strukturiertheit formaler Datenstrukturen. Vielmehr weisen sie je nach Textbzw. Dokumenttyp ganz unterschiedliche Strukturierungsgrade auf. Dabei korreliert die Flexibilität der Organisationsziele negativ mit dem Grad an explizierter Strukturiertheit und positiv mit der Anzahl jener Texte und Texttypen (E-Mails, Memos, Expertisen, technische Dokumentationen etc.), die im Zuge ihrer Realisierung produziert bzw. rezipiert werden. Vor diesem Hintergrund entsteht ein Bedarf an Texttechnologien, die ihren Benutzern nicht nur „intelligente“ Schnittstellen zur Textrezeption anbieten, sondern zugleich auf inhaltsorientierte Text-","PeriodicalId":346957,"journal":{"name":"LDV Forum","volume":"74 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2005-07-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"15","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"LDV Forum","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.21248/jlcl.20.2005.67","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}

引用次数: 15

Abstract

Beiträge zum Thema Text Mining beginnen vielfach mit dem Hinweis auf die enorme Zunahme online verfügbarer Dokumente, ob nun im Internet oder in Intranets (Losiewicz et al. 2000; Merkl 2000; Feldman 2001; Mehler 2001; Joachims & Leopold 2002). Der hiermit einhergehenden „Informationsflut“ wird das Ungenügen des Information Retrieval (IR) bzw. seiner gängigen Verfahren der Informationsaufbereitung und Informationserschließung gegenübergestellt. Es wird bemängelt, dass sich das IR weitgehend darin erschöpft, Teilmengen von Textkollektionen auf Suchanfragen hin aufzufinden und in der Regel bloß listenförmig anzuordnen. Das auf diese Weise dargestellte Spannungsverhältnis von Informationsexplosion und Defiziten bestehender IR-Verfahren bildet den Hintergrund für die Entwicklung von Verfahren zur automatischen Verarbeitung textueller Einheiten, die sich stärker an den Anforderungen von Informationssuchenden orientieren. Anders ausgedrückt: Mit der Einführung der Neuen Medien wächst die Bedeutung digitalisierter Dokumente als Primärmedium für die Verarbeitung, Verbreitung und Verwaltung von Information in öffentlichen und betrieblichen Organisationen. Dabei steht wegen der Menge zu verarbeitender Einheiten die Alternative einer intellektuellen Dokumenterschließung nicht zur Verfügung. Andererseits wachsen die Anforderung an eine automatische Textanalyse, der das klassische IR nicht gerecht wird. Der Mehrzahl der hiervon betroffenen textuellen Einheiten fehlt die explizite Strukturiertheit formaler Datenstrukturen. Vielmehr weisen sie je nach Textbzw. Dokumenttyp ganz unterschiedliche Strukturierungsgrade auf. Dabei korreliert die Flexibilität der Organisationsziele negativ mit dem Grad an explizierter Strukturiertheit und positiv mit der Anzahl jener Texte und Texttypen (E-Mails, Memos, Expertisen, technische Dokumentationen etc.), die im Zuge ihrer Realisierung produziert bzw. rezipiert werden. Vor diesem Hintergrund entsteht ein Bedarf an Texttechnologien, die ihren Benutzern nicht nur „intelligente“ Schnittstellen zur Textrezeption anbieten, sondern zugleich auf inhaltsorientierte Text-

查看原文

微信好友朋友圈 QQ好友复制链接

本刊更多论文

引言:文章的观点和立场

文字运钞机的投入往往以指出可以在网上或联网使用的文件数量大幅增加为起点(Losiewicz等，2000)。Merkl 2000;费尔德曼2001;Mehler 2001;2002年)这就意味着信息“洪流”与信息来源不足以或其信息处理和信息开发的惯例程序相比。主要是对工业时代的人抱怨说，工业时代强迫人们在搜寻问题上找到部分文本，而且通常要求字体排名表。这个图所代表的信息爆炸和现有伊朗进程所产生的紧张关系，构成了一种背景，用于设计自动处理文本单位的技术，更符合查寻资料者的需要。换句话说，随着新媒体的采用，数字化文件作为处理、传播和管理公共和运营组织信息的主要媒介的重要性也得到提升。提供知识记录的人竟少之又少。另一方面，出现了这种要求自动文本分析的实际情况，这与传统的非插入式。大多数相关的文本单位缺乏建立形式数据结构。而是它取决于我的文字和显示出非常不同的组织层级。这是一个消极的关联，其组织目标的灵活性与书面和文字类型(电子邮件、备忘录、信息、技术文档等)在实现的过程中被复制和复制的次数是负相关的。在这样的背景下，我们对文本技术的需求是迫切的，它不仅提供“聪明”的文本理解方式，也同样需要以内容驱动的文本为主

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文去求助

来源期刊

LDV Forum

自引率

0.00%

发文量

期刊最新文献

Satzlänge: Definitionen, Häufigkeiten, Modelle (Am Beispiel slowenischer Prosatexte) A hybrid approach to resolve nominal anaphora Evaluating the Quality of Automatically Extracted Synonymy Information OWL ontologies as a resource for discourse parsing An ontology of linguistic annotations