MDMA. Un modèle pour l’identification et l’annotation des marqueurs discursifs « potentiels » en contexte

IF 0.7 Q3 LINGUISTICS Discours-Revue de Linguistique Psycholinguistique et Informatique Pub Date : 2015-09-09 DOI:10.4000/DISCOURS.9009

C. Bolly, Ludivine Crible, Liesbeth Degand, Deniz Uygur-Distexhe

{"title":"MDMA. Un modèle pour l’identification et l’annotation des marqueurs discursifs « potentiels » en contexte","authors":"C. Bolly, Ludivine Crible, Liesbeth Degand, Deniz Uygur-Distexhe","doi":"10.4000/DISCOURS.9009","DOIUrl":null,"url":null,"abstract":"Partant du constat qu’il n’existe pas de categorie fermee de marqueurs discursifs (MD) et que la definition de ces marqueurs varie fortement selon le cadre epistemologique adopte, l’objectif du projet MDMA (« Model for Discourse Marker Annotation ») est d’etablir une methode empirique d’identification et d’annotation des MD en francais oral. La methode vise tout d’abord a decrire les MD en faisceaux de variables et ensuite, d’un point de vue combinatoire, en patrons specifiques. Notre demarche comprend trois etapes : (i) reperage manuel de tous les MD dits « potentiels » dans un corpus equilibre en francais oral (5 000 mots ; Belgique et France) ; (ii) extraction automatique de toutes les formes qui correspondent aux MD potentiels identifies precedemment (1 181 occurrences) ; (iii) analyse parametrique d’un echantillon aleatoire de 200 MD potentiels en contexte (variables syntaxiques, formelles et semantico-pragmatiques). L’hypothese est que l’analyse statistique des contraintes distributionnelles imposees aux differents MD potentiels devrait reveler une certaine hierarchisation entre variables annotees, concernant leur pertinence, leur fiabilite et leur generalisabilite (voire leur specificite). Dans cet article, nous presenterons les principes d’annotation des MD, nous aborderons ensuite la problematique de l’accord inter-juges, pour finalement discuter de maniere plus approfondie les resultats de l’analyse sur corpus.","PeriodicalId":51977,"journal":{"name":"Discours-Revue de Linguistique Psycholinguistique et Informatique","volume":"14 1","pages":""},"PeriodicalIF":0.7000,"publicationDate":"2015-09-09","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"6","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Discours-Revue de Linguistique Psycholinguistique et Informatique","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.4000/DISCOURS.9009","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q3","JCRName":"LINGUISTICS","Score":null,"Total":0}

引用次数: 6

Abstract

Partant du constat qu’il n’existe pas de categorie fermee de marqueurs discursifs (MD) et que la definition de ces marqueurs varie fortement selon le cadre epistemologique adopte, l’objectif du projet MDMA (« Model for Discourse Marker Annotation ») est d’etablir une methode empirique d’identification et d’annotation des MD en francais oral. La methode vise tout d’abord a decrire les MD en faisceaux de variables et ensuite, d’un point de vue combinatoire, en patrons specifiques. Notre demarche comprend trois etapes : (i) reperage manuel de tous les MD dits « potentiels » dans un corpus equilibre en francais oral (5 000 mots ; Belgique et France) ; (ii) extraction automatique de toutes les formes qui correspondent aux MD potentiels identifies precedemment (1 181 occurrences) ; (iii) analyse parametrique d’un echantillon aleatoire de 200 MD potentiels en contexte (variables syntaxiques, formelles et semantico-pragmatiques). L’hypothese est que l’analyse statistique des contraintes distributionnelles imposees aux differents MD potentiels devrait reveler une certaine hierarchisation entre variables annotees, concernant leur pertinence, leur fiabilite et leur generalisabilite (voire leur specificite). Dans cet article, nous presenterons les principes d’annotation des MD, nous aborderons ensuite la problematique de l’accord inter-juges, pour finalement discuter de maniere plus approfondie les resultats de l’analyse sur corpus.

查看原文

微信好友朋友圈 QQ好友复制链接

本刊更多论文

MDMA。在语境中识别和注释“潜在”话语标记的模型

认知出发,尚无fermee类话语标记(MD),并定义这些标志物epistemologique框架而异,通过该项目的MDMA(«Model for马克最终讨论加注»)是妨碍一切实证方法的识别和加注MD法语口语。该方法的目的首先是将MD描述为一组变量，然后从组合的角度描述为特定的模式。我们的方法包括三个步骤:(i)在一个平衡的法语口语语料库(5000个单词;比利时和法国);(ii)自动提取与上述识别的潜在MD相对应的所有表格(1181次);(iii)对200个潜在MD随机样本进行参数分析(句法、形式和语义-语用变量)。假设是，对不同潜在MD的分布约束的统计分析应该揭示注释变量之间关于它们的相关性、可靠性和通用性(甚至它们的特殊性)的某种层次结构。在本文中，我们将介绍dm注释的原则，然后讨论法官间协议的问题，最后更深入地讨论语料库分析的结果。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文去求助

来源期刊

Discours-Revue de Linguistique Psycholinguistique et Informatique LINGUISTICS-

自引率

0.00%

发文量

审稿时长

12 weeks