C. Bolly, Ludivine Crible, Liesbeth Degand, Deniz Uygur-Distexhe
{"title":"MDMA. Un modèle pour l’identification et l’annotation des marqueurs discursifs « potentiels » en contexte","authors":"C. Bolly, Ludivine Crible, Liesbeth Degand, Deniz Uygur-Distexhe","doi":"10.4000/DISCOURS.9009","DOIUrl":null,"url":null,"abstract":"Partant du constat qu’il n’existe pas de categorie fermee de marqueurs discursifs (MD) et que la definition de ces marqueurs varie fortement selon le cadre epistemologique adopte, l’objectif du projet MDMA (« Model for Discourse Marker Annotation ») est d’etablir une methode empirique d’identification et d’annotation des MD en francais oral. La methode vise tout d’abord a decrire les MD en faisceaux de variables et ensuite, d’un point de vue combinatoire, en patrons specifiques. Notre demarche comprend trois etapes : (i) reperage manuel de tous les MD dits « potentiels » dans un corpus equilibre en francais oral (5 000 mots ; Belgique et France) ; (ii) extraction automatique de toutes les formes qui correspondent aux MD potentiels identifies precedemment (1 181 occurrences) ; (iii) analyse parametrique d’un echantillon aleatoire de 200 MD potentiels en contexte (variables syntaxiques, formelles et semantico-pragmatiques). L’hypothese est que l’analyse statistique des contraintes distributionnelles imposees aux differents MD potentiels devrait reveler une certaine hierarchisation entre variables annotees, concernant leur pertinence, leur fiabilite et leur generalisabilite (voire leur specificite). Dans cet article, nous presenterons les principes d’annotation des MD, nous aborderons ensuite la problematique de l’accord inter-juges, pour finalement discuter de maniere plus approfondie les resultats de l’analyse sur corpus.","PeriodicalId":51977,"journal":{"name":"Discours-Revue de Linguistique Psycholinguistique et Informatique","volume":null,"pages":null},"PeriodicalIF":0.5000,"publicationDate":"2015-09-09","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"6","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Discours-Revue de Linguistique Psycholinguistique et Informatique","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.4000/DISCOURS.9009","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q3","JCRName":"LINGUISTICS","Score":null,"Total":0}
引用次数: 6
Abstract
Partant du constat qu’il n’existe pas de categorie fermee de marqueurs discursifs (MD) et que la definition de ces marqueurs varie fortement selon le cadre epistemologique adopte, l’objectif du projet MDMA (« Model for Discourse Marker Annotation ») est d’etablir une methode empirique d’identification et d’annotation des MD en francais oral. La methode vise tout d’abord a decrire les MD en faisceaux de variables et ensuite, d’un point de vue combinatoire, en patrons specifiques. Notre demarche comprend trois etapes : (i) reperage manuel de tous les MD dits « potentiels » dans un corpus equilibre en francais oral (5 000 mots ; Belgique et France) ; (ii) extraction automatique de toutes les formes qui correspondent aux MD potentiels identifies precedemment (1 181 occurrences) ; (iii) analyse parametrique d’un echantillon aleatoire de 200 MD potentiels en contexte (variables syntaxiques, formelles et semantico-pragmatiques). L’hypothese est que l’analyse statistique des contraintes distributionnelles imposees aux differents MD potentiels devrait reveler une certaine hierarchisation entre variables annotees, concernant leur pertinence, leur fiabilite et leur generalisabilite (voire leur specificite). Dans cet article, nous presenterons les principes d’annotation des MD, nous aborderons ensuite la problematique de l’accord inter-juges, pour finalement discuter de maniere plus approfondie les resultats de l’analyse sur corpus.