MDMA. Un modèle pour l’identification et l’annotation des marqueurs discursifs « potentiels » en contexte

C. Bolly, Ludivine Crible, Liesbeth Degand, Deniz Uygur-Distexhe
{"title":"MDMA. Un modèle pour l’identification et l’annotation des marqueurs discursifs « potentiels » en contexte","authors":"C. Bolly, Ludivine Crible, Liesbeth Degand, Deniz Uygur-Distexhe","doi":"10.4000/DISCOURS.9009","DOIUrl":null,"url":null,"abstract":"Partant du constat qu’il n’existe pas de categorie fermee de marqueurs discursifs (MD) et que la definition de ces marqueurs varie fortement selon le cadre epistemologique adopte, l’objectif du projet MDMA (« Model for Discourse Marker Annotation ») est d’etablir une methode empirique d’identification et d’annotation des MD en francais oral. La methode vise tout d’abord a decrire les MD en faisceaux de variables et ensuite, d’un point de vue combinatoire, en patrons specifiques. Notre demarche comprend trois etapes : (i) reperage manuel de tous les MD dits « potentiels » dans un corpus equilibre en francais oral (5 000 mots ; Belgique et France) ; (ii) extraction automatique de toutes les formes qui correspondent aux MD potentiels identifies precedemment (1 181 occurrences) ; (iii) analyse parametrique d’un echantillon aleatoire de 200 MD potentiels en contexte (variables syntaxiques, formelles et semantico-pragmatiques). L’hypothese est que l’analyse statistique des contraintes distributionnelles imposees aux differents MD potentiels devrait reveler une certaine hierarchisation entre variables annotees, concernant leur pertinence, leur fiabilite et leur generalisabilite (voire leur specificite). Dans cet article, nous presenterons les principes d’annotation des MD, nous aborderons ensuite la problematique de l’accord inter-juges, pour finalement discuter de maniere plus approfondie les resultats de l’analyse sur corpus.","PeriodicalId":51977,"journal":{"name":"Discours-Revue de Linguistique Psycholinguistique et Informatique","volume":null,"pages":null},"PeriodicalIF":0.5000,"publicationDate":"2015-09-09","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"6","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Discours-Revue de Linguistique Psycholinguistique et Informatique","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.4000/DISCOURS.9009","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q3","JCRName":"LINGUISTICS","Score":null,"Total":0}
引用次数: 6

Abstract

Partant du constat qu’il n’existe pas de categorie fermee de marqueurs discursifs (MD) et que la definition de ces marqueurs varie fortement selon le cadre epistemologique adopte, l’objectif du projet MDMA (« Model for Discourse Marker Annotation ») est d’etablir une methode empirique d’identification et d’annotation des MD en francais oral. La methode vise tout d’abord a decrire les MD en faisceaux de variables et ensuite, d’un point de vue combinatoire, en patrons specifiques. Notre demarche comprend trois etapes : (i) reperage manuel de tous les MD dits « potentiels » dans un corpus equilibre en francais oral (5 000 mots ; Belgique et France) ; (ii) extraction automatique de toutes les formes qui correspondent aux MD potentiels identifies precedemment (1 181 occurrences) ; (iii) analyse parametrique d’un echantillon aleatoire de 200 MD potentiels en contexte (variables syntaxiques, formelles et semantico-pragmatiques). L’hypothese est que l’analyse statistique des contraintes distributionnelles imposees aux differents MD potentiels devrait reveler une certaine hierarchisation entre variables annotees, concernant leur pertinence, leur fiabilite et leur generalisabilite (voire leur specificite). Dans cet article, nous presenterons les principes d’annotation des MD, nous aborderons ensuite la problematique de l’accord inter-juges, pour finalement discuter de maniere plus approfondie les resultats de l’analyse sur corpus.
查看原文
分享 分享
微信好友 朋友圈 QQ好友 复制链接
本刊更多论文
MDMA。在语境中识别和注释“潜在”话语标记的模型
认知出发,尚无fermee类话语标记(MD),并定义这些标志物epistemologique框架而异,通过该项目的MDMA(«Model for马克最终讨论加注»)是妨碍一切实证方法的识别和加注MD法语口语。该方法的目的首先是将MD描述为一组变量,然后从组合的角度描述为特定的模式。我们的方法包括三个步骤:(i)在一个平衡的法语口语语料库(5000个单词;比利时和法国);(ii)自动提取与上述识别的潜在MD相对应的所有表格(1181次);(iii)对200个潜在MD随机样本进行参数分析(句法、形式和语义-语用变量)。假设是,对不同潜在MD的分布约束的统计分析应该揭示注释变量之间关于它们的相关性、可靠性和通用性(甚至它们的特殊性)的某种层次结构。在本文中,我们将介绍dm注释的原则,然后讨论法官间协议的问题,最后更深入地讨论语料库分析的结果。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 去求助
来源期刊
自引率
0.00%
发文量
11
审稿时长
12 weeks
期刊最新文献
Référence multimodale dans les narrations d’enfants : les gestes servent-ils à clarifier les expressions référentielles ambiguës ? Subject Clitics and the Dynamics of Writing: A Perspective Based on Bursts « Be proud, and loud » : marqueurs de fierté dans les discours oraux de drag queens Ancrage spatial d’un nouveau référent dans le récit en français et en chinois : perspective informationnelle et organisation discursive Anaphoric Distance in Oral and Written Language: Experimental Evidence
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
已复制链接
已复制链接
快去分享给好友吧!
我知道了
×
扫码分享
扫码分享
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1