Manual de anotação como recurso de Processamento de Linguagem Natural

M. Duran, M. Nunes, Lucelene Lopes, T. Pardo
{"title":"Manual de anotação como recurso de Processamento de Linguagem Natural","authors":"M. Duran, M. Nunes, Lucelene Lopes, T. Pardo","doi":"10.14393/dl52-v16n4a2022-13","DOIUrl":null,"url":null,"abstract":"Com o avanço da área de Processamento de Linguagem Natural (PLN), corpora são recursos que têm tido um lugar de destaque. Mais do que subsidiar estudos linguísticos, eles constituem as bases para o treinamento de modelos de Aprendizagem de Máquina e para o desenvolvimento de aplicações computacionais de ponta. Particularmente, há grande necessidade de corpora anotados, porém sua geração requer outro recurso essencial, o manual de anotação, que instancia o modelo de anotação de interesse para a língua em questão e delineia as decisões de anotação que devem ser adotadas. Neste artigo, exploramos questões relacionadas ao desenvolvimento de manuais para a anotação de corpus em português brasileiro segundo o modelo internacional Universal Dependencies, amplamente adotado na área. Partimos da discussão da evolução do PLN e o uso de corpora, passamos pelas questões, recursos e ferramentas fundamentais relacionados à representação sintática, discutimos o modelo Universal Dependencies e apresentamos as principais decisões tomadas na instanciação de suas diretrizes no português brasileiro. Por questões práticas e de didática, dividimos o manual em duas partes: o Manual de Anotação de PoS tags (anotação morfossintática) e o Manual de Anotação Relações de Dependência. Ambos foram resultado do processo relatado neste artigo e estão disponíveis para livre acesso no site do projeto POeTiSA na Web.","PeriodicalId":53262,"journal":{"name":"Dominios de Lingugem","volume":" ","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2022-09-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"1","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Dominios de Lingugem","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.14393/dl52-v16n4a2022-13","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 1

Abstract

Com o avanço da área de Processamento de Linguagem Natural (PLN), corpora são recursos que têm tido um lugar de destaque. Mais do que subsidiar estudos linguísticos, eles constituem as bases para o treinamento de modelos de Aprendizagem de Máquina e para o desenvolvimento de aplicações computacionais de ponta. Particularmente, há grande necessidade de corpora anotados, porém sua geração requer outro recurso essencial, o manual de anotação, que instancia o modelo de anotação de interesse para a língua em questão e delineia as decisões de anotação que devem ser adotadas. Neste artigo, exploramos questões relacionadas ao desenvolvimento de manuais para a anotação de corpus em português brasileiro segundo o modelo internacional Universal Dependencies, amplamente adotado na área. Partimos da discussão da evolução do PLN e o uso de corpora, passamos pelas questões, recursos e ferramentas fundamentais relacionados à representação sintática, discutimos o modelo Universal Dependencies e apresentamos as principais decisões tomadas na instanciação de suas diretrizes no português brasileiro. Por questões práticas e de didática, dividimos o manual em duas partes: o Manual de Anotação de PoS tags (anotação morfossintática) e o Manual de Anotação Relações de Dependência. Ambos foram resultado do processo relatado neste artigo e estão disponíveis para livre acesso no site do projeto POeTiSA na Web.
查看原文
分享 分享
微信好友 朋友圈 QQ好友 复制链接
本刊更多论文
手动注释作为自然语言处理资源
随着自然语言处理(NLP)领域的发展,语料库是一种占有突出地位的资源。它们不仅仅是对语言研究的补贴,也是训练机器学习模型和开发尖端计算应用的基础。特别是,对注释语料库的需求很大,但它的生成需要另一种重要资源,即注释手册,该手册实例化了所讨论语言的感兴趣的注释模型,并概述了必须采用的注释决策。在这篇文章中,我们探讨了根据该领域广泛采用的国际模式通用依赖性开发巴西葡萄牙语语料库注释手册的相关问题。从NLP的演变和语料库的使用开始,我们讨论了与句法表示相关的问题、资源和基本工具,讨论了通用依赖关系模型,并介绍了在巴西葡萄牙语中实例化其指导方针时做出的主要决定。出于实践和教学的原因,我们将手册分为两部分:PoS标签注释手册(形态句法注释)和依赖关系注释手册。两者都是本文中报告的过程的结果,可以在POeTiSA项目网站上免费访问。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 去求助
来源期刊
自引率
0.00%
发文量
49
审稿时长
18 weeks
期刊最新文献
Pode uma língua pluricêntrica ser unificada? “Menos direitos e mais emprego” Ensino de Língua Portuguesa baseado em Competências versus a Formação Social do Indivíduo O uso da plataforma Pixton para a produção escrita colaborativa em língua inglesa A ordem importa
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
已复制链接
已复制链接
快去分享给好友吧!
我知道了
×
扫码分享
扫码分享
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1