Manual de anotação como recurso de Processamento de Linguagem Natural

Dominios de Lingugem Pub Date : 2022-09-12 DOI:10.14393/dl52-v16n4a2022-13

M. Duran, M. Nunes, Lucelene Lopes, T. Pardo

{"title":"Manual de anotação como recurso de Processamento de Linguagem Natural","authors":"M. Duran, M. Nunes, Lucelene Lopes, T. Pardo","doi":"10.14393/dl52-v16n4a2022-13","DOIUrl":null,"url":null,"abstract":"Com o avanço da área de Processamento de Linguagem Natural (PLN), corpora são recursos que têm tido um lugar de destaque. Mais do que subsidiar estudos linguísticos, eles constituem as bases para o treinamento de modelos de Aprendizagem de Máquina e para o desenvolvimento de aplicações computacionais de ponta. Particularmente, há grande necessidade de corpora anotados, porém sua geração requer outro recurso essencial, o manual de anotação, que instancia o modelo de anotação de interesse para a língua em questão e delineia as decisões de anotação que devem ser adotadas. Neste artigo, exploramos questões relacionadas ao desenvolvimento de manuais para a anotação de corpus em português brasileiro segundo o modelo internacional Universal Dependencies, amplamente adotado na área. Partimos da discussão da evolução do PLN e o uso de corpora, passamos pelas questões, recursos e ferramentas fundamentais relacionados à representação sintática, discutimos o modelo Universal Dependencies e apresentamos as principais decisões tomadas na instanciação de suas diretrizes no português brasileiro. Por questões práticas e de didática, dividimos o manual em duas partes: o Manual de Anotação de PoS tags (anotação morfossintática) e o Manual de Anotação Relações de Dependência. Ambos foram resultado do processo relatado neste artigo e estão disponíveis para livre acesso no site do projeto POeTiSA na Web.","PeriodicalId":53262,"journal":{"name":"Dominios de Lingugem","volume":" ","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2022-09-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"1","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Dominios de Lingugem","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.14393/dl52-v16n4a2022-13","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}

引用次数: 1

Abstract

Com o avanço da área de Processamento de Linguagem Natural (PLN), corpora são recursos que têm tido um lugar de destaque. Mais do que subsidiar estudos linguísticos, eles constituem as bases para o treinamento de modelos de Aprendizagem de Máquina e para o desenvolvimento de aplicações computacionais de ponta. Particularmente, há grande necessidade de corpora anotados, porém sua geração requer outro recurso essencial, o manual de anotação, que instancia o modelo de anotação de interesse para a língua em questão e delineia as decisões de anotação que devem ser adotadas. Neste artigo, exploramos questões relacionadas ao desenvolvimento de manuais para a anotação de corpus em português brasileiro segundo o modelo internacional Universal Dependencies, amplamente adotado na área. Partimos da discussão da evolução do PLN e o uso de corpora, passamos pelas questões, recursos e ferramentas fundamentais relacionados à representação sintática, discutimos o modelo Universal Dependencies e apresentamos as principais decisões tomadas na instanciação de suas diretrizes no português brasileiro. Por questões práticas e de didática, dividimos o manual em duas partes: o Manual de Anotação de PoS tags (anotação morfossintática) e o Manual de Anotação Relações de Dependência. Ambos foram resultado do processo relatado neste artigo e estão disponíveis para livre acesso no site do projeto POeTiSA na Web.

查看原文

微信好友朋友圈 QQ好友复制链接

本刊更多论文

手动注释作为自然语言处理资源

随着自然语言处理（NLP）领域的发展，语料库是一种占有突出地位的资源。它们不仅仅是对语言研究的补贴，也是训练机器学习模型和开发尖端计算应用的基础。特别是，对注释语料库的需求很大，但它的生成需要另一种重要资源，即注释手册，该手册实例化了所讨论语言的感兴趣的注释模型，并概述了必须采用的注释决策。在这篇文章中，我们探讨了根据该领域广泛采用的国际模式通用依赖性开发巴西葡萄牙语语料库注释手册的相关问题。从NLP的演变和语料库的使用开始，我们讨论了与句法表示相关的问题、资源和基本工具，讨论了通用依赖关系模型，并介绍了在巴西葡萄牙语中实例化其指导方针时做出的主要决定。出于实践和教学的原因，我们将手册分为两部分：PoS标签注释手册（形态句法注释）和依赖关系注释手册。两者都是本文中报告的过程的结果，可以在POeTiSA项目网站上免费访问。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文去求助

来源期刊