Adaptação Lexical Automática em Textos Informativos do Português Brasileiro para o Ensino Fundamental

IF 0.3 Q4 LINGUISTICS Linguamatica Pub Date : 2020-01-01 DOI:10.21814/lm.12.2.323
Nathan Siegle Hartmann, Sandra M. Aluísio
{"title":"Adaptação Lexical Automática em Textos Informativos do Português Brasileiro para o Ensino Fundamental","authors":"Nathan Siegle Hartmann, Sandra M. Aluísio","doi":"10.21814/lm.12.2.323","DOIUrl":null,"url":null,"abstract":"A Adaptação Textual é uma grande área de pesquisa do Processamento de Línguas Naturais (PLN), bastante conhecida como prática educacional, e possui duas grandes abordagens: a Simplificação e a Elaboração Textual. Não há muitos trabalhos na literatura de PLN que tratam todas as fases da Adaptação Lexical para implementação de sistemas. Vários trabalhos tratam independentemente as tarefas de Simplificação e Elaboração Lexicais, trazendo contribuições parciais, já que cada uma das tarefas possuem seus próprios desafios. Este trabalho propôs um pipeline para a Adaptação Lexical e apresenta contribuições para três das quatro etapas do pipeline, sendo elas: (i) proposta e avaliação de métodos para a tarefa de Identificação de Palavras Complexas; (ii) análise de córpus para levantamento de padrões de Elaboração Lexical do tipo definição; (iii) disponibilização do córpus SIMPLEX-PB 3.0, contendo em sua nova versão definições curtas extraídas de dicionário que foram revisadas manualmente, anotações de termos técnicos extraídas de dicionário, e métricas linguísticas de complexidade lexical; e (iv) proposta e avaliação de métodos para Simplificação Lexical, estabelecendo um novo SOTA para a tarefa aplicada no Português Brasileiro.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"12 1","pages":"3-27"},"PeriodicalIF":0.3000,"publicationDate":"2020-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"7","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Linguamatica","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.21814/lm.12.2.323","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q4","JCRName":"LINGUISTICS","Score":null,"Total":0}
引用次数: 7

Abstract

A Adaptação Textual é uma grande área de pesquisa do Processamento de Línguas Naturais (PLN), bastante conhecida como prática educacional, e possui duas grandes abordagens: a Simplificação e a Elaboração Textual. Não há muitos trabalhos na literatura de PLN que tratam todas as fases da Adaptação Lexical para implementação de sistemas. Vários trabalhos tratam independentemente as tarefas de Simplificação e Elaboração Lexicais, trazendo contribuições parciais, já que cada uma das tarefas possuem seus próprios desafios. Este trabalho propôs um pipeline para a Adaptação Lexical e apresenta contribuições para três das quatro etapas do pipeline, sendo elas: (i) proposta e avaliação de métodos para a tarefa de Identificação de Palavras Complexas; (ii) análise de córpus para levantamento de padrões de Elaboração Lexical do tipo definição; (iii) disponibilização do córpus SIMPLEX-PB 3.0, contendo em sua nova versão definições curtas extraídas de dicionário que foram revisadas manualmente, anotações de termos técnicos extraídas de dicionário, e métricas linguísticas de complexidade lexical; e (iv) proposta e avaliação de métodos para Simplificação Lexical, estabelecendo um novo SOTA para a tarefa aplicada no Português Brasileiro.
查看原文
分享 分享
微信好友 朋友圈 QQ好友 复制链接
本刊更多论文
巴西葡萄牙语小学信息文本的自动词汇适应
文本适应是自然语言处理(nlp)的一个大研究领域,被称为教育实践,它有两种主要的方法:简化和文本阐述。在nlp文献中,关于系统实现的词汇适应的所有阶段的研究并不多。一些研究独立地处理简化和词汇阐述的任务,带来了部分贡献,因为每个任务都有自己的挑战。本文提出了一个词汇适应的管道,并对管道的四个步骤中的三个步骤作出了贡献:(1)提出和评价复杂词识别任务的方法;(2)对复杂词识别任务的方法进行评价;(3)对复杂词识别任务的方法进行评价(ii)语料库分析,以提高定义类型的词汇阐述模式;(iii) SIMPLEX-PB 3.0语料库的可用性,在其新版本中包含从字典中提取的人工修订的简短定义、从字典中提取的技术术语的注释和词汇复杂性的语言指标;(iv)提出和评价词汇简化的方法,为巴西葡萄牙语的任务建立一个新的SOTA。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 去求助
来源期刊
Linguamatica
Linguamatica LINGUISTICS-
CiteScore
1.40
自引率
0.00%
发文量
4
审稿时长
6 weeks
期刊最新文献
A compilação e a análise de métricas textuais de um corpus de redações Classificação da qualidade da argumentação em tweets no domínio da política brasileira Extracção de Relações de Apoio e Oposição em Títulos de Notícias de Política em Português Pais, filhos e outras relações familiares no DIP DIP - Desafio de Identificação de Personagens: objectivo, organização, recursos e resultados
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
已复制链接
已复制链接
快去分享给好友吧!
我知道了
×
扫码分享
扫码分享
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1