Sujeito oculto às claras: uma abordagem descritivo-computacional / Omitted subjects revealed: a quantitative-descriptive approach

IF 0.2 0 LANGUAGE & LINGUISTICS Revista de Estudos da Linguagem Pub Date : 2021-03-19 DOI:10.17851/2237-2083.29.2.1033-1058
Cláudia Freitas, Elvis De Souza
{"title":"Sujeito oculto às claras: uma abordagem descritivo-computacional / Omitted subjects revealed: a quantitative-descriptive approach","authors":"Cláudia Freitas, Elvis De Souza","doi":"10.17851/2237-2083.29.2.1033-1058","DOIUrl":null,"url":null,"abstract":"Resumo: Neste trabalho, apresentamos estudos descritivos e computacionais relacionados ao sujeito oculto. Em um primeiro momento, realizamos uma descricao de cunho quantitativo, tomando por base tres corpora dos generos jornalistico, literario e enciclopedico. Especificamente, quantificamos o sujeito oculto em cada um dos corpora , e encontramos sujeitos omitidos em 24%, 41% e 46% das oracoes, respectivamente. Em um segundo momento, por meio de uma estrategia baseada em regras, reconstituimos esses sujeitos e os devolvemos aos corpora , com o objetivo de avaliar o quanto a omissao do sujeito e capaz de impactar o aprendizado automatico de dependencias sintaticas. Os resultados indicam que a reconstituicao formal do sujeito pode melhorar a aprendizagem das dependencias sintaticas em ate 2% quando consideramos a metrica CLAS, evidenciando o papel relevante da modelagem linguistica no aprendizado automatico. Palavras-chave: descricao linguistica; sujeito oculto; omissao de sujeito; dependencias sintaticas; linguistica computacional; aprendizado de maquina; linguistica de corpus . Abstract: In this paper, we present descriptive and computational studies related to omitted subjects. Firstly, we develop a quantitative descriptive study based on three corpora , which consist of journalistic, literary and encyclopedic genres. Specifically, we quantify the omitted subjects in sentences for each of these corpora; omitted subjects were found in 24%, 41% and 46% of their sentences, respectively. Secondly, applying rule-based strategies, we reconstitute those subjects and place them back to the corpora , with the goal of evaluating how much the omission of subjects can impact the automatic learning of syntactic dependencies. The results indicate that the formal subject reconstitution can enhance the learning of syntactic dependencies in up to 2% according to the CLAS metric, highlighting the relevant role of linguistic modeling in the automatic learning process. Keywords: linguistic description; omitted subject; syntactic dependencies; computational linguistics; machine learning; corpus linguistics.","PeriodicalId":42188,"journal":{"name":"Revista de Estudos da Linguagem","volume":"29 1","pages":"1033"},"PeriodicalIF":0.2000,"publicationDate":"2021-03-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"2","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Revista de Estudos da Linguagem","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.17851/2237-2083.29.2.1033-1058","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"0","JCRName":"LANGUAGE & LINGUISTICS","Score":null,"Total":0}
引用次数: 2

Abstract

Resumo: Neste trabalho, apresentamos estudos descritivos e computacionais relacionados ao sujeito oculto. Em um primeiro momento, realizamos uma descricao de cunho quantitativo, tomando por base tres corpora dos generos jornalistico, literario e enciclopedico. Especificamente, quantificamos o sujeito oculto em cada um dos corpora , e encontramos sujeitos omitidos em 24%, 41% e 46% das oracoes, respectivamente. Em um segundo momento, por meio de uma estrategia baseada em regras, reconstituimos esses sujeitos e os devolvemos aos corpora , com o objetivo de avaliar o quanto a omissao do sujeito e capaz de impactar o aprendizado automatico de dependencias sintaticas. Os resultados indicam que a reconstituicao formal do sujeito pode melhorar a aprendizagem das dependencias sintaticas em ate 2% quando consideramos a metrica CLAS, evidenciando o papel relevante da modelagem linguistica no aprendizado automatico. Palavras-chave: descricao linguistica; sujeito oculto; omissao de sujeito; dependencias sintaticas; linguistica computacional; aprendizado de maquina; linguistica de corpus . Abstract: In this paper, we present descriptive and computational studies related to omitted subjects. Firstly, we develop a quantitative descriptive study based on three corpora , which consist of journalistic, literary and encyclopedic genres. Specifically, we quantify the omitted subjects in sentences for each of these corpora; omitted subjects were found in 24%, 41% and 46% of their sentences, respectively. Secondly, applying rule-based strategies, we reconstitute those subjects and place them back to the corpora , with the goal of evaluating how much the omission of subjects can impact the automatic learning of syntactic dependencies. The results indicate that the formal subject reconstitution can enhance the learning of syntactic dependencies in up to 2% according to the CLAS metric, highlighting the relevant role of linguistic modeling in the automatic learning process. Keywords: linguistic description; omitted subject; syntactic dependencies; computational linguistics; machine learning; corpus linguistics.
查看原文
分享 分享
微信好友 朋友圈 QQ好友 复制链接
本刊更多论文
遗漏主题揭示:一种定量描述方法
摘要:在这项工作中,我们介绍了与隐藏主题相关的描述性和计算性研究。首先,我们基于慷慨的新闻、文学和百科全书三个语料库进行了定量描述。具体来说,我们量化了每个语料库中隐藏的主题,并分别在24%、41%和46%的祈祷中发现了省略的主题。在第二个时刻,通过基于规则的策略,我们重新构建了这些主题,并将它们返回到语料库中,以评估主题的省略在多大程度上能够影响句法依赖性的自动学习。结果表明,在考虑CLAS度量时,主体的形式重构可以将句法依赖性的学习提高2%,证明了语言建模在自动学习中的相关作用。关键词:语言描述;隐性主体;主体遗漏;句法依赖;计算语言学;机器学习;语言学语料库。摘要:在本文中,我们介绍了与省略主题相关的描述性和计算性研究。首先,我们基于三个语料库进行了定量描述性研究,这三个语料库包括新闻、文学和百科全书类型。具体来说,我们量化了每一个语料库的句子中省略的主题;省略主语的出现率分别为24%、41%和46%。其次,应用基于规则的策略,我们重构这些主题,并将它们放回语料库,目的是评估主题的省略对句法依赖的自动学习有多大影响。结果表明,根据CLAS度量,形式主语重构可以将句法依赖性的学习提高2%,突出了语言建模在自动学习过程中的相关作用。关键词:语言描述;省略主题;句法依赖;计算语言;机器学习;语料库语言学。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 去求助
来源期刊
Revista de Estudos da Linguagem
Revista de Estudos da Linguagem LANGUAGE & LINGUISTICS-
CiteScore
0.30
自引率
0.00%
发文量
55
审稿时长
52 weeks
期刊最新文献
The Necrobiopolitics of COVID-19 in Brazil: Transitivity Choices in Global Media Representations / A necrobiopolítica da COVID-19 no Brasil: escolhas de transitividade em representações midiáticas globais Emoções projetadas em carta de Michel Temer / Emotions projected in Michel Temer’s letter A toponímia de origem tupi na Região Geográfica Intermediária de Rio Verde (GO) / The toponymy of Tupi origin in the Intermediate Geographical Region of Rio Verde (GO) Sândi Vocálico Externo no Português Vernacular Santomense / External Vocalic Sandhi in Santomean Popular Portuguese Do sofrimento individual à luta coletiva: as narrativas de engajamento de mães em movimentos sociais / From Individual Suffering to Collective Struggle: Narratives of Engagement of Mothers in Social Movements
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
已复制链接
已复制链接
快去分享给好友吧!
我知道了
×
扫码分享
扫码分享
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1