Periodização automática Estudos linguistíco-estatísticos de literatura lusófona

IF 0.3 Q4 LINGUISTICS Linguamatica Pub Date : 2020-06-29 DOI:10.21814/lm.12.1.314
Diana Santos, E. Pires, Cláudia Freitas, Rebeca Schumacher Fuão, J. A. Lopes
{"title":"Periodização automática Estudos linguistíco-estatísticos de literatura lusófona","authors":"Diana Santos, E. Pires, Cláudia Freitas, Rebeca Schumacher Fuão, J. A. Lopes","doi":"10.21814/lm.12.1.314","DOIUrl":null,"url":null,"abstract":"EnglishIn this paper we use a set of syntactic and semantic features of Portuguese to automatically classify literary works in literary periods and/or schools, and address the issue of their appropriateness, for two different literary collections. The first task attempts to replicate the work by Barufaldi and colleagues, who applied compression methods on 37 Brazilian works by 15 different authors and classified the works in 4 different literary schools. The second collection, of 192 novels published in Portugal and Brazil in the period 1840 to 1919, features many works who cannot be singly accomodated in one literary school only, and which have been (not mutually exclusively) classified as romantic, realist, naturalist, symbolist, decadent and modernist. We use classification techniques in R, such as discriminant analysis and support vector models for the first task, and correspondence analysis for the second collection. We also apply topic modeling to (distinct subsets of) the second collection in order to investigate whether this technique can provide us with recurrent topics for different literary schools. portuguesNeste artigo usamos um conjunto de caracteristicas sintatico-semânticas da lingua portuguesa para classificar em periodos literarios dois conjuntos de obras. Em que medida tais caracteristicas sao capazes de refletir distincoes relevantes no âmbito dos estudos literarios e uma das questoes que pretendemos investigar. O primeiro grupo de obras corresponde a replicacao do trabalho relatado em 2009 por Barufaldi et al., que usaram metodos de compressao de dados sobre uma serie de obras brasileiras classificadas em quatro periodos literarios: barroco, arcadismo, romantismo e realismo, desde o Padre Antonio Vieira ate Raul Pompeia, contabilizando 15 autores diferentes e totalizando 37 obras. O segundo grupo inclui muito mais obras (192), tanto portuguesas como brasileiras, mas apenas integra romances ou novelas publicadas no periodo de 1840 a 1919. As escolas literarias escolhidas foram o realismo, o romantismo, o simbolismo, o naturalismo, o decadentismo e o modernismo, mas, ao contrario da classificacao anterior, permitimos que uma mesma obra pertenca a varias escolas. Usamos tecnicas de classificacao em R para a primeira tarefa, e analise de correspondencias para a segunda. Tambem aplicamos tecnicas de modelos de topicos a segunda colecao para ver se e possivel obter topicos representativos de escolas literarias diferentes.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"12 1","pages":"81-95"},"PeriodicalIF":0.3000,"publicationDate":"2020-06-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"4","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Linguamatica","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.21814/lm.12.1.314","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q4","JCRName":"LINGUISTICS","Score":null,"Total":0}
引用次数: 4

Abstract

EnglishIn this paper we use a set of syntactic and semantic features of Portuguese to automatically classify literary works in literary periods and/or schools, and address the issue of their appropriateness, for two different literary collections. The first task attempts to replicate the work by Barufaldi and colleagues, who applied compression methods on 37 Brazilian works by 15 different authors and classified the works in 4 different literary schools. The second collection, of 192 novels published in Portugal and Brazil in the period 1840 to 1919, features many works who cannot be singly accomodated in one literary school only, and which have been (not mutually exclusively) classified as romantic, realist, naturalist, symbolist, decadent and modernist. We use classification techniques in R, such as discriminant analysis and support vector models for the first task, and correspondence analysis for the second collection. We also apply topic modeling to (distinct subsets of) the second collection in order to investigate whether this technique can provide us with recurrent topics for different literary schools. portuguesNeste artigo usamos um conjunto de caracteristicas sintatico-semânticas da lingua portuguesa para classificar em periodos literarios dois conjuntos de obras. Em que medida tais caracteristicas sao capazes de refletir distincoes relevantes no âmbito dos estudos literarios e uma das questoes que pretendemos investigar. O primeiro grupo de obras corresponde a replicacao do trabalho relatado em 2009 por Barufaldi et al., que usaram metodos de compressao de dados sobre uma serie de obras brasileiras classificadas em quatro periodos literarios: barroco, arcadismo, romantismo e realismo, desde o Padre Antonio Vieira ate Raul Pompeia, contabilizando 15 autores diferentes e totalizando 37 obras. O segundo grupo inclui muito mais obras (192), tanto portuguesas como brasileiras, mas apenas integra romances ou novelas publicadas no periodo de 1840 a 1919. As escolas literarias escolhidas foram o realismo, o romantismo, o simbolismo, o naturalismo, o decadentismo e o modernismo, mas, ao contrario da classificacao anterior, permitimos que uma mesma obra pertenca a varias escolas. Usamos tecnicas de classificacao em R para a primeira tarefa, e analise de correspondencias para a segunda. Tambem aplicamos tecnicas de modelos de topicos a segunda colecao para ver se e possivel obter topicos representativos de escolas literarias diferentes.
查看原文
分享 分享
微信好友 朋友圈 QQ好友 复制链接
本刊更多论文
英语文学的语言统计研究
在本文中,我们使用葡萄牙语的一组句法和语义特征来自动分类文学作品在文学时期和/或流派,并解决他们的适当性问题,为两个不同的文学收藏。第一个任务试图复制Barufaldi及其同事的工作,他们对15位不同作家的37部巴西作品采用压缩方法,并将这些作品分为4个不同的文学流派。第二部是在1840年至1919年期间在葡萄牙和巴西出版的192部小说,其中的许多作品不能单独归入一个文学流派,它们被分为浪漫主义、现实主义、自然主义、象征主义、颓废主义和现代主义(并非相互排斥)。我们在R中使用分类技术,例如判别分析和支持向量模型用于第一个任务,对应分析用于第二个集合。我们还将主题建模应用于第二集(不同的子集),以研究这种技术是否可以为我们提供不同文学流派的重复主题。葡萄牙语与葡萄牙语言的结合,葡萄牙语与古典文学的结合,葡萄牙语与古典文学的结合。“媒介的特征”与“反映性的特征”是不同的;“媒介的特征”是不同的;“文学的特征”是不同的;2009年,por Barufaldi等人,用一种全新的方法来描述巴西的古典文学:巴洛克风格,古典主义,浪漫主义和现实主义,安东尼奥·维埃拉和劳尔·庞培的作品,15种不同的风格和37种不同的风格。第二组的作品包括:《爱情》(1920)、《葡萄牙人》、《巴西人》、《完整的爱情》和1840年至1919年间出版的中篇小说。就像文学作品一样文学作品从现实主义,浪漫主义,象征主义,自然主义,颓废主义到现代主义,都有不同的形式,不同的古典主义,不同的文学作品都有不同的形式。美国的技术是在第一阶段进行分类的,第二阶段进行相应的分析。Tambem运用技术、模型、主题和第二集来分析可能存在的其他主题的不同代表。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 去求助
来源期刊
Linguamatica
Linguamatica LINGUISTICS-
CiteScore
1.40
自引率
0.00%
发文量
4
审稿时长
6 weeks
期刊最新文献
A compilação e a análise de métricas textuais de um corpus de redações Classificação da qualidade da argumentação em tweets no domínio da política brasileira Extracção de Relações de Apoio e Oposição em Títulos de Notícias de Política em Português Pais, filhos e outras relações familiares no DIP DIP - Desafio de Identificação de Personagens: objectivo, organização, recursos e resultados
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
已复制链接
已复制链接
快去分享给好友吧!
我知道了
×
扫码分享
扫码分享
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1