Diana Santos, E. Pires, Cláudia Freitas, Rebeca Schumacher Fuão, J. A. Lopes
{"title":"英语文学的语言统计研究","authors":"Diana Santos, E. Pires, Cláudia Freitas, Rebeca Schumacher Fuão, J. A. Lopes","doi":"10.21814/lm.12.1.314","DOIUrl":null,"url":null,"abstract":"EnglishIn this paper we use a set of syntactic and semantic features of Portuguese to automatically classify literary works in literary periods and/or schools, and address the issue of their appropriateness, for two different literary collections. The first task attempts to replicate the work by Barufaldi and colleagues, who applied compression methods on 37 Brazilian works by 15 different authors and classified the works in 4 different literary schools. The second collection, of 192 novels published in Portugal and Brazil in the period 1840 to 1919, features many works who cannot be singly accomodated in one literary school only, and which have been (not mutually exclusively) classified as romantic, realist, naturalist, symbolist, decadent and modernist. We use classification techniques in R, such as discriminant analysis and support vector models for the first task, and correspondence analysis for the second collection. We also apply topic modeling to (distinct subsets of) the second collection in order to investigate whether this technique can provide us with recurrent topics for different literary schools. portuguesNeste artigo usamos um conjunto de caracteristicas sintatico-semânticas da lingua portuguesa para classificar em periodos literarios dois conjuntos de obras. Em que medida tais caracteristicas sao capazes de refletir distincoes relevantes no âmbito dos estudos literarios e uma das questoes que pretendemos investigar. O primeiro grupo de obras corresponde a replicacao do trabalho relatado em 2009 por Barufaldi et al., que usaram metodos de compressao de dados sobre uma serie de obras brasileiras classificadas em quatro periodos literarios: barroco, arcadismo, romantismo e realismo, desde o Padre Antonio Vieira ate Raul Pompeia, contabilizando 15 autores diferentes e totalizando 37 obras. O segundo grupo inclui muito mais obras (192), tanto portuguesas como brasileiras, mas apenas integra romances ou novelas publicadas no periodo de 1840 a 1919. As escolas literarias escolhidas foram o realismo, o romantismo, o simbolismo, o naturalismo, o decadentismo e o modernismo, mas, ao contrario da classificacao anterior, permitimos que uma mesma obra pertenca a varias escolas. Usamos tecnicas de classificacao em R para a primeira tarefa, e analise de correspondencias para a segunda. Tambem aplicamos tecnicas de modelos de topicos a segunda colecao para ver se e possivel obter topicos representativos de escolas literarias diferentes.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"12 1","pages":"81-95"},"PeriodicalIF":0.3000,"publicationDate":"2020-06-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"4","resultStr":"{\"title\":\"Periodização automática Estudos linguistíco-estatísticos de literatura lusófona\",\"authors\":\"Diana Santos, E. Pires, Cláudia Freitas, Rebeca Schumacher Fuão, J. A. Lopes\",\"doi\":\"10.21814/lm.12.1.314\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"EnglishIn this paper we use a set of syntactic and semantic features of Portuguese to automatically classify literary works in literary periods and/or schools, and address the issue of their appropriateness, for two different literary collections. The first task attempts to replicate the work by Barufaldi and colleagues, who applied compression methods on 37 Brazilian works by 15 different authors and classified the works in 4 different literary schools. The second collection, of 192 novels published in Portugal and Brazil in the period 1840 to 1919, features many works who cannot be singly accomodated in one literary school only, and which have been (not mutually exclusively) classified as romantic, realist, naturalist, symbolist, decadent and modernist. We use classification techniques in R, such as discriminant analysis and support vector models for the first task, and correspondence analysis for the second collection. We also apply topic modeling to (distinct subsets of) the second collection in order to investigate whether this technique can provide us with recurrent topics for different literary schools. portuguesNeste artigo usamos um conjunto de caracteristicas sintatico-semânticas da lingua portuguesa para classificar em periodos literarios dois conjuntos de obras. Em que medida tais caracteristicas sao capazes de refletir distincoes relevantes no âmbito dos estudos literarios e uma das questoes que pretendemos investigar. O primeiro grupo de obras corresponde a replicacao do trabalho relatado em 2009 por Barufaldi et al., que usaram metodos de compressao de dados sobre uma serie de obras brasileiras classificadas em quatro periodos literarios: barroco, arcadismo, romantismo e realismo, desde o Padre Antonio Vieira ate Raul Pompeia, contabilizando 15 autores diferentes e totalizando 37 obras. O segundo grupo inclui muito mais obras (192), tanto portuguesas como brasileiras, mas apenas integra romances ou novelas publicadas no periodo de 1840 a 1919. As escolas literarias escolhidas foram o realismo, o romantismo, o simbolismo, o naturalismo, o decadentismo e o modernismo, mas, ao contrario da classificacao anterior, permitimos que uma mesma obra pertenca a varias escolas. Usamos tecnicas de classificacao em R para a primeira tarefa, e analise de correspondencias para a segunda. Tambem aplicamos tecnicas de modelos de topicos a segunda colecao para ver se e possivel obter topicos representativos de escolas literarias diferentes.\",\"PeriodicalId\":41819,\"journal\":{\"name\":\"Linguamatica\",\"volume\":\"12 1\",\"pages\":\"81-95\"},\"PeriodicalIF\":0.3000,\"publicationDate\":\"2020-06-29\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"4\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Linguamatica\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.21814/lm.12.1.314\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"Q4\",\"JCRName\":\"LINGUISTICS\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Linguamatica","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.21814/lm.12.1.314","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q4","JCRName":"LINGUISTICS","Score":null,"Total":0}
Periodização automática Estudos linguistíco-estatísticos de literatura lusófona
EnglishIn this paper we use a set of syntactic and semantic features of Portuguese to automatically classify literary works in literary periods and/or schools, and address the issue of their appropriateness, for two different literary collections. The first task attempts to replicate the work by Barufaldi and colleagues, who applied compression methods on 37 Brazilian works by 15 different authors and classified the works in 4 different literary schools. The second collection, of 192 novels published in Portugal and Brazil in the period 1840 to 1919, features many works who cannot be singly accomodated in one literary school only, and which have been (not mutually exclusively) classified as romantic, realist, naturalist, symbolist, decadent and modernist. We use classification techniques in R, such as discriminant analysis and support vector models for the first task, and correspondence analysis for the second collection. We also apply topic modeling to (distinct subsets of) the second collection in order to investigate whether this technique can provide us with recurrent topics for different literary schools. portuguesNeste artigo usamos um conjunto de caracteristicas sintatico-semânticas da lingua portuguesa para classificar em periodos literarios dois conjuntos de obras. Em que medida tais caracteristicas sao capazes de refletir distincoes relevantes no âmbito dos estudos literarios e uma das questoes que pretendemos investigar. O primeiro grupo de obras corresponde a replicacao do trabalho relatado em 2009 por Barufaldi et al., que usaram metodos de compressao de dados sobre uma serie de obras brasileiras classificadas em quatro periodos literarios: barroco, arcadismo, romantismo e realismo, desde o Padre Antonio Vieira ate Raul Pompeia, contabilizando 15 autores diferentes e totalizando 37 obras. O segundo grupo inclui muito mais obras (192), tanto portuguesas como brasileiras, mas apenas integra romances ou novelas publicadas no periodo de 1840 a 1919. As escolas literarias escolhidas foram o realismo, o romantismo, o simbolismo, o naturalismo, o decadentismo e o modernismo, mas, ao contrario da classificacao anterior, permitimos que uma mesma obra pertenca a varias escolas. Usamos tecnicas de classificacao em R para a primeira tarefa, e analise de correspondencias para a segunda. Tambem aplicamos tecnicas de modelos de topicos a segunda colecao para ver se e possivel obter topicos representativos de escolas literarias diferentes.