Matilde Gonçalves, Luísa Coheur, Hugo Nicolau, A. Mineiro
A língua gestual portuguesa, tal como a língua portuguesa, evoluiu de forma natural, adquirindo características gramaticais distintas do português. Assim, o desenvolvimento de um tradutor entre as duas não consiste somente no mapeamento de uma palavra num gesto (português gestuado), mas em garantir que os gestos resultantes satisfazem a gramática da língua gestual portuguesa e que as traduções estejam semanticamente corretas. Trabalhos desenvolvidos anteriormente utilizam exclusivamente regras de tradução manuais, sendo muito limitados na quantidade de fenómenos gramaticais abrangidos, produzindo pouco mais que português gestuado. Neste artigo, apresenta-se o primeiro sistema de tradução de português para a língua gestual portuguesa, o PE2LGP, que, para além de regras manuais, se baseia em regras de tradução construídas automaticamente a partir de um corpus de referência. Dada uma frase em português, o sistema devolve uma sequência de glosas com marcadores que identificam expressões faciais, palavras soletradas, entre outras. Uma avaliação automática e uma avaliação manual são apresentadas, indicando os resultados melhorias na qualidade da tradução de frases simples e pequenas em comparação ao sistema baseline (português gestuado). Este é, também, o primeiro trabalho que lida com as expressões faciais gramaticais que marcam as frases interrogativas e negativas.
{"title":"PE2LGP: tradutor de português europeu para língua gestual portuguesa em glosas","authors":"Matilde Gonçalves, Luísa Coheur, Hugo Nicolau, A. Mineiro","doi":"10.21814/lm.13.1.338","DOIUrl":"https://doi.org/10.21814/lm.13.1.338","url":null,"abstract":"A língua gestual portuguesa, tal como a língua portuguesa, evoluiu de forma natural, adquirindo características gramaticais distintas do português. Assim, o desenvolvimento de um tradutor entre as duas não consiste somente no mapeamento de uma palavra num gesto (português gestuado), mas em garantir que os gestos resultantes satisfazem a gramática da língua gestual portuguesa e que as traduções estejam semanticamente corretas. Trabalhos desenvolvidos anteriormente utilizam exclusivamente regras de tradução manuais, sendo muito limitados na quantidade de fenómenos gramaticais abrangidos, produzindo pouco mais que português gestuado. Neste artigo, apresenta-se o primeiro sistema de tradução de português para a língua gestual portuguesa, o PE2LGP, que, para além de regras manuais, se baseia em regras de tradução construídas automaticamente a partir de um corpus de referência. Dada uma frase em português, o sistema devolve uma sequência de glosas com marcadores que identificam expressões faciais, palavras soletradas, entre outras. Uma avaliação automática e uma avaliação manual são apresentadas, indicando os resultados melhorias na qualidade da tradução de frases simples e pequenas em comparação ao sistema baseline (português gestuado). Este é, também, o primeiro trabalho que lida com as expressões faciais gramaticais que marcam as frases interrogativas e negativas.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"13 1","pages":"3-21"},"PeriodicalIF":0.6,"publicationDate":"2021-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68367790","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Leonardo Carneiro de Araújo, A. Benevides, Marcos Pereira
EnglishUnder the perspective of Quantitative Linguistics, this paper revisits the Menzerath's Law, applying it to data from Brazilian Portuguese, using the following unities of analysis: words, syllables and phonemes. The data was extracted from the ABG Corpus. Statistical analyses are performed on the proposed models, corroborating the existence of a decay relationship between the mean length of words (in syllables) and the average length of syllables (in phonemes); what corroborates the Menzerath Law. It is noticed that better measures or variables not considered in the model might be used to improve it. portuguesSob a otica da Linguistica Quantitativa, este trabalho revisita a Lei de Menzerath, aplicando-a aos dados do portugues brasileiro, a partir das seguintes unidades de analise: palavras, silabas e fonemas. Os dados foram extraidos do Corpus ABG. Analises estatisticas foram realizadas nos modelos propostos, as quais demonstraram uma relacao de decrescimento entre o comprimento medio das palavras (em silabas) e o comprimento medio das silabas (em fonemas); resultados esses que corroboram a Lei de Menzerath. Alemdisso, constatou-se, de maneira geral, que melhores medicoes ou a existencia de variaveis nao consideradas no modelo poderao ser utilizadas para melhora-lo.
本文在数量语言学的视角下,重新审视门泽拉斯定律,并将其应用于巴西葡萄牙语的数据中,采用以下统一的分析方法:词、音节和音素。数据从ABG语料库中提取。对所提出的模型进行了统计分析,证实了单词(音节)平均长度与音节(音素)平均长度之间存在衰减关系;是什么证实了门泽拉斯定律值得注意的是,可以使用模型中未考虑的更好的度量或变量来改进它。葡萄牙语言定量分析,葡萄牙语言定量分析,葡萄牙语言定量分析,葡萄牙语言定量分析,葡萄牙语言定量分析,葡萄牙语言定量分析,葡萄牙语言定量分析。Os dados foram extraidos do Corpus ABG。根据已实现的统计数据、模型和建议分析统计数据,因为这些统计数据表明,对中间数据和中间数据和中间数据和中间数据和中间数据和中间数据和中间数据和中间数据和中间数据和中间数据和中间数据和中间数据和中间数据和中间数据和中间数据和中间数据和中间数据和中间数据和中间数据和中间数据和中间数据和中间数据和中间数据和中间数据和中间数据和中间数据。结果证实了雷·德·门泽拉斯的观点。Alemdisso、恒常医疗、综合医疗、综合医疗等多种医疗手段的存在不被考虑,也不被认为是一种医疗手段利用的模式。
{"title":"Análise da Lei de Menzerath no Português Brasileiro","authors":"Leonardo Carneiro de Araújo, A. Benevides, Marcos Pereira","doi":"10.21814/lm.12.1.300","DOIUrl":"https://doi.org/10.21814/lm.12.1.300","url":null,"abstract":"EnglishUnder the perspective of Quantitative Linguistics, this paper revisits the Menzerath's Law, applying it to data from Brazilian Portuguese, using the following unities of analysis: words, syllables and phonemes. The data was extracted from the ABG Corpus. Statistical analyses are performed on the proposed models, corroborating the existence of a decay relationship between the mean length of words (in syllables) and the average length of syllables (in phonemes); what corroborates the Menzerath Law. It is noticed that better measures or variables not considered in the model might be used to improve it. portuguesSob a otica da Linguistica Quantitativa, este trabalho revisita a Lei de Menzerath, aplicando-a aos dados do portugues brasileiro, a partir das seguintes unidades de analise: palavras, silabas e fonemas. Os dados foram extraidos do Corpus ABG. Analises estatisticas foram realizadas nos modelos propostos, as quais demonstraram uma relacao de decrescimento entre o comprimento medio das palavras (em silabas) e o comprimento medio das silabas (em fonemas); resultados esses que corroboram a Lei de Menzerath. Alemdisso, constatou-se, de maneira geral, que melhores medicoes ou a existencia de variaveis nao consideradas no modelo poderao ser utilizadas para melhora-lo.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"12 1","pages":"31-48"},"PeriodicalIF":0.6,"publicationDate":"2020-06-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"44237637","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
José Ramom Pichel Campos, Pablo Gamallo, Marco Neves, Iñaki Alegria
EnglishThe objective of this work is to apply a perplexity-based methodology to automatically calculate the cross-lingual distance between different historical periods of diatopic language variants. This methodology applies to an adhoc constructed corpus in original spelling, on a balanced basis of fiction and non-fiction, which measures the historical distance between European and Brazilian Portuguese on the one hand, and European and Argentinian Spanish on the other. The results show very close distances, both in original spelling and automatically transcribed spelling, between the diatopic varieties of Portuguese and Spanish, with slight convergences/divergences from the middle of the 20th century until today. It should be noted that the method is not supervised and can be applied to other diatopic varieties of languages. portuguesO objetivo deste trabalho e aplicar uma metodologia baseada na perplexidade, para calcular automaticamente a distância interlinguistica entre diferentes periodos historicos de variantes diatopicas de idiomas. Esta metodologia aplica-se a um corpus construido adhoc em ortografia original, numa base equilibrada de ficcao e nao-ficcao, que mede a distância historica entre o portugues europeu e do Brasil, por um lado, e o espanhol europeu e o da Argentina, por outro. Os resultados mostram distâncias muito proximas em ortografia original e transcrita automaticamente, entre as variedades diatopicas do portugues e do espanhol, com ligeiras convergencias/divergencias desde meados do seculo XX ate hoje. E de salientar que o metodo nao e supervisionado e pode ser aplicado a outras variedades diatopicas de linguas.
本文的目的是应用一种基于困惑度的方法来自动计算不同历史时期自然语言变体之间的跨语距离。这种方法适用于一个特别构建的原始拼写语料库,在小说和非小说的平衡基础上,测量欧洲和巴西葡萄牙语与欧洲和阿根廷西班牙语之间的历史距离。结果显示,葡萄牙语和西班牙语的自然变体之间的距离非常接近,无论是原始拼写还是自动转录拼写,从20世纪中叶到今天都有轻微的趋同/分歧。值得注意的是,这种方法是不受监督的,可以应用于其他自然语言。portuguesO objetivo deste trabalho e aplicar乌玛metodologia baseada na perplexidade, para calcular automaticamente一distancia interlinguistica之间不同periodos historicos de变体diatopicas德语言。从方法论的应用上看,这是一种全新的语料库构建和特别的语料库,一种全新的语料库,一种全新的语料库,一种全新的语料库,一种全新的语料库,一种全新的语料库,一种全新的语料库。结果表明:近缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘。这是一种独特的方法,可以在不同的语言类型中应用。
{"title":"Distância diacrónica automática entre variantes diatópicas do português e do espanhol","authors":"José Ramom Pichel Campos, Pablo Gamallo, Marco Neves, Iñaki Alegria","doi":"10.21814/lm.12.1.319","DOIUrl":"https://doi.org/10.21814/lm.12.1.319","url":null,"abstract":"EnglishThe objective of this work is to apply a perplexity-based methodology to automatically calculate the cross-lingual distance between different historical periods of diatopic language variants. This methodology applies to an adhoc constructed corpus in original spelling, on a balanced basis of fiction and non-fiction, which measures the historical distance between European and Brazilian Portuguese on the one hand, and European and Argentinian Spanish on the other. The results show very close distances, both in original spelling and automatically transcribed spelling, between the diatopic varieties of Portuguese and Spanish, with slight convergences/divergences from the middle of the 20th century until today. It should be noted that the method is not supervised and can be applied to other diatopic varieties of languages. portuguesO objetivo deste trabalho e aplicar uma metodologia baseada na perplexidade, para calcular automaticamente a distância interlinguistica entre diferentes periodos historicos de variantes diatopicas de idiomas. Esta metodologia aplica-se a um corpus construido adhoc em ortografia original, numa base equilibrada de ficcao e nao-ficcao, que mede a distância historica entre o portugues europeu e do Brasil, por um lado, e o espanhol europeu e o da Argentina, por outro. Os resultados mostram distâncias muito proximas em ortografia original e transcrita automaticamente, entre as variedades diatopicas do portugues e do espanhol, com ligeiras convergencias/divergencias desde meados do seculo XX ate hoje. E de salientar que o metodo nao e supervisionado e pode ser aplicado a outras variedades diatopicas de linguas.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"12 1","pages":"117-126"},"PeriodicalIF":0.6,"publicationDate":"2020-06-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"45240859","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Diana Santos, E. Pires, Cláudia Freitas, Rebeca Schumacher Fuão, J. A. Lopes
EnglishIn this paper we use a set of syntactic and semantic features of Portuguese to automatically classify literary works in literary periods and/or schools, and address the issue of their appropriateness, for two different literary collections. The first task attempts to replicate the work by Barufaldi and colleagues, who applied compression methods on 37 Brazilian works by 15 different authors and classified the works in 4 different literary schools. The second collection, of 192 novels published in Portugal and Brazil in the period 1840 to 1919, features many works who cannot be singly accomodated in one literary school only, and which have been (not mutually exclusively) classified as romantic, realist, naturalist, symbolist, decadent and modernist. We use classification techniques in R, such as discriminant analysis and support vector models for the first task, and correspondence analysis for the second collection. We also apply topic modeling to (distinct subsets of) the second collection in order to investigate whether this technique can provide us with recurrent topics for different literary schools. portuguesNeste artigo usamos um conjunto de caracteristicas sintatico-semânticas da lingua portuguesa para classificar em periodos literarios dois conjuntos de obras. Em que medida tais caracteristicas sao capazes de refletir distincoes relevantes no âmbito dos estudos literarios e uma das questoes que pretendemos investigar. O primeiro grupo de obras corresponde a replicacao do trabalho relatado em 2009 por Barufaldi et al., que usaram metodos de compressao de dados sobre uma serie de obras brasileiras classificadas em quatro periodos literarios: barroco, arcadismo, romantismo e realismo, desde o Padre Antonio Vieira ate Raul Pompeia, contabilizando 15 autores diferentes e totalizando 37 obras. O segundo grupo inclui muito mais obras (192), tanto portuguesas como brasileiras, mas apenas integra romances ou novelas publicadas no periodo de 1840 a 1919. As escolas literarias escolhidas foram o realismo, o romantismo, o simbolismo, o naturalismo, o decadentismo e o modernismo, mas, ao contrario da classificacao anterior, permitimos que uma mesma obra pertenca a varias escolas. Usamos tecnicas de classificacao em R para a primeira tarefa, e analise de correspondencias para a segunda. Tambem aplicamos tecnicas de modelos de topicos a segunda colecao para ver se e possivel obter topicos representativos de escolas literarias diferentes.
{"title":"Periodização automática Estudos linguistíco-estatísticos de literatura lusófona","authors":"Diana Santos, E. Pires, Cláudia Freitas, Rebeca Schumacher Fuão, J. A. Lopes","doi":"10.21814/lm.12.1.314","DOIUrl":"https://doi.org/10.21814/lm.12.1.314","url":null,"abstract":"EnglishIn this paper we use a set of syntactic and semantic features of Portuguese to automatically classify literary works in literary periods and/or schools, and address the issue of their appropriateness, for two different literary collections. The first task attempts to replicate the work by Barufaldi and colleagues, who applied compression methods on 37 Brazilian works by 15 different authors and classified the works in 4 different literary schools. The second collection, of 192 novels published in Portugal and Brazil in the period 1840 to 1919, features many works who cannot be singly accomodated in one literary school only, and which have been (not mutually exclusively) classified as romantic, realist, naturalist, symbolist, decadent and modernist. We use classification techniques in R, such as discriminant analysis and support vector models for the first task, and correspondence analysis for the second collection. We also apply topic modeling to (distinct subsets of) the second collection in order to investigate whether this technique can provide us with recurrent topics for different literary schools. portuguesNeste artigo usamos um conjunto de caracteristicas sintatico-semânticas da lingua portuguesa para classificar em periodos literarios dois conjuntos de obras. Em que medida tais caracteristicas sao capazes de refletir distincoes relevantes no âmbito dos estudos literarios e uma das questoes que pretendemos investigar. O primeiro grupo de obras corresponde a replicacao do trabalho relatado em 2009 por Barufaldi et al., que usaram metodos de compressao de dados sobre uma serie de obras brasileiras classificadas em quatro periodos literarios: barroco, arcadismo, romantismo e realismo, desde o Padre Antonio Vieira ate Raul Pompeia, contabilizando 15 autores diferentes e totalizando 37 obras. O segundo grupo inclui muito mais obras (192), tanto portuguesas como brasileiras, mas apenas integra romances ou novelas publicadas no periodo de 1840 a 1919. As escolas literarias escolhidas foram o realismo, o romantismo, o simbolismo, o naturalismo, o decadentismo e o modernismo, mas, ao contrario da classificacao anterior, permitimos que uma mesma obra pertenca a varias escolas. Usamos tecnicas de classificacao em R para a primeira tarefa, e analise de correspondencias para a segunda. Tambem aplicamos tecnicas de modelos de topicos a segunda colecao para ver se e possivel obter topicos representativos de escolas literarias diferentes.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"12 1","pages":"81-95"},"PeriodicalIF":0.6,"publicationDate":"2020-06-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"41627527","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
espanolEn este trabajo se presenta una aplicacion tecnologica gratuita y en linea que ayuda a la ciudadania a escribir textos dirigidos a la Administracion publica. Concretamente, ayuda a redactar cinco generos textuales: alegacion, carta de presentacion, queja, reclamacion y solicitud. La aplicacion tiene forma de editor de textos e incluye tres modulos para: I) estructurar y anadir contenidos en el texto, II) corregirlo ortograficamente y darle formato, y III) obtener sugerencias de mejora sobre aspectos lexicos y discursivos. Integra diferentes herramientas de Procesamiento del Lenguaje Natural (PLN), como un analizador morfosintactico y un segmentador discursivo. Las evaluaciones data-driven y user-driven realizadas ofrecen resultados positivos. EnglishThis article presents a free and online technological application that helps citizens write texts addressed to the Public Administration. Specifically, it helps to draft five textual genres: allegation, cover letter, letter of complaint, claim and application. The technological application is a text editor that includes three modules: I) structure and contents of the text, II) spelling and format correction, and III) suggestions on vocabulary and discourse. It integrates different Natural Language Processing (NLP) tools, such as a morphosyntactic tagger and a discourse segmenter. The data-driven and user-driven evaluations performed show positive results.
{"title":"Una aplicación tecnológica que ayuda a la ciudadanía a escribir textos a la Administración pública","authors":"Iria da Cunha","doi":"10.21814/lm.12.1.316","DOIUrl":"https://doi.org/10.21814/lm.12.1.316","url":null,"abstract":"espanolEn este trabajo se presenta una aplicacion tecnologica gratuita y en linea que ayuda a la ciudadania a escribir textos dirigidos a la Administracion publica. Concretamente, ayuda a redactar cinco generos textuales: alegacion, carta de presentacion, queja, reclamacion y solicitud. La aplicacion tiene forma de editor de textos e incluye tres modulos para: I) estructurar y anadir contenidos en el texto, II) corregirlo ortograficamente y darle formato, y III) obtener sugerencias de mejora sobre aspectos lexicos y discursivos. Integra diferentes herramientas de Procesamiento del Lenguaje Natural (PLN), como un analizador morfosintactico y un segmentador discursivo. Las evaluaciones data-driven y user-driven realizadas ofrecen resultados positivos. EnglishThis article presents a free and online technological application that helps citizens write texts addressed to the Public Administration. Specifically, it helps to draft five textual genres: allegation, cover letter, letter of complaint, claim and application. The technological application is a text editor that includes three modules: I) structure and contents of the text, II) spelling and format correction, and III) suggestions on vocabulary and discourse. It integrates different Natural Language Processing (NLP) tools, such as a morphosyntactic tagger and a discourse segmenter. The data-driven and user-driven evaluations performed show positive results.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"12 1","pages":"97-115"},"PeriodicalIF":0.6,"publicationDate":"2020-06-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"44970322","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Márcia Cançado, Luana Amaral, Evelin Amorim, A. Veloso, Heliana Mello
EnglishEssays are very important assessment tools for Brazilian students. Therefore, it is expected that the grading of these texts will be made with as little subjectivity as possible. However, in an analysis of a sample of grading sheet comments by evaluators, we have noticed a high degree of subjectivity in these texts. From this first analysis, carried manually, we proposed the hypothesis that this genre is more subjective than one would expect. In order to corroborate this hypothesis, we have drawn up a list of linguistic bias markers, divided into four categories: argumentative operators, presupposition operators, modalization operators, and opinion and value operators. This list was applied to a corpus of essay grading sheet comments by evaluators, using an automatic language bias detection methodology. From this, we were able to quantify the linguistic bias markers present in these texts. These bias markers were also analyzed in two other corpora: abstracts and product reviews published on internet sales sites. We have compared the percentage of these markers in evaluators’ comments with the percentage numbers of these markers in genres admittedly less subjective (abstracts) and admittedly more subjective (reviews). For such comparison, we have used boxplots, a statistical tool widely used in data comparison analysis. Our results indicated that the grading sheets, as for the number of bias markers, are closer to more subjective texts than to less subjective texts. This corroborates our hypothesis and indicates that these grading sheets present a high degree of subjectivity, closer to the degree of a more subjective text. Thus, we conclude that these grading sheets reflect the personal views of the evaluator, deviating from the correction criteria, which raises doubts about considering this genre an exempt and fair assessment instrument. portuguesAs redacoes sao instrumentos avaliativos muito importantes para os estudantes brasileiros. Mesmo que seja assumido que a subjetividade esteja presente em todo e qualquer texto, espera-se que as correcoes dessas redacoes sejam feitas com o minimo de subjetividade possivel. Entretanto, a partir da analise de uma amostra de correcoes de redacao, percebemos um alto grau de subjetividade nesses textos. Baseados nessa pre-analise, feita de forma manual, levantamos a hipotese de que o genero "correcao de redacao" e mais subjetivo do que se esperaria. Para corroborar essa hipotese, elaboramos uma lista de operadores linguisticos, marcadores de vies, dividida em quatro categorias: operadores argumentativos, operadores de pressuposicao, operadores de modalidade e operadores de opiniao e valoracao. Essa lista foi aplicada, atraves de uma metodologia de deteccao automatica de linguagem enviesada, a um corpus de correcoes de redacao. A partir disso, quantificamos os operadores de vies presentes nesses textos. Foram tambem analisados esses operadores de vies em dois outros corpora: de resumos academicos e de re
{"title":"Subjetividade em correções de redações detecção automática através de léxico de operadores de viés linguístico","authors":"Márcia Cançado, Luana Amaral, Evelin Amorim, A. Veloso, Heliana Mello","doi":"10.21814/lm.12.1.313","DOIUrl":"https://doi.org/10.21814/lm.12.1.313","url":null,"abstract":"EnglishEssays are very important assessment tools for Brazilian students. Therefore, it is expected that the grading of these texts will be made with as little subjectivity as possible. However, in an analysis of a sample of grading sheet comments by evaluators, we have noticed a high degree of subjectivity in these texts. From this first analysis, carried manually, we proposed the hypothesis that this genre is more subjective than one would expect. In order to corroborate this hypothesis, we have drawn up a list of linguistic bias markers, divided into four categories: argumentative operators, presupposition operators, modalization operators, and opinion and value operators. This list was applied to a corpus of essay grading sheet comments by evaluators, using an automatic language bias detection methodology. From this, we were able to quantify the linguistic bias markers present in these texts. These bias markers were also analyzed in two other corpora: abstracts and product reviews published on internet sales sites. We have compared the percentage of these markers in evaluators’ comments with the percentage numbers of these markers in genres admittedly less subjective (abstracts) and admittedly more subjective (reviews). For such comparison, we have used boxplots, a statistical tool widely used in data comparison analysis. Our results indicated that the grading sheets, as for the number of bias markers, are closer to more subjective texts than to less subjective texts. This corroborates our hypothesis and indicates that these grading sheets present a high degree of subjectivity, closer to the degree of a more subjective text. Thus, we conclude that these grading sheets reflect the personal views of the evaluator, deviating from the correction criteria, which raises doubts about considering this genre an exempt and fair assessment instrument. portuguesAs redacoes sao instrumentos avaliativos muito importantes para os estudantes brasileiros. Mesmo que seja assumido que a subjetividade esteja presente em todo e qualquer texto, espera-se que as correcoes dessas redacoes sejam feitas com o minimo de subjetividade possivel. Entretanto, a partir da analise de uma amostra de correcoes de redacao, percebemos um alto grau de subjetividade nesses textos. Baseados nessa pre-analise, feita de forma manual, levantamos a hipotese de que o genero \"correcao de redacao\" e mais subjetivo do que se esperaria. Para corroborar essa hipotese, elaboramos uma lista de operadores linguisticos, marcadores de vies, dividida em quatro categorias: operadores argumentativos, operadores de pressuposicao, operadores de modalidade e operadores de opiniao e valoracao. Essa lista foi aplicada, atraves de uma metodologia de deteccao automatica de linguagem enviesada, a um corpus de correcoes de redacao. A partir disso, quantificamos os operadores de vies presentes nesses textos. Foram tambem analisados esses operadores de vies em dois outros corpora: de resumos academicos e de re","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"12 1","pages":"63-79"},"PeriodicalIF":0.6,"publicationDate":"2020-06-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"43822223","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2020-06-29DOI: 10.11606/D.100.2018.TDE-09052018-203241
Georges Basile Stavracas Neto, Ivandré Paraboni
Sistemas de Geração de Língua Natural (GLN) são centrais para o desenvolvimento de comunicação humano-computador realista e psicologicamente plausível que não recorra ao uso de texto fixo ou predefinido, fazendo uso de uma ampla gama de estratégias para modelar alguma forma de variação estilística. Entre estas estratégias, o uso de modelos computacionais da personalidade humana emergiu como uma alternativa popular na área. Neste contexto, o presente trabalho apresenta um modelo de GLN do tipo texto-para-texto (ou reescrita sentencial) para o português que leva em conta, além da sentença a ser reescrita, informações sobre a personalidade de um locutor-alvo de interesse. Mais especificamente, o modelo transforma a sentença de entrada em outra na qual certas formas lexicais são substituídas por termos mais adequados ao tipo de personalidade-alvo fornecido. Resultados sugerem que as sentenças geradas com base em personalidade são mais próximas das que seriam produzidas por um locutor humano com as características de personalidade fornecidas do que seria possível sem acesso a essa informação, e abrem assim caminho para futuros estudos de geração de língua natural personalizada em português.
{"title":"Reescrita sentencial baseada em traços de personalidade","authors":"Georges Basile Stavracas Neto, Ivandré Paraboni","doi":"10.11606/D.100.2018.TDE-09052018-203241","DOIUrl":"https://doi.org/10.11606/D.100.2018.TDE-09052018-203241","url":null,"abstract":"Sistemas de Geração de Língua Natural (GLN) são centrais para o desenvolvimento de comunicação humano-computador realista e psicologicamente plausível que não recorra ao uso de texto fixo ou predefinido, fazendo uso de uma ampla gama de estratégias para modelar alguma forma de variação estilística. Entre estas estratégias, o uso de modelos computacionais da personalidade humana emergiu como uma alternativa popular na área. Neste contexto, o presente trabalho apresenta um modelo de GLN do tipo texto-para-texto (ou reescrita sentencial) para o português que leva em conta, além da sentença a ser reescrita, informações sobre a personalidade de um locutor-alvo de interesse. Mais especificamente, o modelo transforma a sentença de entrada em outra na qual certas formas lexicais são substituídas por termos mais adequados ao tipo de personalidade-alvo fornecido. Resultados sugerem que as sentenças geradas com base em personalidade são mais próximas das que seriam produzidas por um locutor humano com as características de personalidade fornecidas do que seria possível sem acesso a essa informação, e abrem assim caminho para futuros estudos de geração de língua natural personalizada em português.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"12 1","pages":"49-61"},"PeriodicalIF":0.6,"publicationDate":"2020-06-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"49564238","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
espanolEn este articulo nos proponemos relacionar la calidad de la escritura con un amplio conjunto de rasgos linguisticos y discursivos presentes en introducciones de los trabajos finales de grado de Ingenieria civil informatica. Para ello se evaluaron 101 introducciones, utilizando una rubrica disenada para este efecto. Se realiza un estudio correlacional entre la evaluacion de la calidad y 203 variables lexicas, de extension, sintacticas y discursivas. Luego, se realizo un analisis de regresion lineal con el fin de identificar variables predictoras de la calidad de las introducciones. Entre nuestros hallazgos destacamos que la extension (promedio de palabras) presenta una relacion negativa fuerte con la calidad de la introduccion, a su vez el uso de conectores conclusivos y la complejidad sintactica se correlacionan de manera positiva con la calidad de las introducciones. Asi tambien, el cumplimiento de propositos comunicativos, en particular la indicacion del vacio, presenta correlaciones positivas medias con la calidad del escrito. Con el analisis de regresion se pudo identificar que las tres primeras variables tienen valores estadisticos significativos para predecir las calidad de la introduccion de acuerdo a los valores promedio de evaluacion asignada por los evaluadores. Estos resultados son de interes para aplicaciones computacionales de apoyo a la escritura academica. EnglishIn this article we propose to relate the quality of writing with a wide range of linguistic and discursive features present in the introductions of the final works of the degree in Civil Engineering in Computer Science. For this purpose, an evaluation of 101 introductions is carried out, based on a rubric designed for this purpose. A correlation study is carried out between the evaluation of quality and 203 variables identified in the texts. Then, a linear regression analysis was carried out in order to identify predictive variables of the quality of the introductions. Among our findings we highlight that the length (average of words) presents a strong negative relationship with the quality of the introduction, in turn the use of conclusive connectors and syntactic complexity are positively correlated with the quality of the introductions. Also, the fulfillment of communicative purposes, in particular the indication of the gap, presents mean positive correlations with the quality of the writing. With the regression analysis it was possible to identify that the first three variables have significant statistical values to predict the quality of the introduction according to the average evaluation values assigned by the evaluators. These results are of interest for computational applications to support academic writing.
在这篇文章中,我们建议将写作质量与广泛的语言和论述特征联系起来,这些特征出现在土木工程计算机科学学位的最终作品的介绍中。为此目的,使用为此目的设计的标题对101篇介绍进行了评估。本研究的目的是评估西班牙语教学质量,并评估西班牙语教学质量。在本研究中,我们分析了两种不同类型的引种,一种是在墨西哥,另一种是在墨西哥。在我们的研究中,我们强调了外延(单词平均)与介绍质量有很强的负相关关系,而结语连接词的使用和句法复杂性与介绍质量有正相关关系。此外,交际目的的实现,特别是空虚的表达,与写作质量呈正相关。在本研究中,我们分析了三个变量,这些变量在统计学上具有显著的价值,可以根据评估者分配的平均评价值来预测引入的质量。这些结果对支持学术写作的计算应用很有意义。在这篇文章中,我们建议用广泛的语言学和论述特征来描述写作的质量,这些特征出现在土木工程和计算机科学学位的最终作品的介绍中。在这方面,根据为此目的而设计的一个标题,对101种介绍进行了评估。在质量评价和文本中确定的203个变量之间进行了一项相关研究。= =地理= =根据美国人口普查,这个县的面积为。在我们的调查结果中,我们强调长度(字数平均值)与引文的质量有很强的负相关关系,而结论性连接器的使用和句法复杂性与引文的质量有正相关关系。此外,交际目的的实现,特别是差距的表现,与写作质量有正相关关系。通过回归分析,可以确定前三个变量具有显著的统计值,根据评价者分配的平均评价值预测介绍的质量。这些结果are of interest for computational biology applications to support academic writing。
{"title":"Relación entre calidad de escritura y rasgos lingüístico-discursivos en las introducciones de los trabajos finales de grado de ingenierı'a civil informática","authors":"F. Fuentes, R. Venegas","doi":"10.21814/lm.12.1.297","DOIUrl":"https://doi.org/10.21814/lm.12.1.297","url":null,"abstract":"espanolEn este articulo nos proponemos relacionar la calidad de la escritura con un amplio conjunto de rasgos linguisticos y discursivos presentes en introducciones de los trabajos finales de grado de Ingenieria civil informatica. Para ello se evaluaron 101 introducciones, utilizando una rubrica disenada para este efecto. Se realiza un estudio correlacional entre la evaluacion de la calidad y 203 variables lexicas, de extension, sintacticas y discursivas. Luego, se realizo un analisis de regresion lineal con el fin de identificar variables predictoras de la calidad de las introducciones. Entre nuestros hallazgos destacamos que la extension (promedio de palabras) presenta una relacion negativa fuerte con la calidad de la introduccion, a su vez el uso de conectores conclusivos y la complejidad sintactica se correlacionan de manera positiva con la calidad de las introducciones. Asi tambien, el cumplimiento de propositos comunicativos, en particular la indicacion del vacio, presenta correlaciones positivas medias con la calidad del escrito. Con el analisis de regresion se pudo identificar que las tres primeras variables tienen valores estadisticos significativos para predecir las calidad de la introduccion de acuerdo a los valores promedio de evaluacion asignada por los evaluadores. Estos resultados son de interes para aplicaciones computacionales de apoyo a la escritura academica. EnglishIn this article we propose to relate the quality of writing with a wide range of linguistic and discursive features present in the introductions of the final works of the degree in Civil Engineering in Computer Science. For this purpose, an evaluation of 101 introductions is carried out, based on a rubric designed for this purpose. A correlation study is carried out between the evaluation of quality and 203 variables identified in the texts. Then, a linear regression analysis was carried out in order to identify predictive variables of the quality of the introductions. Among our findings we highlight that the length (average of words) presents a strong negative relationship with the quality of the introduction, in turn the use of conclusive connectors and syntactic complexity are positively correlated with the quality of the introductions. Also, the fulfillment of communicative purposes, in particular the indication of the gap, presents mean positive correlations with the quality of the writing. With the regression analysis it was possible to identify that the first three variables have significant statistical values to predict the quality of the introduction according to the average evaluation values assigned by the evaluators. These results are of interest for computational applications to support academic writing.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"12 1","pages":"3-13"},"PeriodicalIF":0.6,"publicationDate":"2020-06-25","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"47783419","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Luis-Gil Moreno-Jiménez, Juan-Manuel Torres-Moreno, Roseli S. Wedemann, Eric SanJuan
En este artı́culo abordamos el tema de la generación automática de frases literarias, que es una parte importante de los estudios relacionados al área de la Creatividad Computacional (CC). Proponemos tres modelos de generación textual guiados por un contexto, basados principalmente en algoritmos estadı́sticos y análisis sintáctico superficial. Los textos generados fueron evaluados por siete personas a partir de 4 criterios: gramaticalidad, coherencia, relación con el contexto y una adaptación del test de Turing, en donde se pidio a los evaluadores clasificar los textos en: textos generados automáticamente y textos generados por humanos. Los resultados obtenidos son bastante alentadores.
{"title":"Generación automática de frases literarias","authors":"Luis-Gil Moreno-Jiménez, Juan-Manuel Torres-Moreno, Roseli S. Wedemann, Eric SanJuan","doi":"10.21814/lm.12.1.308","DOIUrl":"https://doi.org/10.21814/lm.12.1.308","url":null,"abstract":"En este artı́culo abordamos el tema de la generación automática de frases literarias, que es una parte importante de los estudios relacionados al área de la Creatividad Computacional (CC). Proponemos tres modelos de generación textual guiados por un contexto, basados principalmente en algoritmos estadı́sticos y análisis sintáctico superficial. Los textos generados fueron evaluados por siete personas a partir de 4 criterios: gramaticalidad, coherencia, relación con el contexto y una adaptación del test de Turing, en donde se pidio a los evaluadores clasificar los textos en: textos generados automáticamente y textos generados por humanos. Los resultados obtenidos son bastante alentadores.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"12 1","pages":"15-30"},"PeriodicalIF":0.6,"publicationDate":"2020-06-25","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"46944663","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}