Linguamatica最新文献_第3页

PE2LGP: tradutor de português europeu para língua gestual portuguesa em glosas PE2LGP:从欧洲葡萄牙语到葡萄牙手语的翻译

IF 0.6 Q4 LINGUISTICS

Linguamatica

Pub Date : 2021-01-01 DOI: 10.21814/lm.13.1.338

Matilde Gonçalves, Luísa Coheur, Hugo Nicolau, A. Mineiro

A língua gestual portuguesa, tal como a língua portuguesa, evoluiu de forma natural, adquirindo características gramaticais distintas do português. Assim, o desenvolvimento de um tradutor entre as duas não consiste somente no mapeamento de uma palavra num gesto (português gestuado), mas em garantir que os gestos resultantes satisfazem a gramática da língua gestual portuguesa e que as traduções estejam semanticamente corretas. Trabalhos desenvolvidos anteriormente utilizam exclusivamente regras de tradução manuais, sendo muito limitados na quantidade de fenómenos gramaticais abrangidos, produzindo pouco mais que português gestuado. Neste artigo, apresenta-se o primeiro sistema de tradução de português para a língua gestual portuguesa, o PE2LGP, que, para além de regras manuais, se baseia em regras de tradução construídas automaticamente a partir de um corpus de referência. Dada uma frase em português, o sistema devolve uma sequência de glosas com marcadores que identificam expressões faciais, palavras soletradas, entre outras. Uma avaliação automática e uma avaliação manual são apresentadas, indicando os resultados melhorias na qualidade da tradução de frases simples e pequenas em comparação ao sistema baseline (português gestuado). Este é, também, o primeiro trabalho que lida com as expressões faciais gramaticais que marcam as frases interrogativas e negativas.

葡萄牙手语和葡萄牙语一样，是自然进化的，获得了与葡萄牙语不同的语法特征。因此，译者在两者之间的发展不仅包括将一个单词映射到一个手势(葡萄牙手语)，而且还要确保产生的手势满足葡萄牙手语的语法，翻译在语义上是正确的。以前开发的作品只使用手工翻译规则，涵盖的语法现象的数量非常有限，只产生手语葡萄牙语。本文介绍了第一个从葡萄牙语到葡萄牙手语的翻译系统PE2LGP，该系统除了手动规则外，还基于从参考语料库中自动构建的翻译规则。给定一个葡萄牙语短语，系统会返回一系列带有标记的注释，用于识别面部表情、拼写单词等。提出了自动评估和手动评估的结果，表明与基线系统(葡萄牙手语)相比，简单和小句子的翻译质量有所提高。这也是第一部处理标记疑问句和否定句的语法面部表情的作品。

{"title":"PE2LGP: tradutor de português europeu para língua gestual portuguesa em glosas","authors":"Matilde Gonçalves, Luísa Coheur, Hugo Nicolau, A. Mineiro","doi":"10.21814/lm.13.1.338","DOIUrl":"https://doi.org/10.21814/lm.13.1.338","url":null,"abstract":"A língua gestual portuguesa, tal como a língua portuguesa, evoluiu de forma natural, adquirindo características gramaticais distintas do português. Assim, o desenvolvimento de um tradutor entre as duas não consiste somente no mapeamento de uma palavra num gesto (português gestuado), mas em garantir que os gestos resultantes satisfazem a gramática da língua gestual portuguesa e que as traduções estejam semanticamente corretas. Trabalhos desenvolvidos anteriormente utilizam exclusivamente regras de tradução manuais, sendo muito limitados na quantidade de fenómenos gramaticais abrangidos, produzindo pouco mais que português gestuado. Neste artigo, apresenta-se o primeiro sistema de tradução de português para a língua gestual portuguesa, o PE2LGP, que, para além de regras manuais, se baseia em regras de tradução construídas automaticamente a partir de um corpus de referência. Dada uma frase em português, o sistema devolve uma sequência de glosas com marcadores que identificam expressões faciais, palavras soletradas, entre outras. Uma avaliação automática e uma avaliação manual são apresentadas, indicando os resultados melhorias na qualidade da tradução de frases simples e pequenas em comparação ao sistema baseline (português gestuado). Este é, também, o primeiro trabalho que lida com as expressões faciais gramaticais que marcam as frases interrogativas e negativas.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"13 1","pages":"3-21"},"PeriodicalIF":0.6,"publicationDate":"2021-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68367790","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 5

Introdução 介绍

IF 0.6 Q4 LINGUISTICS

Linguamatica

Pub Date : 2020-06-30 DOI: 10.4000/eces.5117

M. Gonçalves

引用次数: 0

Distância diacrónica automática entre variantes diatópicas do português e do espanhol 葡萄牙语和西班牙语全变异构体之间的自动历时距离

IF 0.6 Q4 LINGUISTICS

Linguamatica

Pub Date : 2020-06-29 DOI: 10.21814/lm.12.1.319

José Ramom Pichel Campos, Pablo Gamallo, Marco Neves, Iñaki Alegria

EnglishThe objective of this work is to apply a perplexity-based methodology to automatically calculate the cross-lingual distance between different historical periods of diatopic language variants. This methodology applies to an adhoc constructed corpus in original spelling, on a balanced basis of fiction and non-fiction, which measures the historical distance between European and Brazilian Portuguese on the one hand, and European and Argentinian Spanish on the other. The results show very close distances, both in original spelling and automatically transcribed spelling, between the diatopic varieties of Portuguese and Spanish, with slight convergences/divergences from the middle of the 20th century until today. It should be noted that the method is not supervised and can be applied to other diatopic varieties of languages. portuguesO objetivo deste trabalho e aplicar uma metodologia baseada na perplexidade, para calcular automaticamente a distância interlinguistica entre diferentes periodos historicos de variantes diatopicas de idiomas. Esta metodologia aplica-se a um corpus construido adhoc em ortografia original, numa base equilibrada de ficcao e nao-ficcao, que mede a distância historica entre o portugues europeu e do Brasil, por um lado, e o espanhol europeu e o da Argentina, por outro. Os resultados mostram distâncias muito proximas em ortografia original e transcrita automaticamente, entre as variedades diatopicas do portugues e do espanhol, com ligeiras convergencias/divergencias desde meados do seculo XX ate hoje. E de salientar que o metodo nao e supervisionado e pode ser aplicado a outras variedades diatopicas de linguas.

本文的目的是应用一种基于困惑度的方法来自动计算不同历史时期自然语言变体之间的跨语距离。这种方法适用于一个特别构建的原始拼写语料库，在小说和非小说的平衡基础上，测量欧洲和巴西葡萄牙语与欧洲和阿根廷西班牙语之间的历史距离。结果显示，葡萄牙语和西班牙语的自然变体之间的距离非常接近，无论是原始拼写还是自动转录拼写，从20世纪中叶到今天都有轻微的趋同/分歧。值得注意的是，这种方法是不受监督的，可以应用于其他自然语言。portuguesO objetivo deste trabalho e aplicar乌玛metodologia baseada na perplexidade, para calcular automaticamente一distancia interlinguistica之间不同periodos historicos de变体diatopicas德语言。从方法论的应用上看，这是一种全新的语料库构建和特别的语料库，一种全新的语料库，一种全新的语料库，一种全新的语料库，一种全新的语料库，一种全新的语料库，一种全新的语料库。结果表明:近缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘。这是一种独特的方法，可以在不同的语言类型中应用。

{"title":"Distância diacrónica automática entre variantes diatópicas do português e do espanhol","authors":"José Ramom Pichel Campos, Pablo Gamallo, Marco Neves, Iñaki Alegria","doi":"10.21814/lm.12.1.319","DOIUrl":"https://doi.org/10.21814/lm.12.1.319","url":null,"abstract":"EnglishThe objective of this work is to apply a perplexity-based methodology to automatically calculate the cross-lingual distance between different historical periods of diatopic language variants. This methodology applies to an adhoc constructed corpus in original spelling, on a balanced basis of fiction and non-fiction, which measures the historical distance between European and Brazilian Portuguese on the one hand, and European and Argentinian Spanish on the other. The results show very close distances, both in original spelling and automatically transcribed spelling, between the diatopic varieties of Portuguese and Spanish, with slight convergences/divergences from the middle of the 20th century until today. It should be noted that the method is not supervised and can be applied to other diatopic varieties of languages. portuguesO objetivo deste trabalho e aplicar uma metodologia baseada na perplexidade, para calcular automaticamente a distância interlinguistica entre diferentes periodos historicos de variantes diatopicas de idiomas. Esta metodologia aplica-se a um corpus construido adhoc em ortografia original, numa base equilibrada de ficcao e nao-ficcao, que mede a distância historica entre o portugues europeu e do Brasil, por um lado, e o espanhol europeu e o da Argentina, por outro. Os resultados mostram distâncias muito proximas em ortografia original e transcrita automaticamente, entre as variedades diatopicas do portugues e do espanhol, com ligeiras convergencias/divergencias desde meados do seculo XX ate hoje. E de salientar que o metodo nao e supervisionado e pode ser aplicado a outras variedades diatopicas de linguas.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"12 1","pages":"117-126"},"PeriodicalIF":0.6,"publicationDate":"2020-06-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"45240859","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 0

Análise da Lei de Menzerath no Português Brasileiro 巴西葡萄牙语门泽拉斯定律分析

IF 0.6 Q4 LINGUISTICS

Linguamatica

Pub Date : 2020-06-29 DOI: 10.21814/lm.12.1.300

Leonardo Carneiro de Araújo, A. Benevides, Marcos Pereira

EnglishUnder the perspective of Quantitative Linguistics, this paper revisits the Menzerath's Law, applying it to data from Brazilian Portuguese, using the following unities of analysis: words, syllables and phonemes. The data was extracted from the ABG Corpus. Statistical analyses are performed on the proposed models, corroborating the existence of a decay relationship between the mean length of words (in syllables) and the average length of syllables (in phonemes); what corroborates the Menzerath Law. It is noticed that better measures or variables not considered in the model might be used to improve it. portuguesSob a otica da Linguistica Quantitativa, este trabalho revisita a Lei de Menzerath, aplicando-a aos dados do portugues brasileiro, a partir das seguintes unidades de analise: palavras, silabas e fonemas. Os dados foram extraidos do Corpus ABG. Analises estatisticas foram realizadas nos modelos propostos, as quais demonstraram uma relacao de decrescimento entre o comprimento medio das palavras (em silabas) e o comprimento medio das silabas (em fonemas); resultados esses que corroboram a Lei de Menzerath. Alemdisso, constatou-se, de maneira geral, que melhores medicoes ou a existencia de variaveis nao consideradas no modelo poderao ser utilizadas para melhora-lo.

本文在数量语言学的视角下，重新审视门泽拉斯定律，并将其应用于巴西葡萄牙语的数据中，采用以下统一的分析方法:词、音节和音素。数据从ABG语料库中提取。对所提出的模型进行了统计分析，证实了单词(音节)平均长度与音节(音素)平均长度之间存在衰减关系;是什么证实了门泽拉斯定律值得注意的是，可以使用模型中未考虑的更好的度量或变量来改进它。葡萄牙语言定量分析，葡萄牙语言定量分析，葡萄牙语言定量分析，葡萄牙语言定量分析，葡萄牙语言定量分析，葡萄牙语言定量分析，葡萄牙语言定量分析。Os dados foram extraidos do Corpus ABG。根据已实现的统计数据、模型和建议分析统计数据，因为这些统计数据表明，对中间数据和中间数据和中间数据和中间数据和中间数据和中间数据和中间数据和中间数据和中间数据和中间数据和中间数据和中间数据和中间数据和中间数据和中间数据和中间数据和中间数据和中间数据和中间数据和中间数据和中间数据和中间数据和中间数据和中间数据和中间数据和中间数据。结果证实了雷·德·门泽拉斯的观点。Alemdisso、恒常医疗、综合医疗、综合医疗等多种医疗手段的存在不被考虑，也不被认为是一种医疗手段利用的模式。

{"title":"Análise da Lei de Menzerath no Português Brasileiro","authors":"Leonardo Carneiro de Araújo, A. Benevides, Marcos Pereira","doi":"10.21814/lm.12.1.300","DOIUrl":"https://doi.org/10.21814/lm.12.1.300","url":null,"abstract":"EnglishUnder the perspective of Quantitative Linguistics, this paper revisits the Menzerath's Law, applying it to data from Brazilian Portuguese, using the following unities of analysis: words, syllables and phonemes. The data was extracted from the ABG Corpus. Statistical analyses are performed on the proposed models, corroborating the existence of a decay relationship between the mean length of words (in syllables) and the average length of syllables (in phonemes); what corroborates the Menzerath Law. It is noticed that better measures or variables not considered in the model might be used to improve it. portuguesSob a otica da Linguistica Quantitativa, este trabalho revisita a Lei de Menzerath, aplicando-a aos dados do portugues brasileiro, a partir das seguintes unidades de analise: palavras, silabas e fonemas. Os dados foram extraidos do Corpus ABG. Analises estatisticas foram realizadas nos modelos propostos, as quais demonstraram uma relacao de decrescimento entre o comprimento medio das palavras (em silabas) e o comprimento medio das silabas (em fonemas); resultados esses que corroboram a Lei de Menzerath. Alemdisso, constatou-se, de maneira geral, que melhores medicoes ou a existencia de variaveis nao consideradas no modelo poderao ser utilizadas para melhora-lo.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"12 1","pages":"31-48"},"PeriodicalIF":0.6,"publicationDate":"2020-06-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"44237637","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 0

Periodização automática Estudos linguistíco-estatísticos de literatura lusófona 英语文学的语言统计研究

IF 0.6 Q4 LINGUISTICS

Linguamatica

Pub Date : 2020-06-29 DOI: 10.21814/lm.12.1.314

Diana Santos, E. Pires, Cláudia Freitas, Rebeca Schumacher Fuão, J. A. Lopes

EnglishIn this paper we use a set of syntactic and semantic features of Portuguese to automatically classify literary works in literary periods and/or schools, and address the issue of their appropriateness, for two different literary collections. The first task attempts to replicate the work by Barufaldi and colleagues, who applied compression methods on 37 Brazilian works by 15 different authors and classified the works in 4 different literary schools. The second collection, of 192 novels published in Portugal and Brazil in the period 1840 to 1919, features many works who cannot be singly accomodated in one literary school only, and which have been (not mutually exclusively) classified as romantic, realist, naturalist, symbolist, decadent and modernist. We use classification techniques in R, such as discriminant analysis and support vector models for the first task, and correspondence analysis for the second collection. We also apply topic modeling to (distinct subsets of) the second collection in order to investigate whether this technique can provide us with recurrent topics for different literary schools. portuguesNeste artigo usamos um conjunto de caracteristicas sintatico-semânticas da lingua portuguesa para classificar em periodos literarios dois conjuntos de obras. Em que medida tais caracteristicas sao capazes de refletir distincoes relevantes no âmbito dos estudos literarios e uma das questoes que pretendemos investigar. O primeiro grupo de obras corresponde a replicacao do trabalho relatado em 2009 por Barufaldi et al., que usaram metodos de compressao de dados sobre uma serie de obras brasileiras classificadas em quatro periodos literarios: barroco, arcadismo, romantismo e realismo, desde o Padre Antonio Vieira ate Raul Pompeia, contabilizando 15 autores diferentes e totalizando 37 obras. O segundo grupo inclui muito mais obras (192), tanto portuguesas como brasileiras, mas apenas integra romances ou novelas publicadas no periodo de 1840 a 1919. As escolas literarias escolhidas foram o realismo, o romantismo, o simbolismo, o naturalismo, o decadentismo e o modernismo, mas, ao contrario da classificacao anterior, permitimos que uma mesma obra pertenca a varias escolas. Usamos tecnicas de classificacao em R para a primeira tarefa, e analise de correspondencias para a segunda. Tambem aplicamos tecnicas de modelos de topicos a segunda colecao para ver se e possivel obter topicos representativos de escolas literarias diferentes.

在本文中，我们使用葡萄牙语的一组句法和语义特征来自动分类文学作品在文学时期和/或流派，并解决他们的适当性问题，为两个不同的文学收藏。第一个任务试图复制Barufaldi及其同事的工作，他们对15位不同作家的37部巴西作品采用压缩方法，并将这些作品分为4个不同的文学流派。第二部是在1840年至1919年期间在葡萄牙和巴西出版的192部小说，其中的许多作品不能单独归入一个文学流派，它们被分为浪漫主义、现实主义、自然主义、象征主义、颓废主义和现代主义(并非相互排斥)。我们在R中使用分类技术，例如判别分析和支持向量模型用于第一个任务，对应分析用于第二个集合。我们还将主题建模应用于第二集(不同的子集)，以研究这种技术是否可以为我们提供不同文学流派的重复主题。葡萄牙语与葡萄牙语言的结合，葡萄牙语与古典文学的结合，葡萄牙语与古典文学的结合。“媒介的特征”与“反映性的特征”是不同的;“媒介的特征”是不同的;“文学的特征”是不同的;2009年，por Barufaldi等人，用一种全新的方法来描述巴西的古典文学:巴洛克风格，古典主义，浪漫主义和现实主义，安东尼奥·维埃拉和劳尔·庞培的作品，15种不同的风格和37种不同的风格。第二组的作品包括:《爱情》(1920)、《葡萄牙人》、《巴西人》、《完整的爱情》和1840年至1919年间出版的中篇小说。就像文学作品一样文学作品从现实主义，浪漫主义，象征主义，自然主义，颓废主义到现代主义，都有不同的形式，不同的古典主义，不同的文学作品都有不同的形式。美国的技术是在第一阶段进行分类的，第二阶段进行相应的分析。Tambem运用技术、模型、主题和第二集来分析可能存在的其他主题的不同代表。

{"title":"Periodização automática Estudos linguistíco-estatísticos de literatura lusófona","authors":"Diana Santos, E. Pires, Cláudia Freitas, Rebeca Schumacher Fuão, J. A. Lopes","doi":"10.21814/lm.12.1.314","DOIUrl":"https://doi.org/10.21814/lm.12.1.314","url":null,"abstract":"EnglishIn this paper we use a set of syntactic and semantic features of Portuguese to automatically classify literary works in literary periods and/or schools, and address the issue of their appropriateness, for two different literary collections. The first task attempts to replicate the work by Barufaldi and colleagues, who applied compression methods on 37 Brazilian works by 15 different authors and classified the works in 4 different literary schools. The second collection, of 192 novels published in Portugal and Brazil in the period 1840 to 1919, features many works who cannot be singly accomodated in one literary school only, and which have been (not mutually exclusively) classified as romantic, realist, naturalist, symbolist, decadent and modernist. We use classification techniques in R, such as discriminant analysis and support vector models for the first task, and correspondence analysis for the second collection. We also apply topic modeling to (distinct subsets of) the second collection in order to investigate whether this technique can provide us with recurrent topics for different literary schools. portuguesNeste artigo usamos um conjunto de caracteristicas sintatico-semânticas da lingua portuguesa para classificar em periodos literarios dois conjuntos de obras. Em que medida tais caracteristicas sao capazes de refletir distincoes relevantes no âmbito dos estudos literarios e uma das questoes que pretendemos investigar. O primeiro grupo de obras corresponde a replicacao do trabalho relatado em 2009 por Barufaldi et al., que usaram metodos de compressao de dados sobre uma serie de obras brasileiras classificadas em quatro periodos literarios: barroco, arcadismo, romantismo e realismo, desde o Padre Antonio Vieira ate Raul Pompeia, contabilizando 15 autores diferentes e totalizando 37 obras. O segundo grupo inclui muito mais obras (192), tanto portuguesas como brasileiras, mas apenas integra romances ou novelas publicadas no periodo de 1840 a 1919. As escolas literarias escolhidas foram o realismo, o romantismo, o simbolismo, o naturalismo, o decadentismo e o modernismo, mas, ao contrario da classificacao anterior, permitimos que uma mesma obra pertenca a varias escolas. Usamos tecnicas de classificacao em R para a primeira tarefa, e analise de correspondencias para a segunda. Tambem aplicamos tecnicas de modelos de topicos a segunda colecao para ver se e possivel obter topicos representativos de escolas literarias diferentes.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"12 1","pages":"81-95"},"PeriodicalIF":0.6,"publicationDate":"2020-06-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"41627527","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 4

Una aplicación tecnológica que ayuda a la ciudadanía a escribir textos a la Administración pública 一种帮助公民向公共行政部门写作的技术应用

IF 0.6 Q4 LINGUISTICS

Linguamatica

Pub Date : 2020-06-29 DOI: 10.21814/lm.12.1.316

Iria da Cunha

espanolEn este trabajo se presenta una aplicacion tecnologica gratuita y en linea que ayuda a la ciudadania a escribir textos dirigidos a la Administracion publica. Concretamente, ayuda a redactar cinco generos textuales: alegacion, carta de presentacion, queja, reclamacion y solicitud. La aplicacion tiene forma de editor de textos e incluye tres modulos para: I) estructurar y anadir contenidos en el texto, II) corregirlo ortograficamente y darle formato, y III) obtener sugerencias de mejora sobre aspectos lexicos y discursivos. Integra diferentes herramientas de Procesamiento del Lenguaje Natural (PLN), como un analizador morfosintactico y un segmentador discursivo. Las evaluaciones data-driven y user-driven realizadas ofrecen resultados positivos. EnglishThis article presents a free and online technological application that helps citizens write texts addressed to the Public Administration. Specifically, it helps to draft five textual genres: allegation, cover letter, letter of complaint, claim and application. The technological application is a text editor that includes three modules: I) structure and contents of the text, II) spelling and format correction, and III) suggestions on vocabulary and discourse. It integrates different Natural Language Processing (NLP) tools, such as a morphosyntactic tagger and a discourse segmenter. The data-driven and user-driven evaluations performed show positive results.

西班牙这项工作介绍了一个免费的在线技术应用程序，该应用程序帮助公民编写针对公共行政部门的文本。具体而言，它帮助起草五种文本类型：指控、介绍信、投诉、索赔和申请。该应用程序以文本编辑器的形式存在，包括三个模块：（i）结构化和添加文本中的内容，（ii）拼写更正并格式化它，以及（iii）获得关于词汇和话语方面的改进建议。它集成了不同的自然语言处理工具，如语素分析器和话语分段器。进行的数据驱动和用户驱动评估提供了积极的结果。这篇文章提供了一个免费的在线技术应用程序，可以帮助公民撰写向公共行政部门发表的文本。具体而言，它有助于起草五种文本类型：指控、封面信、投诉信、索赔和申请。该技术应用程序是一个文本编辑器，包括三个模块：（i）文本的结构和内容，（ii）拼写和格式更正，以及（iii）关于词汇和话语的建议。它集成了不同的自然语言处理（NLP）工具，如形态句法标记器和话语分段器。进行的数据驱动和用户驱动评估显示了积极的结果。

{"title":"Una aplicación tecnológica que ayuda a la ciudadanía a escribir textos a la Administración pública","authors":"Iria da Cunha","doi":"10.21814/lm.12.1.316","DOIUrl":"https://doi.org/10.21814/lm.12.1.316","url":null,"abstract":"espanolEn este trabajo se presenta una aplicacion tecnologica gratuita y en linea que ayuda a la ciudadania a escribir textos dirigidos a la Administracion publica. Concretamente, ayuda a redactar cinco generos textuales: alegacion, carta de presentacion, queja, reclamacion y solicitud. La aplicacion tiene forma de editor de textos e incluye tres modulos para: I) estructurar y anadir contenidos en el texto, II) corregirlo ortograficamente y darle formato, y III) obtener sugerencias de mejora sobre aspectos lexicos y discursivos. Integra diferentes herramientas de Procesamiento del Lenguaje Natural (PLN), como un analizador morfosintactico y un segmentador discursivo. Las evaluaciones data-driven y user-driven realizadas ofrecen resultados positivos. EnglishThis article presents a free and online technological application that helps citizens write texts addressed to the Public Administration. Specifically, it helps to draft five textual genres: allegation, cover letter, letter of complaint, claim and application. The technological application is a text editor that includes three modules: I) structure and contents of the text, II) spelling and format correction, and III) suggestions on vocabulary and discourse. It integrates different Natural Language Processing (NLP) tools, such as a morphosyntactic tagger and a discourse segmenter. The data-driven and user-driven evaluations performed show positive results.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"12 1","pages":"97-115"},"PeriodicalIF":0.6,"publicationDate":"2020-06-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"44970322","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 0

Subjetividade em correções de redações detecção automática através de léxico de operadores de viés linguístico 校对中的主观性通过语言偏差操作符的词汇自动检测

IF 0.6 Q4 LINGUISTICS

Linguamatica

Pub Date : 2020-06-29 DOI: 10.21814/lm.12.1.313

Márcia Cançado, Luana Amaral, Evelin Amorim, A. Veloso, Heliana Mello

EnglishEssays are very important assessment tools for Brazilian students. Therefore, it is expected that the grading of these texts will be made with as little subjectivity as possible. However, in an analysis of a sample of grading sheet comments by evaluators, we have noticed a high degree of subjectivity in these texts. From this first analysis, carried manually, we proposed the hypothesis that this genre is more subjective than one would expect. In order to corroborate this hypothesis, we have drawn up a list of linguistic bias markers, divided into four categories: argumentative operators, presupposition operators, modalization operators, and opinion and value operators. This list was applied to a corpus of essay grading sheet comments by evaluators, using an automatic language bias detection methodology. From this, we were able to quantify the linguistic bias markers present in these texts. These bias markers were also analyzed in two other corpora: abstracts and product reviews published on internet sales sites. We have compared the percentage of these markers in evaluators’ comments with the percentage numbers of these markers in genres admittedly less subjective (abstracts) and admittedly more subjective (reviews). For such comparison, we have used boxplots, a statistical tool widely used in data comparison analysis. Our results indicated that the grading sheets, as for the number of bias markers, are closer to more subjective texts than to less subjective texts. This corroborates our hypothesis and indicates that these grading sheets present a high degree of subjectivity, closer to the degree of a more subjective text. Thus, we conclude that these grading sheets reflect the personal views of the evaluator, deviating from the correction criteria, which raises doubts about considering this genre an exempt and fair assessment instrument. portuguesAs redacoes sao instrumentos avaliativos muito importantes para os estudantes brasileiros. Mesmo que seja assumido que a subjetividade esteja presente em todo e qualquer texto, espera-se que as correcoes dessas redacoes sejam feitas com o minimo de subjetividade possivel. Entretanto, a partir da analise de uma amostra de correcoes de redacao, percebemos um alto grau de subjetividade nesses textos. Baseados nessa pre-analise, feita de forma manual, levantamos a hipotese de que o genero "correcao de redacao" e mais subjetivo do que se esperaria. Para corroborar essa hipotese, elaboramos uma lista de operadores linguisticos, marcadores de vies, dividida em quatro categorias: operadores argumentativos, operadores de pressuposicao, operadores de modalidade e operadores de opiniao e valoracao. Essa lista foi aplicada, atraves de uma metodologia de deteccao automatica de linguagem enviesada, a um corpus de correcoes de redacao. A partir disso, quantificamos os operadores de vies presentes nesses textos. Foram tambem analisados esses operadores de vies em dois outros corpora: de resumos academicos e de re

警告律师是巴西学生非常重要的评估工具。因此，预计这些文本的评分将尽可能减少主观性。然而，在评估人员对评分表评论样本的分析中，我们注意到这些文本中存在高度的主观性。从第一次手动分析中，我们提出了这样一个假设，即这种类型比人们预期的更主观。为了证实这一假设，我们列出了一份语言偏见标记列表，分为四类：议论文运算符、假设运算符、模态运算符以及观点和价值运算符。该列表由评估人员使用自动语言偏见检测方法应用于论文评分表评论语料库。由此，我们能够量化这些文本中存在的语言偏见标记。这些偏见标记也在另外两个语料库中进行了分析：在互联网销售网站上发表的摘要和产品评论。我们将这些标记在评估者评论中的百分比与这些标记在公认不太主观（摘要）和公认更主观（评论）的流派中的百分比进行了比较。对于这种比较，我们使用了箱图，这是一种广泛用于数据比较分析的统计工具。我们的结果表明，就偏倚标记的数量而言，评分表更接近主观程度较高的文本，而不是主观程度较低的文本。这证实了我们的假设，并表明这些评分表呈现出高度的主观性，更接近于更主观的文本。因此，我们得出的结论是，这些评分表反映了评估者的个人观点，偏离了校正标准，这引发了人们对将这一类型视为一个例子和公平的评估工具的怀疑。论文对巴西学生来说是非常重要的评估工具。即使假设主体性存在于任何文本中，也应以尽可能小的主观性对这些文章进行更正。然而，通过对编辑更正样本的分析，我们发现这些文本具有高度的主观性。基于手动进行的预分析，我们假设“编辑更正”这一类型比预期的更主观。为了支持这一假设，我们详细列出了一份语言运算符，即偏误标记，分为四类：议论文运算符、预设运算符、模态运算符以及观点和评价运算符。该列表通过自动检测有偏见的语言的方法应用于编辑更正语料库。由此，我们量化了这些文本中存在的偏差算子。在另外两个语料库中也对这些偏倚算子进行了分析：学术摘要和互联网销售网站上发布的产品评论。这项分析的目的是比较这些偏差标记在编辑更正和慷慨的（公认不太主观的）学术摘要和公认更主观的（评论）中的分布。为了进行这种比较，我们推出了一种广泛用于数据比较分析的统计工具，即箱图。我们的研究结果表明，与学术摘要相比，编辑更正中语言偏见算子的分布更接近评论中这些项目的分布。这证实了我们的假设，并表明更正的主观性程度很高，更接近于评论等文本的主观性程度。因此，我们得出的结论是，这些更正反映了经纪人的观点，偏离了更正标准，这引发了人们对这类作为豁免和公平估价工具的考虑的怀疑。

{"title":"Subjetividade em correções de redações detecção automática através de léxico de operadores de viés linguístico","authors":"Márcia Cançado, Luana Amaral, Evelin Amorim, A. Veloso, Heliana Mello","doi":"10.21814/lm.12.1.313","DOIUrl":"https://doi.org/10.21814/lm.12.1.313","url":null,"abstract":"EnglishEssays are very important assessment tools for Brazilian students. Therefore, it is expected that the grading of these texts will be made with as little subjectivity as possible. However, in an analysis of a sample of grading sheet comments by evaluators, we have noticed a high degree of subjectivity in these texts. From this first analysis, carried manually, we proposed the hypothesis that this genre is more subjective than one would expect. In order to corroborate this hypothesis, we have drawn up a list of linguistic bias markers, divided into four categories: argumentative operators, presupposition operators, modalization operators, and opinion and value operators. This list was applied to a corpus of essay grading sheet comments by evaluators, using an automatic language bias detection methodology. From this, we were able to quantify the linguistic bias markers present in these texts. These bias markers were also analyzed in two other corpora: abstracts and product reviews published on internet sales sites. We have compared the percentage of these markers in evaluators’ comments with the percentage numbers of these markers in genres admittedly less subjective (abstracts) and admittedly more subjective (reviews). For such comparison, we have used boxplots, a statistical tool widely used in data comparison analysis. Our results indicated that the grading sheets, as for the number of bias markers, are closer to more subjective texts than to less subjective texts. This corroborates our hypothesis and indicates that these grading sheets present a high degree of subjectivity, closer to the degree of a more subjective text. Thus, we conclude that these grading sheets reflect the personal views of the evaluator, deviating from the correction criteria, which raises doubts about considering this genre an exempt and fair assessment instrument. portuguesAs redacoes sao instrumentos avaliativos muito importantes para os estudantes brasileiros. Mesmo que seja assumido que a subjetividade esteja presente em todo e qualquer texto, espera-se que as correcoes dessas redacoes sejam feitas com o minimo de subjetividade possivel. Entretanto, a partir da analise de uma amostra de correcoes de redacao, percebemos um alto grau de subjetividade nesses textos. Baseados nessa pre-analise, feita de forma manual, levantamos a hipotese de que o genero \"correcao de redacao\" e mais subjetivo do que se esperaria. Para corroborar essa hipotese, elaboramos uma lista de operadores linguisticos, marcadores de vies, dividida em quatro categorias: operadores argumentativos, operadores de pressuposicao, operadores de modalidade e operadores de opiniao e valoracao. Essa lista foi aplicada, atraves de uma metodologia de deteccao automatica de linguagem enviesada, a um corpus de correcoes de redacao. A partir disso, quantificamos os operadores de vies presentes nesses textos. Foram tambem analisados esses operadores de vies em dois outros corpora: de resumos academicos e de re","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"12 1","pages":"63-79"},"PeriodicalIF":0.6,"publicationDate":"2020-06-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"43822223","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 3

Reescrita sentencial baseada em traços de personalidade 基于人格特征的情感重写

IF 0.6 Q4 LINGUISTICS

Linguamatica

Pub Date : 2020-06-29 DOI: 10.11606/D.100.2018.TDE-09052018-203241

Georges Basile Stavracas Neto, Ivandré Paraboni

Sistemas de Geração de Língua Natural (GLN) são centrais para o desenvolvimento de comunicação humano-computador realista e psicologicamente plausível que não recorra ao uso de texto fixo ou predefinido, fazendo uso de uma ampla gama de estratégias para modelar alguma forma de variação estilística. Entre estas estratégias, o uso de modelos computacionais da personalidade humana emergiu como uma alternativa popular na área. Neste contexto, o presente trabalho apresenta um modelo de GLN do tipo texto-para-texto (ou reescrita sentencial) para o português que leva em conta, além da sentença a ser reescrita, informações sobre a personalidade de um locutor-alvo de interesse. Mais especificamente, o modelo transforma a sentença de entrada em outra na qual certas formas lexicais são substituídas por termos mais adequados ao tipo de personalidade-alvo fornecido. Resultados sugerem que as sentenças geradas com base em personalidade são mais próximas das que seriam produzidas por um locutor humano com as características de personalidade fornecidas do que seria possível sem acesso a essa informação, e abrem assim caminho para futuros estudos de geração de língua natural personalizada em português.

自然语言生成系统（NLG）是发展现实主义和心理上合理的人机交流的核心，它不依赖于使用固定或预定义的文本，使用广泛的策略来模拟某种形式的文体变化。在这些策略中，使用人类性格的计算模型成为该地区流行的替代方案。在这种背景下，本工作提出了一个葡萄牙语的文本到文本（或句子改写）GLN模型，该模型除了要改写的句子外，还考虑了有关感兴趣的目标说话者的个性信息。更具体地说，该模型将输入句子转换为另一个句子，其中某些词汇形式被更适合所提供的目标人格类型的术语所取代。结果表明，基于个性生成的句子比没有这些信息的情况下更接近于具有所提供的个性特征的人类说话者所生成的句子，从而为未来研究葡萄牙语中个性化自然语言的生成铺平了道路。

{"title":"Reescrita sentencial baseada em traços de personalidade","authors":"Georges Basile Stavracas Neto, Ivandré Paraboni","doi":"10.11606/D.100.2018.TDE-09052018-203241","DOIUrl":"https://doi.org/10.11606/D.100.2018.TDE-09052018-203241","url":null,"abstract":"Sistemas de Geração de Língua Natural (GLN) são centrais para o desenvolvimento de comunicação humano-computador realista e psicologicamente plausível que não recorra ao uso de texto fixo ou predefinido, fazendo uso de uma ampla gama de estratégias para modelar alguma forma de variação estilística. Entre estas estratégias, o uso de modelos computacionais da personalidade humana emergiu como uma alternativa popular na área. Neste contexto, o presente trabalho apresenta um modelo de GLN do tipo texto-para-texto (ou reescrita sentencial) para o português que leva em conta, além da sentença a ser reescrita, informações sobre a personalidade de um locutor-alvo de interesse. Mais especificamente, o modelo transforma a sentença de entrada em outra na qual certas formas lexicais são substituídas por termos mais adequados ao tipo de personalidade-alvo fornecido. Resultados sugerem que as sentenças geradas com base em personalidade são mais próximas das que seriam produzidas por um locutor humano com as características de personalidade fornecidas do que seria possível sem acesso a essa informação, e abrem assim caminho para futuros estudos de geração de língua natural personalizada em português.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"12 1","pages":"49-61"},"PeriodicalIF":0.6,"publicationDate":"2020-06-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"49564238","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 0

Relación entre calidad de escritura y rasgos lingüístico-discursivos en las introducciones de los trabajos finales de grado de ingenierı'a civil informática 写作质量和lingüístico-discursivos特征的关系,在最后论文导语的程度ingenierı”正在计算公民

IF 0.6 Q4 LINGUISTICS

Linguamatica

Pub Date : 2020-06-25 DOI: 10.21814/lm.12.1.297

F. Fuentes, R. Venegas

espanolEn este articulo nos proponemos relacionar la calidad de la escritura con un amplio conjunto de rasgos linguisticos y discursivos presentes en introducciones de los trabajos finales de grado de Ingenieria civil informatica. Para ello se evaluaron 101 introducciones, utilizando una rubrica disenada para este efecto. Se realiza un estudio correlacional entre la evaluacion de la calidad y 203 variables lexicas, de extension, sintacticas y discursivas. Luego, se realizo un analisis de regresion lineal con el fin de identificar variables predictoras de la calidad de las introducciones. Entre nuestros hallazgos destacamos que la extension (promedio de palabras) presenta una relacion negativa fuerte con la calidad de la introduccion, a su vez el uso de conectores conclusivos y la complejidad sintactica se correlacionan de manera positiva con la calidad de las introducciones. Asi tambien, el cumplimiento de propositos comunicativos, en particular la indicacion del vacio, presenta correlaciones positivas medias con la calidad del escrito. Con el analisis de regresion se pudo identificar que las tres primeras variables tienen valores estadisticos significativos para predecir las calidad de la introduccion de acuerdo a los valores promedio de evaluacion asignada por los evaluadores. Estos resultados son de interes para aplicaciones computacionales de apoyo a la escritura academica. EnglishIn this article we propose to relate the quality of writing with a wide range of linguistic and discursive features present in the introductions of the final works of the degree in Civil Engineering in Computer Science. For this purpose, an evaluation of 101 introductions is carried out, based on a rubric designed for this purpose. A correlation study is carried out between the evaluation of quality and 203 variables identified in the texts. Then, a linear regression analysis was carried out in order to identify predictive variables of the quality of the introductions. Among our findings we highlight that the length (average of words) presents a strong negative relationship with the quality of the introduction, in turn the use of conclusive connectors and syntactic complexity are positively correlated with the quality of the introductions. Also, the fulfillment of communicative purposes, in particular the indication of the gap, presents mean positive correlations with the quality of the writing. With the regression analysis it was possible to identify that the first three variables have significant statistical values to predict the quality of the introduction according to the average evaluation values assigned by the evaluators. These results are of interest for computational applications to support academic writing.

在这篇文章中，我们建议将写作质量与广泛的语言和论述特征联系起来，这些特征出现在土木工程计算机科学学位的最终作品的介绍中。为此目的，使用为此目的设计的标题对101篇介绍进行了评估。本研究的目的是评估西班牙语教学质量，并评估西班牙语教学质量。在本研究中，我们分析了两种不同类型的引种，一种是在墨西哥，另一种是在墨西哥。在我们的研究中，我们强调了外延(单词平均)与介绍质量有很强的负相关关系，而结语连接词的使用和句法复杂性与介绍质量有正相关关系。此外，交际目的的实现，特别是空虚的表达，与写作质量呈正相关。在本研究中，我们分析了三个变量，这些变量在统计学上具有显著的价值，可以根据评估者分配的平均评价值来预测引入的质量。这些结果对支持学术写作的计算应用很有意义。在这篇文章中，我们建议用广泛的语言学和论述特征来描述写作的质量，这些特征出现在土木工程和计算机科学学位的最终作品的介绍中。在这方面，根据为此目的而设计的一个标题，对101种介绍进行了评估。在质量评价和文本中确定的203个变量之间进行了一项相关研究。= =地理= =根据美国人口普查，这个县的面积为。在我们的调查结果中，我们强调长度(字数平均值)与引文的质量有很强的负相关关系，而结论性连接器的使用和句法复杂性与引文的质量有正相关关系。此外，交际目的的实现，特别是差距的表现，与写作质量有正相关关系。通过回归分析，可以确定前三个变量具有显著的统计值，根据评价者分配的平均评价值预测介绍的质量。这些结果are of interest for computational biology applications to support academic writing。

{"title":"Relación entre calidad de escritura y rasgos lingüístico-discursivos en las introducciones de los trabajos finales de grado de ingenierı'a civil informática","authors":"F. Fuentes, R. Venegas","doi":"10.21814/lm.12.1.297","DOIUrl":"https://doi.org/10.21814/lm.12.1.297","url":null,"abstract":"espanolEn este articulo nos proponemos relacionar la calidad de la escritura con un amplio conjunto de rasgos linguisticos y discursivos presentes en introducciones de los trabajos finales de grado de Ingenieria civil informatica. Para ello se evaluaron 101 introducciones, utilizando una rubrica disenada para este efecto. Se realiza un estudio correlacional entre la evaluacion de la calidad y 203 variables lexicas, de extension, sintacticas y discursivas. Luego, se realizo un analisis de regresion lineal con el fin de identificar variables predictoras de la calidad de las introducciones. Entre nuestros hallazgos destacamos que la extension (promedio de palabras) presenta una relacion negativa fuerte con la calidad de la introduccion, a su vez el uso de conectores conclusivos y la complejidad sintactica se correlacionan de manera positiva con la calidad de las introducciones. Asi tambien, el cumplimiento de propositos comunicativos, en particular la indicacion del vacio, presenta correlaciones positivas medias con la calidad del escrito. Con el analisis de regresion se pudo identificar que las tres primeras variables tienen valores estadisticos significativos para predecir las calidad de la introduccion de acuerdo a los valores promedio de evaluacion asignada por los evaluadores. Estos resultados son de interes para aplicaciones computacionales de apoyo a la escritura academica. EnglishIn this article we propose to relate the quality of writing with a wide range of linguistic and discursive features present in the introductions of the final works of the degree in Civil Engineering in Computer Science. For this purpose, an evaluation of 101 introductions is carried out, based on a rubric designed for this purpose. A correlation study is carried out between the evaluation of quality and 203 variables identified in the texts. Then, a linear regression analysis was carried out in order to identify predictive variables of the quality of the introductions. Among our findings we highlight that the length (average of words) presents a strong negative relationship with the quality of the introduction, in turn the use of conclusive connectors and syntactic complexity are positively correlated with the quality of the introductions. Also, the fulfillment of communicative purposes, in particular the indication of the gap, presents mean positive correlations with the quality of the writing. With the regression analysis it was possible to identify that the first three variables have significant statistical values to predict the quality of the introduction according to the average evaluation values assigned by the evaluators. These results are of interest for computational applications to support academic writing.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"12 1","pages":"3-13"},"PeriodicalIF":0.6,"publicationDate":"2020-06-25","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"47783419","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 4

Generación automática de frases literarias 文学句子的自动生成

IF 0.6 Q4 LINGUISTICS

Linguamatica

Pub Date : 2020-06-25 DOI: 10.21814/lm.12.1.308

Luis-Gil Moreno-Jiménez, Juan-Manuel Torres-Moreno, Roseli S. Wedemann, Eric SanJuan

En este artı́culo abordamos el tema de la generación automática de frases literarias, que es una parte importante de los estudios relacionados al área de la Creatividad Computacional (CC). Proponemos tres modelos de generación textual guiados por un contexto, basados principalmente en algoritmos estadı́sticos y análisis sintáctico superficial. Los textos generados fueron evaluados por siete personas a partir de 4 criterios: gramaticalidad, coherencia, relación con el contexto y una adaptación del test de Turing, en donde se pidio a los evaluadores clasificar los textos en: textos generados automáticamente y textos generados por humanos. Los resultados obtenidos son bastante alentadores.

在这篇文章中，我们讨论了文学短语的自动生成问题，这是与计算创造力领域有关的研究的重要组成部分。我们提出了三种以上下文为指导的文本生成模型，主要基于统计算法和表面句法分析。7人根据4个标准对生成的文本进行了评估：语法性、一致性、与上下文的关系和图灵测试的改编，其中要求评估人员将文本分类为：自动生成的文本和人为生成的文本。所取得的结果相当令人鼓舞。

引用次数: 5