{"title":"Nheengatu片段的计算语法","authors":"L. F. D. Alencar","doi":"10.17851/2237-2083.29.3.1717-1777","DOIUrl":null,"url":null,"abstract":"Resumo: A disponibilidade de recursos para o processamento computacional constitui um dos fatores de sobrevivencia de uma lingua. O objetivo deste trabalho foi implementar um fragmento do nheengatu no formalismo Grammatical Framework , especialmente projetado para o desenvolvimento de aplicacoes multilingues. Outrora mais falado que o portugues na Amazonia, o nheengatu esta ameacado de extincao, embora ainda conte com estimados 14000 falantes. O fragmento restringe-se a oracoes que expressam estados contingentes e nao-contingentes, mas inclui fenomenos gramaticais estruturalmente complexos tipicos da familia tupi-guarani, os quais contrastam fortemente com as construcoes equivalentes em portugues e ingles. Constitui um dos modulos da GrammYEP, uma gramatica computacional multilingue que integra modulos analogos do ingles e do portugues. A implementacao tomou como ponto de partida as descricoes gramaticais nao formalizadas de Navarro (2011) e Cruz (2011). A formalizacao revelou lacunas e inconsistencias nessas abordagens, em parte sanados por meio de uma reanalise dos dados. A GrammYEP alcancou resultados bastantes satisfatorios na traducao do e para o nheengatu. Traduziu para o portugues e o ingles a totalidade de um conjunto-teste de 142 sentencas dessa lingua. Inversamente, verteu para o nheengatu 98,18% e 84,11% dos conjuntos-teste correspondentes em portugues e ingles. Por outro lado, analisou apenas dois exemplos de um conjunto-teste negativo com 171 construcoes agramaticais em nheengatu. Desta avaliacao resultou um treebank com 243 sentencas do nheengatu, emparelhadas com as sentencas equivalentes em portugues e ingles. Palavras-chave: lingua geral amazonica (LGA); tupi moderno; predicacao qualificativa; construcao possessiva; traducao automatica; linguistica computacional; processamento de linguagem natural. Abstract: The availability of resources for computational processing is one of the survival factors of a language. The goal of this work was to implement a fragment of Nheengatu in the Grammatical Framework formalism, specially designed for the development of multilingual applications. Once more widely spoken than Portuguese in the Amazon region, Nheengatu is threatened with extinction, although it still has an estimated number of 14,000 speakers. The fragment is restricted to sentences that express contingent and non-contingent states, but includes structurally complex grammatical phenomena typical of the Tupi-Guarani family, which strongly contrast with the equivalent constructions in Portuguese and English. It constitutes one of the modules of GrammYEP, a multilingual computational grammar comprising equivalent English and Portuguese modules. The starting point of the implementation was the non-formalized grammatical descriptions of Navarro (2011) and Cruz (2011). The formalization revealed gaps and inconsistencies in these approaches, which were partly remedied through a reanalysis of the data. GrammYEP achieved quite satisfactory results in the translation from and to Nheengatu. It translated into Portuguese and English all examples from a test set with 142 Nheengatu sentences. Conversely, 98.18% and 84.11% of the corresponding Portuguese and English test sets were rendered into Nheengatu. On the other hand, it parsed only two examples from a negative test set with 171 ungrammatical constructions in Nheengatu. This evaluation resulted in a treebank with 243 Nheengatu sentences, paired with the equivalent sentences in Portuguese and English. Keywords: Amazonian Lingua Franca; Modern Tupi; qualifying predication; possessive construction; machine translation; computational linguistics; natural language processing.","PeriodicalId":42188,"journal":{"name":"Revista de Estudos da Linguagem","volume":"29 1","pages":"1717-1777"},"PeriodicalIF":0.2000,"publicationDate":"2021-04-08","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"2","resultStr":"{\"title\":\"Uma gramática computacional de um fragmento do nheengatu / A computational grammar for a fragment of Nheengatu\",\"authors\":\"L. F. D. Alencar\",\"doi\":\"10.17851/2237-2083.29.3.1717-1777\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Resumo: A disponibilidade de recursos para o processamento computacional constitui um dos fatores de sobrevivencia de uma lingua. O objetivo deste trabalho foi implementar um fragmento do nheengatu no formalismo Grammatical Framework , especialmente projetado para o desenvolvimento de aplicacoes multilingues. Outrora mais falado que o portugues na Amazonia, o nheengatu esta ameacado de extincao, embora ainda conte com estimados 14000 falantes. O fragmento restringe-se a oracoes que expressam estados contingentes e nao-contingentes, mas inclui fenomenos gramaticais estruturalmente complexos tipicos da familia tupi-guarani, os quais contrastam fortemente com as construcoes equivalentes em portugues e ingles. Constitui um dos modulos da GrammYEP, uma gramatica computacional multilingue que integra modulos analogos do ingles e do portugues. A implementacao tomou como ponto de partida as descricoes gramaticais nao formalizadas de Navarro (2011) e Cruz (2011). A formalizacao revelou lacunas e inconsistencias nessas abordagens, em parte sanados por meio de uma reanalise dos dados. A GrammYEP alcancou resultados bastantes satisfatorios na traducao do e para o nheengatu. Traduziu para o portugues e o ingles a totalidade de um conjunto-teste de 142 sentencas dessa lingua. Inversamente, verteu para o nheengatu 98,18% e 84,11% dos conjuntos-teste correspondentes em portugues e ingles. Por outro lado, analisou apenas dois exemplos de um conjunto-teste negativo com 171 construcoes agramaticais em nheengatu. Desta avaliacao resultou um treebank com 243 sentencas do nheengatu, emparelhadas com as sentencas equivalentes em portugues e ingles. Palavras-chave: lingua geral amazonica (LGA); tupi moderno; predicacao qualificativa; construcao possessiva; traducao automatica; linguistica computacional; processamento de linguagem natural. Abstract: The availability of resources for computational processing is one of the survival factors of a language. The goal of this work was to implement a fragment of Nheengatu in the Grammatical Framework formalism, specially designed for the development of multilingual applications. Once more widely spoken than Portuguese in the Amazon region, Nheengatu is threatened with extinction, although it still has an estimated number of 14,000 speakers. The fragment is restricted to sentences that express contingent and non-contingent states, but includes structurally complex grammatical phenomena typical of the Tupi-Guarani family, which strongly contrast with the equivalent constructions in Portuguese and English. It constitutes one of the modules of GrammYEP, a multilingual computational grammar comprising equivalent English and Portuguese modules. The starting point of the implementation was the non-formalized grammatical descriptions of Navarro (2011) and Cruz (2011). The formalization revealed gaps and inconsistencies in these approaches, which were partly remedied through a reanalysis of the data. GrammYEP achieved quite satisfactory results in the translation from and to Nheengatu. It translated into Portuguese and English all examples from a test set with 142 Nheengatu sentences. Conversely, 98.18% and 84.11% of the corresponding Portuguese and English test sets were rendered into Nheengatu. On the other hand, it parsed only two examples from a negative test set with 171 ungrammatical constructions in Nheengatu. This evaluation resulted in a treebank with 243 Nheengatu sentences, paired with the equivalent sentences in Portuguese and English. Keywords: Amazonian Lingua Franca; Modern Tupi; qualifying predication; possessive construction; machine translation; computational linguistics; natural language processing.\",\"PeriodicalId\":42188,\"journal\":{\"name\":\"Revista de Estudos da Linguagem\",\"volume\":\"29 1\",\"pages\":\"1717-1777\"},\"PeriodicalIF\":0.2000,\"publicationDate\":\"2021-04-08\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"2\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Revista de Estudos da Linguagem\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.17851/2237-2083.29.3.1717-1777\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"0\",\"JCRName\":\"LANGUAGE & LINGUISTICS\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Revista de Estudos da Linguagem","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.17851/2237-2083.29.3.1717-1777","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"0","JCRName":"LANGUAGE & LINGUISTICS","Score":null,"Total":0}
Uma gramática computacional de um fragmento do nheengatu / A computational grammar for a fragment of Nheengatu
Resumo: A disponibilidade de recursos para o processamento computacional constitui um dos fatores de sobrevivencia de uma lingua. O objetivo deste trabalho foi implementar um fragmento do nheengatu no formalismo Grammatical Framework , especialmente projetado para o desenvolvimento de aplicacoes multilingues. Outrora mais falado que o portugues na Amazonia, o nheengatu esta ameacado de extincao, embora ainda conte com estimados 14000 falantes. O fragmento restringe-se a oracoes que expressam estados contingentes e nao-contingentes, mas inclui fenomenos gramaticais estruturalmente complexos tipicos da familia tupi-guarani, os quais contrastam fortemente com as construcoes equivalentes em portugues e ingles. Constitui um dos modulos da GrammYEP, uma gramatica computacional multilingue que integra modulos analogos do ingles e do portugues. A implementacao tomou como ponto de partida as descricoes gramaticais nao formalizadas de Navarro (2011) e Cruz (2011). A formalizacao revelou lacunas e inconsistencias nessas abordagens, em parte sanados por meio de uma reanalise dos dados. A GrammYEP alcancou resultados bastantes satisfatorios na traducao do e para o nheengatu. Traduziu para o portugues e o ingles a totalidade de um conjunto-teste de 142 sentencas dessa lingua. Inversamente, verteu para o nheengatu 98,18% e 84,11% dos conjuntos-teste correspondentes em portugues e ingles. Por outro lado, analisou apenas dois exemplos de um conjunto-teste negativo com 171 construcoes agramaticais em nheengatu. Desta avaliacao resultou um treebank com 243 sentencas do nheengatu, emparelhadas com as sentencas equivalentes em portugues e ingles. Palavras-chave: lingua geral amazonica (LGA); tupi moderno; predicacao qualificativa; construcao possessiva; traducao automatica; linguistica computacional; processamento de linguagem natural. Abstract: The availability of resources for computational processing is one of the survival factors of a language. The goal of this work was to implement a fragment of Nheengatu in the Grammatical Framework formalism, specially designed for the development of multilingual applications. Once more widely spoken than Portuguese in the Amazon region, Nheengatu is threatened with extinction, although it still has an estimated number of 14,000 speakers. The fragment is restricted to sentences that express contingent and non-contingent states, but includes structurally complex grammatical phenomena typical of the Tupi-Guarani family, which strongly contrast with the equivalent constructions in Portuguese and English. It constitutes one of the modules of GrammYEP, a multilingual computational grammar comprising equivalent English and Portuguese modules. The starting point of the implementation was the non-formalized grammatical descriptions of Navarro (2011) and Cruz (2011). The formalization revealed gaps and inconsistencies in these approaches, which were partly remedied through a reanalysis of the data. GrammYEP achieved quite satisfactory results in the translation from and to Nheengatu. It translated into Portuguese and English all examples from a test set with 142 Nheengatu sentences. Conversely, 98.18% and 84.11% of the corresponding Portuguese and English test sets were rendered into Nheengatu. On the other hand, it parsed only two examples from a negative test set with 171 ungrammatical constructions in Nheengatu. This evaluation resulted in a treebank with 243 Nheengatu sentences, paired with the equivalent sentences in Portuguese and English. Keywords: Amazonian Lingua Franca; Modern Tupi; qualifying predication; possessive construction; machine translation; computational linguistics; natural language processing.