E possivel ensinar usando os materiais criados pelos proprios alunos, e ao mesmo tempo anota-los para obter mais material que fique publico para mais professores e estudantes? E possivel desenvolver o DISPARA, inicialmente concebido para disponibilizar corpos de traducao "tradicionais", de forma a conter mais um nivel de anotacao de "critica de traducao"? O projeto PoNTE pretende ser uma abordagem inicial a estas duas questoes. Neste artigo, descrevo o tipo de comentarios e anotacao critica que seria desejavel ter codificado num corpo deste genero, a sua primeira implementacao e estudos realizados, e os problemas tecnicos que ainda se poem na gestao de um corpo sempre crescente.
{"title":"PoNTE: apontando para corpos de aprendizes de tradução avançados","authors":"Diana Santos","doi":"10.21814/LM.6.1.171","DOIUrl":"https://doi.org/10.21814/LM.6.1.171","url":null,"abstract":"E possivel ensinar usando os materiais criados pelos proprios alunos, e ao mesmo tempo anota-los para obter mais material que fique publico para mais professores e estudantes? E possivel desenvolver o DISPARA, inicialmente concebido para disponibilizar corpos de traducao \"tradicionais\", de forma a conter mais um nivel de anotacao de \"critica de traducao\"? O projeto PoNTE pretende ser uma abordagem inicial a estas duas questoes. Neste artigo, descrevo o tipo de comentarios e anotacao critica que seria desejavel ter codificado num corpo deste genero, a sua primeira implementacao e estudos realizados, e os problemas tecnicos que ainda se poem na gestao de um corpo sempre crescente.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"6 1","pages":"69-86"},"PeriodicalIF":0.6,"publicationDate":"2014-07-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68370818","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
EnglishIn this paper we investigate the applicability of Barzilay and Lapata’s (2008) entity-grid model in the evaluation of local coherence in scientific abstracts written in Portuguese. More specifically, we focused on assessing whether such model could be employed in the implementation of a classifier capable of detecting linearity breaks that affect text coherence. Our experimental results are close to those of the original entity-grid model for English and very similar to the results reported by related works for other languages. In experiments with scientific abstracts, results are close to those obtained by human judges, showing that the entity-grid model can be used in the investigated context. portuguesEste artigo apresenta os resultados de uma investigacao acerca da aplicabilidade do modelo grade de entidades proposto por Barzilay e Lapata (2008) na avaliacao de coeencia local em resumos cientificos escritos em portugues. Mais especificamente, se buscou avaliar se tal modelo poderia ser empregado na implementacao de um classificador capaz de detectar quebras de linearidade que afetam a coerencia dos resumos. Os resultados experimentais se mostraram proximos aos do modelo original para a lingua inglesa e semelhantes aos relatados por trabalhos relacionados para outras linguas. Nos experimentos com resumos cientificos, os resultados foram proximos ao obtido por juizes humanos, mostrando que o modelo grade de entidades tem potencial para ser aplicado no contexto investigado.
{"title":"Usando Grades de Entidades na Análise Automática de Coerência Local em Textos Científicos","authors":"Alison Rafael Polpeta Freitas, V. D. Feltrim","doi":"10.21814/LM.6.1.176","DOIUrl":"https://doi.org/10.21814/LM.6.1.176","url":null,"abstract":"EnglishIn this paper we investigate the applicability of Barzilay and Lapata’s (2008) entity-grid model in the evaluation of local coherence in scientific abstracts written in Portuguese. More specifically, we focused on assessing whether such model could be employed in the implementation of a classifier capable of detecting linearity breaks that affect text coherence. Our experimental results are close to those of the original entity-grid model for English and very similar to the results reported by related works for other languages. In experiments with scientific abstracts, results are close to those obtained by human judges, showing that the entity-grid model can be used in the investigated context. portuguesEste artigo apresenta os resultados de uma investigacao acerca da aplicabilidade do modelo grade de entidades proposto por Barzilay e Lapata (2008) na avaliacao de coeencia local em resumos cientificos escritos em portugues. Mais especificamente, se buscou avaliar se tal modelo poderia ser empregado na implementacao de um classificador capaz de detectar quebras de linearidade que afetam a coerencia dos resumos. Os resultados experimentais se mostraram proximos aos do modelo original para a lingua inglesa e semelhantes aos relatados por trabalhos relacionados para outras linguas. Nos experimentos com resumos cientificos, os resultados foram proximos ao obtido por juizes humanos, mostrando que o modelo grade de entidades tem potencial para ser aplicado no contexto investigado.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"6 1","pages":"29-40"},"PeriodicalIF":0.6,"publicationDate":"2014-07-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68370649","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
A previsao de quantidades do mundo real com base em informacao textual atraiu recentemente um interesse significativo, embora os estudos anteriores se tenham concentrado em aplicacoes que envolvem apenas textos em ingles. Este artigo apresenta um estudo experimental sobre a realizacao de previsoes com base em textos em portugues, envolvendo o uso de documentos associados a tres dominios distintos. Relatamos experiencias utilizando diferentes tipos de modelos de regressao, usando esquemas de ponderacao para as carateristicas descritivas do atual estado da arte, e usando carateristicas descritivas derivadas de representacoes para as palavras baseadas no agrupamento automatico das mesmas. Atraves de experiencias, demonstramos que modelos de regressao usando a informacao textual atingem melhores resultados, quando comparados com abordagens simples tais como realizar as previsoes com base no valor medio dos dados de treino. Demonstramos ainda que as representacoes de documentos mais ricas (e.g., usando o algoritmo de Brown para o agrupamento automatico de palavras, e o esquema de ponderacao das carateristicas denominado Delta-TF-IDF) resultam em ligeiras melhorias no desempenho.
{"title":"Realização de Previsões com Conteúdos Textuais em Português","authors":"Indira Gandi Mascarenhas de Brito, Bruno Martins","doi":"10.21814/LM.6.1.174","DOIUrl":"https://doi.org/10.21814/LM.6.1.174","url":null,"abstract":"A previsao de quantidades do mundo real com base em informacao textual atraiu recentemente um interesse significativo, embora os estudos anteriores se tenham concentrado em aplicacoes que envolvem apenas textos em ingles. Este artigo apresenta um estudo experimental sobre a realizacao de previsoes com base em textos em portugues, envolvendo o uso de documentos associados a tres dominios distintos. Relatamos experiencias utilizando diferentes tipos de modelos de regressao, usando esquemas de ponderacao para as carateristicas descritivas do atual estado da arte, e usando carateristicas descritivas derivadas de representacoes para as palavras baseadas no agrupamento automatico das mesmas. Atraves de experiencias, demonstramos que modelos de regressao usando a informacao textual atingem melhores resultados, quando comparados com abordagens simples tais como realizar as previsoes com base no valor medio dos dados de treino. Demonstramos ainda que as representacoes de documentos mais ricas (e.g., usando o algoritmo de Brown para o agrupamento automatico de palavras, e o esquema de ponderacao das carateristicas denominado Delta-TF-IDF) resultam em ligeiras melhorias no desempenho.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"6 1","pages":"53-68"},"PeriodicalIF":0.6,"publicationDate":"2014-07-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68370907","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Conditional Random Fields (CRF) e um metodo probabilistico de predicao estruturada que tem sido amplamente aplicado em diversas areas, tais como a de Processamento da Linguagem Natural (PLN), incluindo o Reconhecimento de Entidades Nomeadas (REN), visao computacional e bioinformatica. Nesse sentido, propoe-se a realizacao da tarefa de REN aplicando o metodo CRF e, sequencialmente, e feita uma avaliacao do seu desempenho com base no corpus do HAREM. Conclui-se que, nos testes realizados, o sistema NERP-CRF obteve os melhores resultados de Precisao quando comparado com os sistemas avaliados no mesmo corpus, com plenas condicoes de ser um sistema competitivo e eficaz.
{"title":"NERP-CRF: uma ferramenta para o reconhecimento de entidades nomeadas por meio de Conditional Random Fields","authors":"Daniela O. F. do Amaral, Renata Vieira","doi":"10.21814/LM.6.1.177","DOIUrl":"https://doi.org/10.21814/LM.6.1.177","url":null,"abstract":"Conditional Random Fields (CRF) e um metodo probabilistico de predicao estruturada que tem sido amplamente aplicado em diversas areas, tais como a de Processamento da Linguagem Natural (PLN), incluindo o Reconhecimento de Entidades Nomeadas (REN), visao computacional e bioinformatica. Nesse sentido, propoe-se a realizacao da tarefa de REN aplicando o metodo CRF e, sequencialmente, e feita uma avaliacao do seu desempenho com base no corpus do HAREM. Conclui-se que, nos testes realizados, o sistema NERP-CRF obteve os melhores resultados de Precisao quando comparado com os sistemas avaliados no mesmo corpus, com plenas condicoes de ser um sistema competitivo e eficaz.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"6 1","pages":"41-49"},"PeriodicalIF":0.6,"publicationDate":"2014-07-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68370664","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
This paper deals with the phenomenon known as dequeismo in Spanish, in particular with the semantic differences between canonical sentences with que and dequeista sentences. I analyze previous corpus studies of dequeismo, test their predictions with an independent corpus of spoken Colombian Spanish, and finally carry out a logistic regression to test new possible parameters that might influence speaker's choice. The result is that most previous accounts of dequeismo are not consistent with the corpus used for this study, and that dequeismo seems to be influenced by the discourse context (real or non real situations ), and speaker's subjectivity.
{"title":"La subjetivización del de que en el español de Colombia","authors":"Matías Guzmán Naranjo","doi":"10.21814/lm.5.2.158","DOIUrl":"https://doi.org/10.21814/lm.5.2.158","url":null,"abstract":"This paper deals with the phenomenon known as dequeismo in Spanish, in particular with the semantic differences between canonical sentences with que and dequeista sentences. I analyze previous corpus studies of dequeismo, test their predictions with an independent corpus of spoken Colombian Spanish, and finally carry out a logistic regression to test new possible parameters that might influence speaker's choice. The result is that most previous accounts of dequeismo are not consistent with the corpus used for this study, and that dequeismo seems to be influenced by the discourse context (real or non real situations ), and speaker's subjectivity.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"151 1","pages":"79-89"},"PeriodicalIF":0.6,"publicationDate":"2013-12-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68370242","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
?Que tipo de formalismo debe utilizarse para representar el lenguaje natural? Es necesario un formalismo capaz de describir adecuadamente todas las secuencias de las lenguas naturales. Pero, ademas, en la medida de lo posible, debe ser un formalismo sencillo, de un coste computacional reducido. Esta pregunta ha generado mucha controversia entre las principales escuelas generativas: la Gramatica Transformacional y las Gramaticas de Unificacion. En este articulo se defiende que, pese a las diferencias existentes, en ultima instancia, tales escuelas formalizan el lenguaje humano mediante un mismo tipo de formalismo bien definido: lo que Noam Chomsky llamo lenguaje independiente del contexto. Bajo el prisma de este articulo, la Linguistica actual esta en condiciones de ofrecer un modelo computacional unificado del lenguaje natural.
{"title":"Hacia un modelo computacional unificado del lenguaje natural","authors":"B. González","doi":"10.21814/LM.5.2.161","DOIUrl":"https://doi.org/10.21814/LM.5.2.161","url":null,"abstract":"?Que tipo de formalismo debe utilizarse para representar el lenguaje natural? Es necesario un formalismo capaz de describir adecuadamente todas las secuencias de las lenguas naturales. Pero, ademas, en la medida de lo posible, debe ser un formalismo sencillo, de un coste computacional reducido. Esta pregunta ha generado mucha controversia entre las principales escuelas generativas: la Gramatica Transformacional y las Gramaticas de Unificacion. En este articulo se defiende que, pese a las diferencias existentes, en ultima instancia, tales escuelas formalizan el lenguaje humano mediante un mismo tipo de formalismo bien definido: lo que Noam Chomsky llamo lenguaje independiente del contexto. Bajo el prisma de este articulo, la Linguistica actual esta en condiciones de ofrecer un modelo computacional unificado del lenguaje natural.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"5 1","pages":"91-100"},"PeriodicalIF":0.6,"publicationDate":"2013-12-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68370286","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Itziar Gonzalez-Dios, M.ª Jesús Aranzabe, A. D. D. Ilarraza
The aim of this paper is to give an overview of the state-of-art in automatic text simplification. To that end, we present the systems and prototypes according to the language the are built for, their target audience and the type of simplification (syntactic, lexical or both) they perform. Moreover, we expound the different evaluation methods that have been carried out with these systems and the resources and tools developed so far.
{"title":"Testuen sinplifikazio automatikoa: arloaren egungo egoera","authors":"Itziar Gonzalez-Dios, M.ª Jesús Aranzabe, A. D. D. Ilarraza","doi":"10.21814/LM.5.2.163","DOIUrl":"https://doi.org/10.21814/LM.5.2.163","url":null,"abstract":"The aim of this paper is to give an overview of the state-of-art in automatic text simplification. To that end, we present the systems and prototypes according to the language the are built for, their target audience and the type of simplification (syntactic, lexical or both) they perform. Moreover, we expound the different evaluation methods that have been carried out with these systems and the resources and tools developed so far.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"5 1","pages":"43-63"},"PeriodicalIF":0.6,"publicationDate":"2013-12-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68370573","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
The objectives of this study are as follows: to present a methodology for the development of a lexical resource with semantic information; to compare semantic roles in specialized and non-specialized language; and to observe the semantic role labeling (SRL) made by a group of annotators. Two experiments revolving around SRL in Portuguese were developed: a comparison between data in specialized and non-specialized language corpora; and an annotation evaluation for verifying the agreement among multiple annotators for the task of SRL. As for results, a qualitative difference between the corpora was observed, and the most prominent feature was the omission of agents in specialized texts. There was little agreement among annotators, which points toward the necessity of more training, or a simplification of the task, which does not seem to be possible at this stage of development.
{"title":"Desenvolvimento de um recurso léxico com papéis semânticos para o português","authors":"Leonardo Zilio, Carlos Ramisch, M. J. B. Finatto","doi":"10.21814/LM.5.2.167","DOIUrl":"https://doi.org/10.21814/LM.5.2.167","url":null,"abstract":"The objectives of this study are as follows: to present a methodology for the development of a lexical resource with semantic information; to compare semantic roles in specialized and non-specialized language; and to observe the semantic role labeling (SRL) made by a group of annotators. Two experiments revolving around SRL in Portuguese were developed: a comparison between data in specialized and non-specialized language corpora; and an annotation evaluation for verifying the agreement among multiple annotators for the task of SRL. As for results, a qualitative difference between the corpora was observed, and the most prominent feature was the omission of agents in specialized texts. There was little agreement among annotators, which points toward the necessity of more training, or a simplification of the task, which does not seem to be possible at this stage of development.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"5 1","pages":"23-41"},"PeriodicalIF":0.6,"publicationDate":"2013-12-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68370142","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
José Ramom Pichel Campos, D. Rey, Antonio Fernández Cabezas, Luz Castro Peña
imaxin|software e uma empresa criada em 1997 por quatro titulados em engenharia informatica com o objetivo de desenvolver videojogos multimedia educativos e processamento da linguagem natural. 16 anos depois tem desenvolvido recursos, ferramentas, aplicacoes multilingues para diferentes linguas: Portugues (Galiza, Portugal, Brasil, etc.), Espanhol (Espanha, Argentina, Mexico, etc.), Ingles, Catalao, Frances. Neste artigo redigido em portugues-galego faremos uma descricao daqueles principais fitos deste percurso tecnologico e humano.
{"title":"Imaxin|software - 16 Anos Desenvolvendo Aplicações No Campo Do Processamento Da Linguagem Natural Multilingue","authors":"José Ramom Pichel Campos, D. Rey, Antonio Fernández Cabezas, Luz Castro Peña","doi":"10.21814/LM.5.2.170","DOIUrl":"https://doi.org/10.21814/LM.5.2.170","url":null,"abstract":"imaxin|software e uma empresa criada em 1997 por quatro titulados em engenharia informatica com o objetivo de desenvolver videojogos multimedia educativos e processamento da linguagem natural. 16 anos depois tem desenvolvido recursos, ferramentas, aplicacoes multilingues para diferentes linguas: Portugues (Galiza, Portugal, Brasil, etc.), Espanhol (Espanha, Argentina, Mexico, etc.), Ingles, Catalao, Frances. Neste artigo redigido em portugues-galego faremos uma descricao daqueles principais fitos deste percurso tecnologico e humano.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"5 1","pages":"13-20"},"PeriodicalIF":0.6,"publicationDate":"2013-12-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68371062","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
In the area of Natural Language Processing (NLP), when creating intelligent applications, semantic processing is essential. However, research currently being conducted in NLP is still far from achieving deep levels of understanding of language. The main goal of our research is the representation of Aktionsart (how the event expressed by a verb is construed as unfolding over time). One of the basic difficulties presented by the semantic processing of language is establishing classes, mainly due to the gradual nature of meaning, and the high incidence of context in the interpretation of the different units. In this work we focus on the presentation of the lexical aspectual classes of our proposal. The total number of defined classes is classified into two groups, simple classes: states, processes and points, the combination of which gives rise to the complex classes: culminations, accomplishments and graduals. This presentation will take place both from the theoretical point of view, and its computational implementation.
{"title":"Hacia un tratamiento computacional del Aktionsart","authors":"Juan Aparicio, I. Castellón, Marta Coll-Florit","doi":"10.21814/LM.5.2.162","DOIUrl":"https://doi.org/10.21814/LM.5.2.162","url":null,"abstract":"In the area of Natural Language Processing (NLP), when creating intelligent applications, semantic processing is essential. However, research currently being conducted in NLP is still far from achieving deep levels of understanding of language. The main goal of our research is the representation of Aktionsart (how the event expressed by a verb is construed as unfolding over time). One of the basic difficulties presented by the semantic processing of language is establishing classes, mainly due to the gradual nature of meaning, and the high incidence of context in the interpretation of the different units. In this work we focus on the presentation of the lexical aspectual classes of our proposal. The total number of defined classes is classified into two groups, simple classes: states, processes and points, the combination of which gives rise to the complex classes: culminations, accomplishments and graduals. This presentation will take place both from the theoretical point of view, and its computational implementation.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"5 1","pages":"65-76"},"PeriodicalIF":0.6,"publicationDate":"2013-12-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68370455","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}