Afonso Xavier Canosa Rodrigues, Pablo Gamallo, Xavier Varela, José Ángel Taboada, P. Lema, Marcos Garcia
Este artigo apresenta o método de construção duma ferramenta para a anotação de entidades geográficas mencionadas em textos medievais. A nova ferramenta foi desenvolvida a partir dos módulos de língua contemporânea do LinguaKit, pacote multilingue de ferramentas de PLN. Uma coleção de corpora anotados manualmente serviu de recurso para elaborar uma lista de topónimos medievais (gazetteers) e observar padrões para a melhora e implementação de novas regras de reconhecimento dos nomes de lugar. Depois da lista de entidades geográficas, os ativadores contextuais (triggers) foram o recurso determinante na melhora da abrangência. Para o produto final, fizeram-se também ajustes menores na procura de recolher os elementos mais comuns do léxico e os contextos gramaticais das entidades geográficas mencionadas. Ainda que muito trabalho fica por fazer na elaboração de listas para entidades não geográficas, na construção dum modelo de língua medieval e um lexicon específico, o novo módulo pode ser utilizado para anotar textos e mostra uma melhora significativa a respeito dos módulos previamente existentes.
{"title":"Uma utilidade para o reconhecimento de topónimos em documentos medievais","authors":"Afonso Xavier Canosa Rodrigues, Pablo Gamallo, Xavier Varela, José Ángel Taboada, P. Lema, Marcos Garcia","doi":"10.21814/lm.11.1.291","DOIUrl":"https://doi.org/10.21814/lm.11.1.291","url":null,"abstract":"Este artigo apresenta o método de construção duma ferramenta para a anotação de entidades geográficas mencionadas em textos medievais. A nova ferramenta foi desenvolvida a partir dos módulos de língua contemporânea do LinguaKit, pacote multilingue de ferramentas de PLN. Uma coleção de corpora anotados manualmente serviu de recurso para elaborar uma lista de topónimos medievais (gazetteers) e observar padrões para a melhora e implementação de novas regras de reconhecimento dos nomes de lugar. Depois da lista de entidades geográficas, os ativadores contextuais (triggers) foram o recurso determinante na melhora da abrangência. Para o produto final, fizeram-se também ajustes menores na procura de recolher os elementos mais comuns do léxico e os contextos gramaticais das entidades geográficas mencionadas. Ainda que muito trabalho fica por fazer na elaboração de listas para entidades não geográficas, na construção dum modelo de língua medieval e um lexicon específico, o novo módulo pode ser utilizado para anotar textos e mostra uma melhora significativa a respeito dos módulos previamente existentes.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"11 1","pages":"3-15"},"PeriodicalIF":0.6,"publicationDate":"2019-07-20","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"46709521","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
A classificação de estrutura retórica é uma tarefa de PLN na qual se busca identificar os componentes retóricos de um discurso e seus relacionamentos. No caso deste trabalho, buscou-se identificar automaticamente categorias em nível de sentenças que compõem a estrutura retórica de resumos científicos. Especificamente, o objetivo foi avaliar o impacto de diferentes conjuntos de atributos na implementação de classificadores retóricos para resumos científicos escritos em português. Para isso, foram utilizados atributos superficiais (extraídos como valores TF-IDF e selecionados com o teste chi-quadrado), atributos morfossintáticos (implementados pelo classificador AZPort) e atributos extraídos a partir de modelos de word embeddings (Word2Vec, Wang2Vec e GloVe, todos previamente treinados). Tais conjuntos de atributos, bem como as suas combinações, foram usados para o treinamento de classificadores usando os seguintes algoritmos de aprendizado supervisionado: Support Vector Machines, Naive Bayes, K-Nearest Neighbors, Decision Trees e Conditional Random Fields (CRF). Os classificadores foram avaliados por meio de validação cruzada sobre três corpora compostos por resumos de teses e dissertações. O melhor resultado, 94% de F1, foi obtido pelo classificador CRF com as seguintes combinações de atributos: (i) Wang2Vec--Skip-gram de dimensões 100 com os atributos provenientes do AZPort; (ii) Wang2Vec--Skip-gram e GloVe de dimensão 300 com os atributos do AZPort; (iii) TF-IDF, AZPort e embeddings extraídos com os modelos Wang2Vec--Skip-gram de dimensões 100 e 300 e GloVe de dimensão 300. A partir dos resultados obtidos, conclui-se que os atributos provenientes do classificador AZPort foram fundamentais para o bom desempenho do classificador CRF, enquanto que a combinação com word embeddings se mostrou válida para a melhoria dos resultados.
{"title":"Avaliando atributos para a classificação de estrutura retórica em resumos científicos","authors":"Alessandra Harumi Iriguti, V. D. Feltrim","doi":"10.21814/lm.11.1.273","DOIUrl":"https://doi.org/10.21814/lm.11.1.273","url":null,"abstract":"A classificação de estrutura retórica é uma tarefa de PLN na qual se busca identificar os componentes retóricos de um discurso e seus relacionamentos. No caso deste trabalho, buscou-se identificar automaticamente categorias em nível de sentenças que compõem a estrutura retórica de resumos científicos. Especificamente, o objetivo foi avaliar o impacto de diferentes conjuntos de atributos na implementação de classificadores retóricos para resumos científicos escritos em português. Para isso, foram utilizados atributos superficiais (extraídos como valores TF-IDF e selecionados com o teste chi-quadrado), atributos morfossintáticos (implementados pelo classificador AZPort) e atributos extraídos a partir de modelos de word embeddings (Word2Vec, Wang2Vec e GloVe, todos previamente treinados). Tais conjuntos de atributos, bem como as suas combinações, foram usados para o treinamento de classificadores usando os seguintes algoritmos de aprendizado supervisionado: Support Vector Machines, Naive Bayes, K-Nearest Neighbors, Decision Trees e Conditional Random Fields (CRF). Os classificadores foram avaliados por meio de validação cruzada sobre três corpora compostos por resumos de teses e dissertações. O melhor resultado, 94% de F1, foi obtido pelo classificador CRF com as seguintes combinações de atributos: (i) Wang2Vec--Skip-gram de dimensões 100 com os atributos provenientes do AZPort; (ii) Wang2Vec--Skip-gram e GloVe de dimensão 300 com os atributos do AZPort; (iii) TF-IDF, AZPort e embeddings extraídos com os modelos Wang2Vec--Skip-gram de dimensões 100 e 300 e GloVe de dimensão 300. A partir dos resultados obtidos, conclui-se que os atributos provenientes do classificador AZPort foram fundamentais para o bom desempenho do classificador CRF, enquanto que a combinação com word embeddings se mostrou válida para a melhoria dos resultados.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"11 1","pages":"41-53"},"PeriodicalIF":0.6,"publicationDate":"2019-07-20","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"41400892","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Ida Rebelo-Arnold, Anabela Barreiro, Paulo Quaresma, C. Mota
Este artigo apresenta o alinhamento de construções contendo predicados verbais com o clítico lhe nas variedades de Português Europeu (PE) e Português do Brasil (PB), como nas frases Já lhe arrumaram a bagagem --- Sua bagagem está seguramente guardada, onde a próclise do dativo lhe em PE contrasta com o pronome possessivo sua em PB. Selecionámos vários pares contrastivos de paráfrases, tais como pronomes clíticos em próclise e ênclise, pronomes ocorrendo em presença de pronomes relativos e de advérbios de negação, entre outras construções a fim de ilustrar esse fenómeno linguístico. Algumas diferenças correspondem a contrastes reais entre as duas variedades de Português, enquanto que outras representam escolhas puramente estilísticas. As variantes contrastivas foram alinhadas manualmente a fim de estabelecer um conjunto padrão, e a tipologia estabelecida de forma a poder ser futuramente ampliada e disponibilizada ao público. Os alinhamentos dos pares de paráfrases foram executados no corpus e-PACT usando a ferramenta CLUE-Aligner. Esta pesquisa foi desenvolvida no âmbito do projeto eSPERTo.
本文介绍了在欧洲葡萄牙语(PE)和巴西葡萄牙语(PB)的变体中,包含动词谓词的结构与集团lhe的对齐,如短语Játidiram a bagagem——你的行李被安全地存放着,其中PE中与格lhe的解析与PB中的所有格代词sua形成对比。为了说明这一语言现象,我们选择了几个对比的转述对,如前序和后序中的集团代词、在关系代词和否定副词存在时出现的代词等。一些差异对应于两种葡萄牙语之间的真正对比,而另一些则代表了纯粹的风格选择。对比变体是手动对齐的,以建立一个标准集,类型学是为了在未来扩展并向公众提供。使用CLUE Aligner工具在e-PACT语料库中对转述对进行比对。这项研究是在eSPERTo项目的范围内进行的。
{"title":"Alinhamentos Parafrásticos PE-PB de Construções de Predicados Verbais com o Pronome Clítico lhe","authors":"Ida Rebelo-Arnold, Anabela Barreiro, Paulo Quaresma, C. Mota","doi":"10.21814/LM.10.2.287","DOIUrl":"https://doi.org/10.21814/LM.10.2.287","url":null,"abstract":"Este artigo apresenta o alinhamento de construções contendo predicados verbais com o clítico lhe nas variedades de Português Europeu (PE) e Português do Brasil (PB), como nas frases Já lhe arrumaram a bagagem --- Sua bagagem está seguramente guardada, onde a próclise do dativo lhe em PE contrasta com o pronome possessivo sua em PB. Selecionámos vários pares contrastivos de paráfrases, tais como pronomes clíticos em próclise e ênclise, pronomes ocorrendo em presença de pronomes relativos e de advérbios de negação, entre outras construções a fim de ilustrar esse fenómeno linguístico. Algumas diferenças correspondem a contrastes reais entre as duas variedades de Português, enquanto que outras representam escolhas puramente estilísticas. As variantes contrastivas foram alinhadas manualmente a fim de estabelecer um conjunto padrão, e a tipologia estabelecida de forma a poder ser futuramente ampliada e disponibilizada ao público. Os alinhamentos dos pares de paráfrases foram executados no corpus e-PACT usando a ferramenta CLUE-Aligner. Esta pesquisa foi desenvolvida no âmbito do projeto eSPERTo.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"10 1","pages":"3-11"},"PeriodicalIF":0.6,"publicationDate":"2019-01-24","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"41976428","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Anabela Barreiro, J. Baptista, Renata Vieira, Paulo Quaresma
Este volume contém os trabalhos apresentados no POP -- Por Outras Palavras, o 1º seminário sobre Ferramentas e Recursos Linguísticos para Parafraseamento em Português, realizado a 24 de Setembro de 2018 em Canela (RS), Brasil. O seminário teve como objetivo reunir investigadores linguistas e que trabalham na área do Processamento de Linguagem Natural interessados em discutir novas ideias sobre o desenvolvimento e uso de recursos linguísticos orientados para pararafraseamento em português com aplicações do mundo real. As paráfrases são extremamente importantes na comunicação humana, tanto na produção como na compreensão da linguagem, e assumem um papel cada vez mais importante em atividades e projetos de investigação. Diversas experiências linguísticas mostraram a viabilidade de usar recursos parafrásticos numa ampla variedade de aplicações de software, pois permitem reconhecer e gerar formas equivalentes de expressar o mesmo conteúdo, permitindo que os sistemas forneçam ao utilizador sugestões para dizer e escrever a mesma coisa / ideia por outras palavras, aumentar a fluência, a criatividade e a diversidade estilística. No atual estágio de desenvolvimento, os sistemas de parafraseamento exigem conhecimento linguístico e ``inteligência'' sensível ao contexto para ``compreender'' e reconhecer uma ampla variedade de expressões. Para o português, a utilidade dos recursos parafrásticos já foi explorada em cenários aplicativos, como um sistema de diálogo, para aumentar o conhecimento linguístico de um agente virtual inteligente, em ferramentas de sumarização e simplificação e também em ferramentas que visam obter tradução automática de qualidade superior. No entanto, é necessária mais investigação para a viabilidade e sucesso de um sistema de parafraseamento a longo prazo nas áreas de produção e revisão de texto, nomeadamente no desenvolvimento e melhoria de plataformas de autoria online, desenvolvendo programas interativos para ajudar os estudantes de português como língua estrangeira a produzir frases diferentes mas equivalentes ou até para estudantes nativos, para os auxiliar nas tarefas de produção e revisão dos seus textos. Ao propor o seminário POP, queríamos (i) reunir investigadores com interesse no campo das paráfrases, e com especial enfoque no português, para aprender e partilhar informação sobre o tema; (ii) reunir um conjunto de artigos de boa qualidade que discutam as últimas tendências na área e contribuam para melhorar o estado da arte das paráfrases em português; (iii) trocar ideias e disseminar as melhores práticas para ajudar a fomentar a investigação nesta área; (iv) fomentar uma convergência de esforços de investigação para uma definição consensual dos métodos científicos, e incentivar a cooperação internacional, a fim de alcançar estratégias comuns que respondam às necessidades tecnológicas atuais; (v) discutir novas metodologias, como redes neuronais, etc., e aprender a combinar essas metodologias com esforços linguísticos; (v
{"title":"Prefácio - POP - Por Outras Palavras","authors":"Anabela Barreiro, J. Baptista, Renata Vieira, Paulo Quaresma","doi":"10.21814/LM.10.2.283","DOIUrl":"https://doi.org/10.21814/LM.10.2.283","url":null,"abstract":"Este volume contém os trabalhos apresentados no POP -- Por Outras Palavras, o 1º seminário sobre Ferramentas e Recursos Linguísticos para Parafraseamento em Português, realizado a 24 de Setembro de 2018 em Canela (RS), Brasil. O seminário teve como objetivo reunir investigadores linguistas e que trabalham na área do Processamento de Linguagem Natural interessados em discutir novas ideias sobre o desenvolvimento e uso de recursos linguísticos orientados para pararafraseamento em português com aplicações do mundo real. \u0000As paráfrases são extremamente importantes na comunicação humana, tanto na produção como na compreensão da linguagem, e assumem um papel cada vez mais importante em atividades e projetos de investigação. Diversas experiências linguísticas mostraram a viabilidade de usar recursos parafrásticos numa ampla variedade de aplicações de software, pois permitem reconhecer e gerar formas equivalentes de expressar o mesmo conteúdo, permitindo que os sistemas forneçam ao utilizador sugestões para dizer e escrever a mesma coisa / ideia por outras palavras, aumentar a fluência, a criatividade e a diversidade estilística. No atual estágio de desenvolvimento, os sistemas de parafraseamento exigem conhecimento linguístico e ``inteligência'' sensível ao contexto para ``compreender'' e reconhecer uma ampla variedade de expressões. Para o português, a utilidade dos recursos parafrásticos já foi explorada em cenários aplicativos, como um sistema de diálogo, para aumentar o conhecimento linguístico de um agente virtual inteligente, em ferramentas de sumarização e simplificação e também em ferramentas que visam obter tradução automática de qualidade superior. No entanto, é necessária mais investigação para a viabilidade e sucesso de um sistema de parafraseamento a longo prazo nas áreas de produção e revisão de texto, nomeadamente no desenvolvimento e melhoria de plataformas de autoria online, desenvolvendo programas interativos para ajudar os estudantes de português como língua estrangeira a produzir frases diferentes mas equivalentes ou até para estudantes nativos, para os auxiliar nas tarefas de produção e revisão dos seus textos. \u0000Ao propor o seminário POP, queríamos (i) reunir investigadores com interesse no campo das paráfrases, e com especial enfoque no português, para aprender e partilhar informação sobre o tema; (ii) reunir um conjunto de artigos de boa qualidade que discutam as últimas tendências na área e contribuam para melhorar o estado da arte das paráfrases em português; (iii) trocar ideias e disseminar as melhores práticas para ajudar a fomentar a investigação nesta área; (iv) fomentar uma convergência de esforços de investigação para uma definição consensual dos métodos científicos, e incentivar a cooperação internacional, a fim de alcançar estratégias comuns que respondam às necessidades tecnológicas atuais; (v) discutir novas metodologias, como redes neuronais, etc., e aprender a combinar essas metodologias com esforços linguísticos; (v","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"10 1","pages":"i-ix"},"PeriodicalIF":0.6,"publicationDate":"2019-01-24","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"48042923","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Os estudos que descrevem as construções com os verbos-suporte (Vsup) dar, ter e fazer apontam que grande parte dos substantivos predicativos (Npred) construídos com esses verbos aceitam a transformação denominada Conversão. A conversão é uma operação formal que estabelece uma relação não-orientada de equivalência sintática e semântica (parafrástica) entre duas frases elementares, tal como dar um beijo/receber um beijo. Nessa relação o nome predicativo é mantido e a posição dos argumentos é alterada, sem alterar os papeis semânticos. Nessas construções, a sentença de orientação ativa e o Vsup ativo são considerados standard; enquanto a sentença equivalente, de orientação passiva, é considerada conversa. Este trabalho apresenta os primeiros passos de uma descrição dessas construções no português brasileiro. O estudo baseia-se na metodologia de descrição do Léxico-Gramática, a partir de matrizes binárias nas quais as colunas representam as propriedades sintático-semânticas de cada construção. Os resultados do estudo de construções com verbo-suporte podem contribuir para análise de textos, identificando as informações e a forma da estrutura, e consequentemente, enriquecendo a descrição do Português Brasileiro. Além disso, a representação dos resultados em matrizes binárias prevê uma descrição formal, que poderá ser utilizada em aplicações no Processamento de Língua Natural.
{"title":"Construções Conversas do Português do Brasil Descrição e Classificação Iniciais","authors":"N. P. Calcia, Oto Vale","doi":"10.21814/LM.10.2.290","DOIUrl":"https://doi.org/10.21814/LM.10.2.290","url":null,"abstract":"Os estudos que descrevem as construções com os verbos-suporte (Vsup) dar, ter e fazer apontam que grande parte dos substantivos predicativos (Npred) construídos com esses verbos aceitam a transformação denominada Conversão. A conversão é uma operação formal que estabelece uma relação não-orientada de equivalência sintática e semântica (parafrástica) entre duas frases elementares, tal como dar um beijo/receber um beijo. Nessa relação o nome predicativo é mantido e a posição dos argumentos é alterada, sem alterar os papeis semânticos. Nessas construções, a sentença de orientação ativa e o Vsup ativo são considerados standard; enquanto a sentença equivalente, de orientação passiva, é considerada conversa. Este trabalho apresenta os primeiros passos de uma descrição dessas construções no português brasileiro. O estudo baseia-se na metodologia de descrição do Léxico-Gramática, a partir de matrizes binárias nas quais as colunas representam as propriedades sintático-semânticas de cada construção. Os resultados do estudo de construções com verbo-suporte podem contribuir para análise de textos, identificando as informações e a forma da estrutura, e consequentemente, enriquecendo a descrição do Português Brasileiro. Além disso, a representação dos resultados em matrizes binárias prevê uma descrição formal, que poderá ser utilizada em aplicações no Processamento de Língua Natural.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"10 1","pages":"13-20"},"PeriodicalIF":0.6,"publicationDate":"2019-01-24","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68367445","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
A detecção (ou identificação) de paráfrases é a tarefa de determinar se duas ou mais sentenças de comprimento arbitrário possuem o mesmo significado. Os métodos para resolver esta tarefa com potenciais aplicações em sistemas de Processamento de Linguagem Natural. Este trabalho investiga a combinação de diferentes métodos de representação de sentenças em modelos de linguagem por espaços vetoriais e classificadores lineares para o problema de detecção de paráfrases para a língua portuguesa. Os resultados obtidos nesse trabalho estão aquém daqueles obtidos para a tarefa relacionada de detecção de implicação textual na avaliação ASSIN para a língua portuguesa, porém nesse trabalho investigamos a aplicação das representações vetoriais de sentenças para a detecção de paráfrases, outras características usualmente exploradas em sistemas desse tipo podem trivialmente ser incorporadas ao nosso método para melhorar a performance.
{"title":"Detecção de Paráfrases na Lı'ngua Portuguesa usando Sentence Embeddings","authors":"Marlo Souza","doi":"10.21814/LM.10.2.286","DOIUrl":"https://doi.org/10.21814/LM.10.2.286","url":null,"abstract":"A detecção (ou identificação) de paráfrases é a tarefa de determinar se duas ou mais sentenças de comprimento arbitrário possuem o mesmo significado. Os métodos para resolver esta tarefa com potenciais aplicações em sistemas de Processamento de Linguagem Natural. Este trabalho investiga a combinação de diferentes métodos de representação de sentenças em modelos de linguagem por espaços vetoriais e classificadores lineares para o problema de detecção de paráfrases para a língua portuguesa. Os resultados obtidos nesse trabalho estão aquém daqueles obtidos para a tarefa relacionada de detecção de implicação textual na avaliação ASSIN para a língua portuguesa, porém nesse trabalho investigamos a aplicação das representações vetoriais de sentenças para a detecção de paráfrases, outras características usualmente exploradas em sistemas desse tipo podem trivialmente ser incorporadas ao nosso método para melhorar a performance.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"10 1","pages":"31-44"},"PeriodicalIF":0.6,"publicationDate":"2019-01-24","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"45920747","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Anabela Barreiro, Ida Rebelo-Arnold, J. Baptista, C. Mota, Isabel Garcez
Este artigo apresenta o processo de automatização de parafraseamento em português e conversão de construções típicas do registo informal ou da linguagem falada em construções de registo formal usadas na linguagem escrita. Ilustraremos o processo de automatização com exemplos extraídos do corpus e-PACT, que envolvem a colocação normalizada de pronomes clíticos quando co-ocorrem com compostos verbais. A tarefa consiste em parafrasear e normalizar, entre outras, construções como vou-lhe/posso-lhe fazer uma surpresa em vou/posso fazer-lhe uma surpresa, em que o pronome clítico lhe migra de uma posição enclítica imediatamente a seguir ao primeiro verbo do composto verbal para uma posição enclítica a seguir ao verbo principal, que é o verbo responsável pela seleção do argumento pronominal. O primeiro verbo é um verbo auxiliar ou um verbo volitivo, e.g., querer. Este é um procedimento padronizado no processo de revisão em português europeu. Casos como este representam fenómenos linguísticos em que os estudantes de língua portuguesa e falantes em geral se confundem ou onde "tropeçam". O artigo enfatiza a língua padrão em que os fenómenos observados ocorrem, descreve exemplos de interesse encontrados no corpus e apresenta uma solução automática, baseada na aplicação de gramáticas transformacionais genéricas, que facilitam a normalização de inadequações ou falhas sintáticas (registos informais) encontradas nas construções pesquisadas em construções padronizadas típicas da escrita formal ou escrita profissional.
{"title":"Parafraseamento Automático de Registo Informal em Registo Formal na Língua Portuguesa","authors":"Anabela Barreiro, Ida Rebelo-Arnold, J. Baptista, C. Mota, Isabel Garcez","doi":"10.21814/lm.10.2.282","DOIUrl":"https://doi.org/10.21814/lm.10.2.282","url":null,"abstract":"Este artigo apresenta o processo de automatização de parafraseamento em português e conversão de construções típicas do registo informal ou da linguagem falada em construções de registo formal usadas na linguagem escrita. Ilustraremos o processo de automatização com exemplos extraídos do corpus e-PACT, que envolvem a colocação normalizada de pronomes clíticos quando co-ocorrem com compostos verbais. A tarefa consiste em parafrasear e normalizar, entre outras, construções como vou-lhe/posso-lhe fazer uma surpresa em vou/posso fazer-lhe uma surpresa, em que o pronome clítico lhe migra de uma posição enclítica imediatamente a seguir ao primeiro verbo do composto verbal para uma posição enclítica a seguir ao verbo principal, que é o verbo responsável pela seleção do argumento pronominal. O primeiro verbo é um verbo auxiliar ou um verbo volitivo, e.g., querer. Este é um procedimento padronizado no processo de revisão em português europeu. Casos como este representam fenómenos linguísticos em que os estudantes de língua portuguesa e falantes em geral se confundem ou onde \"tropeçam\". O artigo enfatiza a língua padrão em que os fenómenos observados ocorrem, descreve exemplos de interesse encontrados no corpus e apresenta uma solução automática, baseada na aplicação de gramáticas transformacionais genéricas, que facilitam a normalização de inadequações ou falhas sintáticas (registos informais) encontradas nas construções pesquisadas em construções padronizadas típicas da escrita formal ou escrita profissional.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"10 1","pages":"53-61"},"PeriodicalIF":0.6,"publicationDate":"2019-01-24","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"43307831","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Neste artigo, partimos da análise léxico-sintático-semântica das propriedades que foram usadas para classificar advérbios terminados em -mente mais frequentes em português e exploramos a geração de diferentes padrões de paráfrase, tanto estruturas regulares ou muito gerais, tais como os advérbios de modo e de ponto de vista, bem como outros, menos produtivos (e às vezes idiomáticas). O objetivo é fornecer um abrangente conjunto de estratégias de paráfrase, que podem ser usadas em várias aplicações de processamento de linguagem natural, como a simplificação de texto ou até mesmo tradução automática.
{"title":"Paráfrase de advérbios terminados em -mente em Português","authors":"J. Baptista","doi":"10.21814/LM.10.2.289","DOIUrl":"https://doi.org/10.21814/LM.10.2.289","url":null,"abstract":"Neste artigo, partimos da análise léxico-sintático-semântica das propriedades que foram usadas para classificar advérbios terminados em -mente mais frequentes em português e exploramos a geração de diferentes padrões de paráfrase, tanto estruturas regulares ou muito gerais, tais como os advérbios de modo e de ponto de vista, bem como outros, menos produtivos (e às vezes idiomáticas). O objetivo é fornecer um abrangente conjunto de estratégias de paráfrase, que podem ser usadas em várias aplicações de processamento de linguagem natural, como a simplificação de texto ou até mesmo tradução automática.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"10 1","pages":"21-30"},"PeriodicalIF":0.6,"publicationDate":"2019-01-24","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"41893381","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Neste traballo preséntanse varios métodos non-supervisados para a detección da similitude semántica textual, os cales están baseados en modelos distribucionais e no parseado de dependencias. Os sistemas son avaliados mediante datasets empregados na ASSIN Shared Task, celebrada conxuntamente co PROPOR 2016. Os métodos máis básicos ofrecen un mellor comportamento que aqueles, mais complexos, que inclúen información sintáctico-semántica na análise das oracións. Por último, o uso de modelos distribucionais construidos automaticamente a partir de corpus ofrece resultados comparábeis ás estratexias que utilizan recursos léxicos externos construídos manualmente.
{"title":"Explorando métodos non-supervisados para calcular a similitude semántica textual","authors":"Pablo Gamallo, Martin Pereira-Fariña","doi":"10.21814/LM.10.2.275","DOIUrl":"https://doi.org/10.21814/LM.10.2.275","url":null,"abstract":"Neste traballo preséntanse varios métodos non-supervisados para a detección da similitude semántica textual, os cales están baseados en modelos distribucionais e no parseado de dependencias. Os sistemas son avaliados mediante datasets empregados na ASSIN Shared Task, celebrada conxuntamente co PROPOR 2016. Os métodos máis básicos ofrecen un mellor comportamento que aqueles, mais complexos, que inclúen información sintáctico-semántica na análise das oracións. Por último, o uso de modelos distribucionais construidos automaticamente a partir de corpus ofrece resultados comparábeis ás estratexias que utilizan recursos léxicos externos construídos manualmente.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"10 1","pages":"63-68"},"PeriodicalIF":0.6,"publicationDate":"2019-01-24","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"45509592","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Os fenômenos linguísticos de correferência e paráfrase compartilham certos aspectos. É comum, por exemplo, referir-se a uma mesma entidade de maneiras diferentes em um mesmo contexto, assim, a resolução de correferências pode auxiliar o processo de identificação de paráfrases. Este artigo apresenta uma análise das capacidades da ferramenta de resolução de correferência CORP, para Português, no contexto de identificação de paráfrases nos níveis de sentença e de sintagma.
{"title":"Análise da capacidade de identificação de paráfrase em ferramentas de resolução de correferência","authors":"Bernardo Scapini Consoli, Joaquim Francisco Lira Neto, Sandra Collovini, Renata Vieira","doi":"10.21814/LM.10.2.288","DOIUrl":"https://doi.org/10.21814/LM.10.2.288","url":null,"abstract":"Os fenômenos linguísticos de correferência e paráfrase compartilham certos aspectos. É comum, por exemplo, referir-se a uma mesma entidade de maneiras diferentes em um mesmo contexto, assim, a resolução de correferências pode auxiliar o processo de identificação de paráfrases. Este artigo apresenta uma análise das capacidades da ferramenta de resolução de correferência CORP, para Português, no contexto de identificação de paráfrases nos níveis de sentença e de sintagma.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"10 1","pages":"45-51"},"PeriodicalIF":0.6,"publicationDate":"2019-01-24","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"46503771","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}