Linguamatica最新文献

英文中文

Avaliando atributos para a classificação de estrutura retórica em resumos científicos 科学摘要中修辞结构分类的评价属性

IF 0.6 Q4 LINGUISTICS

Linguamatica

Pub Date : 2019-07-20 DOI: 10.21814/lm.11.1.273

Alessandra Harumi Iriguti, V. D. Feltrim

A classificação de estrutura retórica é uma tarefa de PLN na qual se busca identificar os componentes retóricos de um discurso e seus relacionamentos. No caso deste trabalho, buscou-se identificar automaticamente categorias em nível de sentenças que compõem a estrutura retórica de resumos científicos. Especificamente, o objetivo foi avaliar o impacto de diferentes conjuntos de atributos na implementação de classificadores retóricos para resumos científicos escritos em português. Para isso, foram utilizados atributos superficiais (extraídos como valores TF-IDF e selecionados com o teste chi-quadrado), atributos morfossintáticos (implementados pelo classificador AZPort) e atributos extraídos a partir de modelos de word embeddings (Word2Vec, Wang2Vec e GloVe, todos previamente treinados). Tais conjuntos de atributos, bem como as suas combinações, foram usados para o treinamento de classificadores usando os seguintes algoritmos de aprendizado supervisionado: Support Vector Machines, Naive Bayes, K-Nearest Neighbors, Decision Trees e Conditional Random Fields (CRF). Os classificadores foram avaliados por meio de validação cruzada sobre três corpora compostos por resumos de teses e dissertações. O melhor resultado, 94% de F1, foi obtido pelo classificador CRF com as seguintes combinações de atributos: (i) Wang2Vec--Skip-gram de dimensões 100 com os atributos provenientes do AZPort; (ii) Wang2Vec--Skip-gram e GloVe de dimensão 300 com os atributos do AZPort; (iii) TF-IDF, AZPort e embeddings extraídos com os modelos Wang2Vec--Skip-gram de dimensões 100 e 300 e GloVe de dimensão 300. A partir dos resultados obtidos, conclui-se que os atributos provenientes do classificador AZPort foram fundamentais para o bom desempenho do classificador CRF, enquanto que a combinação com word embeddings se mostrou válida para a melhoria dos resultados.

修辞学结构分类是PLN的一项任务，它试图识别话语的修辞学成分及其关系。在本研究中，我们试图在句子层面自动识别构成科学摘要修辞学结构的类别。具体来说，目的是评估不同属性集在葡萄牙语科学摘要修辞分类器实施中的影响。为此，我们使用了表面属性(提取TF-IDF值并通过卡方检验选择)、形态语法属性(由AZPort分类器实现)和从word嵌入式模型(Word2Vec、Wang2Vec和GloVe，所有这些都是以前训练过的)中提取的属性。这些属性集及其组合被用于使用以下监督学习算法训练分类器:支持向量机、天真贝叶斯、K近邻、决策树和条件随机字段(CRF)。通过对三个由论文和学位论文摘要组成的语料库进行交叉验证，对分类器进行评价。得到最好的结果,94%的F1的CRF的分类器组合的属性如下:(i) Wang2Vec - -Skip来自AZPort意大利100维的属性;(ii) Wang2Vec——skip -gram和300尺寸的手套，具有AZPort属性;(iii) TF- idf, AZPort和embeddings提取的Wang2Vec- skip -gram模型尺寸为100和300，手套尺寸为300。结果表明，AZPort分类器的属性对CRF分类器的良好性能至关重要，而与word embeddings的结合对结果的改善是有效的。

{"title":"Avaliando atributos para a classificação de estrutura retórica em resumos científicos","authors":"Alessandra Harumi Iriguti, V. D. Feltrim","doi":"10.21814/lm.11.1.273","DOIUrl":"https://doi.org/10.21814/lm.11.1.273","url":null,"abstract":"A classificação de estrutura retórica é uma tarefa de PLN na qual se busca identificar os componentes retóricos de um discurso e seus relacionamentos. No caso deste trabalho, buscou-se identificar automaticamente categorias em nível de sentenças que compõem a estrutura retórica de resumos científicos. Especificamente, o objetivo foi avaliar o impacto de diferentes conjuntos de atributos na implementação de classificadores retóricos para resumos científicos escritos em português. Para isso, foram utilizados atributos superficiais (extraídos como valores TF-IDF e selecionados com o teste chi-quadrado), atributos morfossintáticos (implementados pelo classificador AZPort) e atributos extraídos a partir de modelos de word embeddings (Word2Vec, Wang2Vec e GloVe, todos previamente treinados). Tais conjuntos de atributos, bem como as suas combinações, foram usados para o treinamento de classificadores usando os seguintes algoritmos de aprendizado supervisionado: Support Vector Machines, Naive Bayes, K-Nearest Neighbors, Decision Trees e Conditional Random Fields (CRF). Os classificadores foram avaliados por meio de validação cruzada sobre três corpora compostos por resumos de teses e dissertações. O melhor resultado, 94% de F1, foi obtido pelo classificador CRF com as seguintes combinações de atributos: (i) Wang2Vec--Skip-gram de dimensões 100 com os atributos provenientes do AZPort; (ii) Wang2Vec--Skip-gram e GloVe de dimensão 300 com os atributos do AZPort; (iii) TF-IDF, AZPort e embeddings extraídos com os modelos Wang2Vec--Skip-gram de dimensões 100 e 300 e GloVe de dimensão 300. A partir dos resultados obtidos, conclui-se que os atributos provenientes do classificador AZPort foram fundamentais para o bom desempenho do classificador CRF, enquanto que a combinação com word embeddings se mostrou válida para a melhoria dos resultados.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"11 1","pages":"41-53"},"PeriodicalIF":0.6,"publicationDate":"2019-07-20","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"41400892","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 0

Uma utilidade para o reconhecimento de topónimos em documentos medievais 在中世纪文献中识别地名的实用程序

IF 0.6 Q4 LINGUISTICS

Linguamatica

Pub Date : 2019-07-20 DOI: 10.21814/lm.11.1.291

Afonso Xavier Canosa Rodrigues, Pablo Gamallo, Xavier Varela, José Ángel Taboada, P. Lema, Marcos Garcia

Este artigo apresenta o método de construção duma ferramenta para a anotação de entidades geográficas mencionadas em textos medievais. A nova ferramenta foi desenvolvida a partir dos módulos de língua contemporânea do LinguaKit, pacote multilingue de ferramentas de PLN. Uma coleção de corpora anotados manualmente serviu de recurso para elaborar uma lista de topónimos medievais (gazetteers) e observar padrões para a melhora e implementação de novas regras de reconhecimento dos nomes de lugar. Depois da lista de entidades geográficas, os ativadores contextuais (triggers) foram o recurso determinante na melhora da abrangência. Para o produto final, fizeram-se também ajustes menores na procura de recolher os elementos mais comuns do léxico e os contextos gramaticais das entidades geográficas mencionadas. Ainda que muito trabalho fica por fazer na elaboração de listas para entidades não geográficas, na construção dum modelo de língua medieval e um lexicon específico, o novo módulo pode ser utilizado para anotar textos e mostra uma melhora significativa a respeito dos módulos previamente existentes.

本文介绍了一种构建中世纪文本中提到的地理实体注释工具的方法。新工具是从LinguaKit的当代语言模块开发的，LinguaKit是一个多语言PLN工具包。一组手动注释的语料库作为一种资源，用于起草中世纪地名（地名录）清单，并观察改进和实施地名识别新规则的模式。在地理实体列表之后，上下文激活器（触发器）是提高覆盖率的决定性资源。对于最终产品，还进行了细微的调整，以收集词典中最常见的元素和所提到的地理实体的语法上下文。尽管在制定非地理实体清单、构建中世纪语言模型和特定词典方面还有很多工作要做，但新模块可用于注释文本，并显示出比以前现有模块的显著改进。

{"title":"Uma utilidade para o reconhecimento de topónimos em documentos medievais","authors":"Afonso Xavier Canosa Rodrigues, Pablo Gamallo, Xavier Varela, José Ángel Taboada, P. Lema, Marcos Garcia","doi":"10.21814/lm.11.1.291","DOIUrl":"https://doi.org/10.21814/lm.11.1.291","url":null,"abstract":"Este artigo apresenta o método de construção duma ferramenta para a anotação de entidades geográficas mencionadas em textos medievais. A nova ferramenta foi desenvolvida a partir dos módulos de língua contemporânea do LinguaKit, pacote multilingue de ferramentas de PLN. Uma coleção de corpora anotados manualmente serviu de recurso para elaborar uma lista de topónimos medievais (gazetteers) e observar padrões para a melhora e implementação de novas regras de reconhecimento dos nomes de lugar. Depois da lista de entidades geográficas, os ativadores contextuais (triggers) foram o recurso determinante na melhora da abrangência. Para o produto final, fizeram-se também ajustes menores na procura de recolher os elementos mais comuns do léxico e os contextos gramaticais das entidades geográficas mencionadas. Ainda que muito trabalho fica por fazer na elaboração de listas para entidades não geográficas, na construção dum modelo de língua medieval e um lexicon específico, o novo módulo pode ser utilizado para anotar textos e mostra uma melhora significativa a respeito dos módulos previamente existentes.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"11 1","pages":"3-15"},"PeriodicalIF":0.6,"publicationDate":"2019-07-20","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"46709521","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 1

Alinhamentos Parafrásticos PE-PB de Construções de Predicados Verbais com o Pronome Clítico lhe 动词谓词结构与附词代词he的PE-PB意译对齐

IF 0.6 Q4 LINGUISTICS

Linguamatica

Pub Date : 2019-01-24 DOI: 10.21814/LM.10.2.287

Ida Rebelo-Arnold, Anabela Barreiro, Paulo Quaresma, C. Mota

Este artigo apresenta o alinhamento de construções contendo predicados verbais com o clítico lhe nas variedades de Português Europeu (PE) e Português do Brasil (PB), como nas frases Já lhe arrumaram a bagagem --- Sua bagagem está seguramente guardada, onde a próclise do dativo lhe em PE contrasta com o pronome possessivo sua em PB. Selecionámos vários pares contrastivos de paráfrases, tais como pronomes clíticos em próclise e ênclise, pronomes ocorrendo em presença de pronomes relativos e de advérbios de negação, entre outras construções a fim de ilustrar esse fenómeno linguístico. Algumas diferenças correspondem a contrastes reais entre as duas variedades de Português, enquanto que outras representam escolhas puramente estilísticas. As variantes contrastivas foram alinhadas manualmente a fim de estabelecer um conjunto padrão, e a tipologia estabelecida de forma a poder ser futuramente ampliada e disponibilizada ao público. Os alinhamentos dos pares de paráfrases foram executados no corpus e-PACT usando a ferramenta CLUE-Aligner. Esta pesquisa foi desenvolvida no âmbito do projeto eSPERTo.

本文介绍了在欧洲葡萄牙语（PE）和巴西葡萄牙语（PB）的变体中，包含动词谓词的结构与集团lhe的对齐，如短语Játidiram a bagagem——你的行李被安全地存放着，其中PE中与格lhe的解析与PB中的所有格代词sua形成对比。为了说明这一语言现象，我们选择了几个对比的转述对，如前序和后序中的集团代词、在关系代词和否定副词存在时出现的代词等。一些差异对应于两种葡萄牙语之间的真正对比，而另一些则代表了纯粹的风格选择。对比变体是手动对齐的，以建立一个标准集，类型学是为了在未来扩展并向公众提供。使用CLUE Aligner工具在e-PACT语料库中对转述对进行比对。这项研究是在eSPERTo项目的范围内进行的。

引用次数: 1

Prefácio - POP - Por Outras Palavras 前言-流行音乐-其他词

IF 0.6 Q4 LINGUISTICS

Linguamatica

Pub Date : 2019-01-24 DOI: 10.21814/LM.10.2.283

Anabela Barreiro, J. Baptista, Renata Vieira, Paulo Quaresma

Este volume contém os trabalhos apresentados no POP -- Por Outras Palavras, o 1º seminário sobre Ferramentas e Recursos Linguísticos para Parafraseamento em Português, realizado a 24 de Setembro de 2018 em Canela (RS), Brasil. O seminário teve como objetivo reunir investigadores linguistas e que trabalham na área do Processamento de Linguagem Natural interessados em discutir novas ideias sobre o desenvolvimento e uso de recursos linguísticos orientados para pararafraseamento em português com aplicações do mundo real. As paráfrases são extremamente importantes na comunicação humana, tanto na produção como na compreensão da linguagem, e assumem um papel cada vez mais importante em atividades e projetos de investigação. Diversas experiências linguísticas mostraram a viabilidade de usar recursos parafrásticos numa ampla variedade de aplicações de software, pois permitem reconhecer e gerar formas equivalentes de expressar o mesmo conteúdo, permitindo que os sistemas forneçam ao utilizador sugestões para dizer e escrever a mesma coisa / ideia por outras palavras, aumentar a fluência, a criatividade e a diversidade estilística. No atual estágio de desenvolvimento, os sistemas de parafraseamento exigem conhecimento linguístico e ``inteligência'' sensível ao contexto para ``compreender'' e reconhecer uma ampla variedade de expressões. Para o português, a utilidade dos recursos parafrásticos já foi explorada em cenários aplicativos, como um sistema de diálogo, para aumentar o conhecimento linguístico de um agente virtual inteligente, em ferramentas de sumarização e simplificação e também em ferramentas que visam obter tradução automática de qualidade superior. No entanto, é necessária mais investigação para a viabilidade e sucesso de um sistema de parafraseamento a longo prazo nas áreas de produção e revisão de texto, nomeadamente no desenvolvimento e melhoria de plataformas de autoria online, desenvolvendo programas interativos para ajudar os estudantes de português como língua estrangeira a produzir frases diferentes mas equivalentes ou até para estudantes nativos, para os auxiliar nas tarefas de produção e revisão dos seus textos. Ao propor o seminário POP, queríamos (i) reunir investigadores com interesse no campo das paráfrases, e com especial enfoque no português, para aprender e partilhar informação sobre o tema; (ii) reunir um conjunto de artigos de boa qualidade que discutam as últimas tendências na área e contribuam para melhorar o estado da arte das paráfrases em português; (iii) trocar ideias e disseminar as melhores práticas para ajudar a fomentar a investigação nesta área; (iv) fomentar uma convergência de esforços de investigação para uma definição consensual dos métodos científicos, e incentivar a cooperação internacional, a fim de alcançar estratégias comuns que respondam às necessidades tecnológicas atuais; (v) discutir novas metodologias, como redes neuronais, etc., e aprender a combinar essas metodologias com esforços linguísticos; (v

本卷包含了2018年9月24日在巴西卡内拉(RS)举行的POP(即第一届葡萄牙语释义工具和语言资源研讨会)上发表的论文。研讨会的目的是将自然语言处理领域的语言学研究人员和研究人员聚集在一起，讨论开发和使用面向现实世界应用的葡萄牙语语言资源的新想法。意译在人类交流中，无论是在语言的产生还是理解中，都是极其重要的，并在研究活动和项目中发挥着越来越重要的作用。各种语言实验显示使用资源的可行性parafrásticos在各种各样的应用程序软件,允许识别和生成等价形式来表达相同的内容,使系统向用户提供建议出来和写同样的事/蠕变,换句话说,增加创造力和风格上的多样性。在目前的发展阶段，释义系统需要语言知识和上下文敏感的“智能”来“理解”和识别各种各样的表达。对于葡萄牙语来说，意译资源的有用性已经在应用场景中进行了探索，如对话系统，以增加智能虚拟代理的语言知识，摘要和简化工具，以及旨在获得高质量机器翻译的工具。然而,更多的研究是必要的机制的可行性和成功parafraseamento长期生产和修订的文本区域,特别是在网络平台的发展和完善,为交互式程序帮助葡萄牙语作为外语的学生产生不同的短语,但同等或到当地学生完成任务的过程中,协助生产和修改的东西。通过提议POP研讨会，我们希望(i)将对释义领域感兴趣的研究人员聚集在一起，特别是葡萄牙语，以学习和分享有关该主题的信息;(ii)收集一套高质量的文章，讨论该领域的最新趋势，并有助于提高葡萄牙语意译的艺术水平;交流思想和传播最佳做法，以帮助促进这一领域的研究;促进研究工作的融合，以商定科学方法的定义，并鼓励国际合作，以实现满足当前技术需要的共同战略;讨论新的方法，如神经网络等，并学习如何将这些方法与语言工作结合起来;讨论未来的挑战和交流科学和技术方面的信息;(vii)鼓励和加强创建葡萄牙语平行意译语料库，作为收集意译对齐资源的数据集，用于培训和测试意译系统;确定资金来源，以进一步推动研究，支持创新和发展这一关键的使能技术。委员会的22位节目。(8)、巴西(7),西班牙(4),法国(2)、挪威(1),所有成员都是知名的专家在自然语言处理、计算语言学、语言,和其他相关领域的工程和广泛的经验在处理,尤其在葡萄牙语释义主题。流行研讨会的组织者想公开各种援助机构和人的研讨会的成功的关键:2018’的组织,接受的提议和POP卫星事件的主要国际会议上处理的葡萄牙语,以及不断的支持和协作;方案委员会的所有成员，他们的宝贵合作对讨论会的成功及其科学质量至关重要;以不同方式支持作者和组织者参与会议的不同机构。

{"title":"Prefácio - POP - Por Outras Palavras","authors":"Anabela Barreiro, J. Baptista, Renata Vieira, Paulo Quaresma","doi":"10.21814/LM.10.2.283","DOIUrl":"https://doi.org/10.21814/LM.10.2.283","url":null,"abstract":"Este volume contém os trabalhos apresentados no POP -- Por Outras Palavras, o 1º seminário sobre Ferramentas e Recursos Linguísticos para Parafraseamento em Português, realizado a 24 de Setembro de 2018 em Canela (RS), Brasil. O seminário teve como objetivo reunir investigadores linguistas e que trabalham na área do Processamento de Linguagem Natural interessados em discutir novas ideias sobre o desenvolvimento e uso de recursos linguísticos orientados para pararafraseamento em português com aplicações do mundo real. \u0000As paráfrases são extremamente importantes na comunicação humana, tanto na produção como na compreensão da linguagem, e assumem um papel cada vez mais importante em atividades e projetos de investigação. Diversas experiências linguísticas mostraram a viabilidade de usar recursos parafrásticos numa ampla variedade de aplicações de software, pois permitem reconhecer e gerar formas equivalentes de expressar o mesmo conteúdo, permitindo que os sistemas forneçam ao utilizador sugestões para dizer e escrever a mesma coisa / ideia por outras palavras, aumentar a fluência, a criatividade e a diversidade estilística. No atual estágio de desenvolvimento, os sistemas de parafraseamento exigem conhecimento linguístico e ``inteligência'' sensível ao contexto para ``compreender'' e reconhecer uma ampla variedade de expressões. Para o português, a utilidade dos recursos parafrásticos já foi explorada em cenários aplicativos, como um sistema de diálogo, para aumentar o conhecimento linguístico de um agente virtual inteligente, em ferramentas de sumarização e simplificação e também em ferramentas que visam obter tradução automática de qualidade superior. No entanto, é necessária mais investigação para a viabilidade e sucesso de um sistema de parafraseamento a longo prazo nas áreas de produção e revisão de texto, nomeadamente no desenvolvimento e melhoria de plataformas de autoria online, desenvolvendo programas interativos para ajudar os estudantes de português como língua estrangeira a produzir frases diferentes mas equivalentes ou até para estudantes nativos, para os auxiliar nas tarefas de produção e revisão dos seus textos. \u0000Ao propor o seminário POP, queríamos (i) reunir investigadores com interesse no campo das paráfrases, e com especial enfoque no português, para aprender e partilhar informação sobre o tema; (ii) reunir um conjunto de artigos de boa qualidade que discutam as últimas tendências na área e contribuam para melhorar o estado da arte das paráfrases em português; (iii) trocar ideias e disseminar as melhores práticas para ajudar a fomentar a investigação nesta área; (iv) fomentar uma convergência de esforços de investigação para uma definição consensual dos métodos científicos, e incentivar a cooperação internacional, a fim de alcançar estratégias comuns que respondam às necessidades tecnológicas atuais; (v) discutir novas metodologias, como redes neuronais, etc., e aprender a combinar essas metodologias com esforços linguísticos; (v","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"10 1","pages":"i-ix"},"PeriodicalIF":0.6,"publicationDate":"2019-01-24","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"48042923","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 0

Construções Conversas do Português do Brasil Descrição e Classificação Iniciais 巴西葡萄牙语的初步描述和分类

IF 0.6 Q4 LINGUISTICS

Linguamatica

Pub Date : 2019-01-24 DOI: 10.21814/LM.10.2.290

N. P. Calcia, Oto Vale

Os estudos que descrevem as construções com os verbos-suporte (Vsup) dar, ter e fazer apontam que grande parte dos substantivos predicativos (Npred) construídos com esses verbos aceitam a transformação denominada Conversão. A conversão é uma operação formal que estabelece uma relação não-orientada de equivalência sintática e semântica (parafrástica) entre duas frases elementares, tal como dar um beijo/receber um beijo. Nessa relação o nome predicativo é mantido e a posição dos argumentos é alterada, sem alterar os papeis semânticos. Nessas construções, a sentença de orientação ativa e o Vsup ativo são considerados standard; enquanto a sentença equivalente, de orientação passiva, é considerada conversa. Este trabalho apresenta os primeiros passos de uma descrição dessas construções no português brasileiro. O estudo baseia-se na metodologia de descrição do Léxico-Gramática, a partir de matrizes binárias nas quais as colunas representam as propriedades sintático-semânticas de cada construção. Os resultados do estudo de construções com verbo-suporte podem contribuir para análise de textos, identificando as informações e a forma da estrutura, e consequentemente, enriquecendo a descrição do Português Brasileiro. Além disso, a representação dos resultados em matrizes binárias prevê uma descrição formal, que poderá ser utilizada em aplicações no Processamento de Língua Natural.

描述支持动词dar、ter和fazer结构的研究表明，大多数由这些动词构成的谓词名词(Npred)接受一种称为转换的转换。转换是一种形式操作，它在两个基本短语(如kiss / kiss)之间建立了句法和语义(释义)等价的非定向关系。在这种关系中，谓词名称被保留，参数的位置被改变，而不改变语义角色。在这些结构中，主动取向句和主动Vsup被认为是标准的;而等效的被动取向句子被认为是对话。这项工作提出了在巴西葡萄牙语中描述这些结构的第一步。该研究基于词汇语法描述方法，从二元矩阵，其中列代表每个结构的句法语义属性。支持动词结构的研究结果有助于文本分析，识别信息和结构形式，从而丰富巴西葡萄牙语的描述。此外，用二进制矩阵表示结果提供了一种形式描述，可用于自然语言处理的应用程序。

{"title":"Construções Conversas do Português do Brasil Descrição e Classificação Iniciais","authors":"N. P. Calcia, Oto Vale","doi":"10.21814/LM.10.2.290","DOIUrl":"https://doi.org/10.21814/LM.10.2.290","url":null,"abstract":"Os estudos que descrevem as construções com os verbos-suporte (Vsup) dar, ter e fazer apontam que grande parte dos substantivos predicativos (Npred) construídos com esses verbos aceitam a transformação denominada Conversão. A conversão é uma operação formal que estabelece uma relação não-orientada de equivalência sintática e semântica (parafrástica) entre duas frases elementares, tal como dar um beijo/receber um beijo. Nessa relação o nome predicativo é mantido e a posição dos argumentos é alterada, sem alterar os papeis semânticos. Nessas construções, a sentença de orientação ativa e o Vsup ativo são considerados standard; enquanto a sentença equivalente, de orientação passiva, é considerada conversa. Este trabalho apresenta os primeiros passos de uma descrição dessas construções no português brasileiro. O estudo baseia-se na metodologia de descrição do Léxico-Gramática, a partir de matrizes binárias nas quais as colunas representam as propriedades sintático-semânticas de cada construção. Os resultados do estudo de construções com verbo-suporte podem contribuir para análise de textos, identificando as informações e a forma da estrutura, e consequentemente, enriquecendo a descrição do Português Brasileiro. Além disso, a representação dos resultados em matrizes binárias prevê uma descrição formal, que poderá ser utilizada em aplicações no Processamento de Língua Natural.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"10 1","pages":"13-20"},"PeriodicalIF":0.6,"publicationDate":"2019-01-24","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68367445","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 1

Detecção de Paráfrases na Lı'ngua Portuguesa usando Sentence Embeddings 基于句子嵌入的葡萄牙语短语检测

IF 0.6 Q4 LINGUISTICS

Linguamatica

Pub Date : 2019-01-24 DOI: 10.21814/LM.10.2.286

Marlo Souza

A detecção (ou identificação) de paráfrases é a tarefa de determinar se duas ou mais sentenças de comprimento arbitrário possuem o mesmo significado. Os métodos para resolver esta tarefa com potenciais aplicações em sistemas de Processamento de Linguagem Natural. Este trabalho investiga a combinação de diferentes métodos de representação de sentenças em modelos de linguagem por espaços vetoriais e classificadores lineares para o problema de detecção de paráfrases para a língua portuguesa. Os resultados obtidos nesse trabalho estão aquém daqueles obtidos para a tarefa relacionada de detecção de implicação textual na avaliação ASSIN para a língua portuguesa, porém nesse trabalho investigamos a aplicação das representações vetoriais de sentenças para a detecção de paráfrases, outras características usualmente exploradas em sistemas desse tipo podem trivialmente ser incorporadas ao nosso método para melhorar a performance.

短语检测（或识别）是确定两个或多个任意长度的句子是否具有相同含义的任务。解决这一任务的方法在自然语言处理系统中具有潜在的应用。针对葡萄牙语转述检测问题，本文研究了通过向量空间和线性分类器在语言模型中组合不同的句子表示方法。在这项工作中获得的结果低于在葡萄牙语ASSIN评估中检测文本含义的相关任务所获得的结果，但在这项研究中，我们研究了句子的向量表示在检测转述中的应用，在这种系统中通常探索的其他功能可以简单地结合到我们的方法中，以提高性能。

引用次数: 4

Parafraseamento Automático de Registo Informal em Registo Formal na Língua Portuguesa 葡萄牙语非正式记录自动转译为正式记录

IF 0.6 Q4 LINGUISTICS

Linguamatica

Pub Date : 2019-01-24 DOI: 10.21814/lm.10.2.282

Anabela Barreiro, Ida Rebelo-Arnold, J. Baptista, C. Mota, Isabel Garcez

Este artigo apresenta o processo de automatização de parafraseamento em português e conversão de construções típicas do registo informal ou da linguagem falada em construções de registo formal usadas na linguagem escrita. Ilustraremos o processo de automatização com exemplos extraídos do corpus e-PACT, que envolvem a colocação normalizada de pronomes clíticos quando co-ocorrem com compostos verbais. A tarefa consiste em parafrasear e normalizar, entre outras, construções como vou-lhe/posso-lhe fazer uma surpresa em vou/posso fazer-lhe uma surpresa, em que o pronome clítico lhe migra de uma posição enclítica imediatamente a seguir ao primeiro verbo do composto verbal para uma posição enclítica a seguir ao verbo principal, que é o verbo responsável pela seleção do argumento pronominal. O primeiro verbo é um verbo auxiliar ou um verbo volitivo, e.g., querer. Este é um procedimento padronizado no processo de revisão em português europeu. Casos como este representam fenómenos linguísticos em que os estudantes de língua portuguesa e falantes em geral se confundem ou onde "tropeçam". O artigo enfatiza a língua padrão em que os fenómenos observados ocorrem, descreve exemplos de interesse encontrados no corpus e apresenta uma solução automática, baseada na aplicação de gramáticas transformacionais genéricas, que facilitam a normalização de inadequações ou falhas sintáticas (registos informais) encontradas nas construções pesquisadas em construções padronizadas típicas da escrita formal ou escrita profissional.

本文介绍了葡萄牙语自动释义的过程，以及将非正式或口语的典型结构转换为书面语言中使用的正式结构的过程。我们将用e-PACT语料库中的例子来说明自动化过程，其中包括附词代词与动词复合词同时出现时的标准化位置。的任务是解释和规范等建筑,作为我/我能问你一个惊喜在我帮/ clítico代词的给她个惊喜,他则从一个附属的位置后第一个动词的语言主要是动词后附属的地位,代名词的动词负责挑选剧本。第一个动词是助动词或意志动词，例如，想要。这是欧洲葡萄牙语修订过程中的标准化程序。这样的案例代表了葡萄牙语学生和说葡萄牙语的人通常会混淆或“绊倒”的语言现象。文章强调的标准语言现象进行观察,描述了语料库中发现感兴趣的例子和提供了一个自动的解决方案,基于应用的通用转换语法句法,促进标准化的不足或缺陷(非正式的)发现的建筑在建筑标准的正式的书面或专业写作。

{"title":"Parafraseamento Automático de Registo Informal em Registo Formal na Língua Portuguesa","authors":"Anabela Barreiro, Ida Rebelo-Arnold, J. Baptista, C. Mota, Isabel Garcez","doi":"10.21814/lm.10.2.282","DOIUrl":"https://doi.org/10.21814/lm.10.2.282","url":null,"abstract":"Este artigo apresenta o processo de automatização de parafraseamento em português e conversão de construções típicas do registo informal ou da linguagem falada em construções de registo formal usadas na linguagem escrita. Ilustraremos o processo de automatização com exemplos extraídos do corpus e-PACT, que envolvem a colocação normalizada de pronomes clíticos quando co-ocorrem com compostos verbais. A tarefa consiste em parafrasear e normalizar, entre outras, construções como vou-lhe/posso-lhe fazer uma surpresa em vou/posso fazer-lhe uma surpresa, em que o pronome clítico lhe migra de uma posição enclítica imediatamente a seguir ao primeiro verbo do composto verbal para uma posição enclítica a seguir ao verbo principal, que é o verbo responsável pela seleção do argumento pronominal. O primeiro verbo é um verbo auxiliar ou um verbo volitivo, e.g., querer. Este é um procedimento padronizado no processo de revisão em português europeu. Casos como este representam fenómenos linguísticos em que os estudantes de língua portuguesa e falantes em geral se confundem ou onde \"tropeçam\". O artigo enfatiza a língua padrão em que os fenómenos observados ocorrem, descreve exemplos de interesse encontrados no corpus e apresenta uma solução automática, baseada na aplicação de gramáticas transformacionais genéricas, que facilitam a normalização de inadequações ou falhas sintáticas (registos informais) encontradas nas construções pesquisadas em construções padronizadas típicas da escrita formal ou escrita profissional.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"10 1","pages":"53-61"},"PeriodicalIF":0.6,"publicationDate":"2019-01-24","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"43307831","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 2

Paráfrase de advérbios terminados em -mente em Português 葡萄牙语中以- mind结尾的副词的释义

IF 0.6 Q4 LINGUISTICS

Linguamatica

Pub Date : 2019-01-24 DOI: 10.21814/LM.10.2.289

J. Baptista

Neste artigo, partimos da análise léxico-sintático-semântica das propriedades que foram usadas para classificar advérbios terminados em -mente mais frequentes em português e exploramos a geração de diferentes padrões de paráfrase, tanto estruturas regulares ou muito gerais, tais como os advérbios de modo e de ponto de vista, bem como outros, menos produtivos (e às vezes idiomáticas). O objetivo é fornecer um abrangente conjunto de estratégias de paráfrase, que podem ser usadas em várias aplicações de processamento de linguagem natural, como a simplificação de texto ou até mesmo tradução automática.

在本文中，我们从词汇句法语义分析入手，对葡萄牙语中用于分类更频繁的意端副词的特性进行了分析，并探讨了不同的转述模式的产生，包括规则结构或非常一般的结构，如模式和观点副词，以及其他，效率较低（有时是惯用语）。目标是提供一套全面的转述策略，可用于各种自然语言处理应用，如文本简化甚至机器翻译。

引用次数: 1

Explorando métodos non-supervisados para calcular a similitude semántica textual 探讨无监督方法计算语义文本相似度

IF 0.6 Q4 LINGUISTICS

Linguamatica

Pub Date : 2019-01-24 DOI: 10.21814/LM.10.2.275

Pablo Gamallo, Martin Pereira-Fariña

Neste traballo preséntanse varios métodos non-supervisados para a detección da similitude semántica textual, os cales están baseados en modelos distribucionais e no parseado de dependencias. Os sistemas son avaliados mediante datasets empregados na ASSIN Shared Task, celebrada conxuntamente co PROPOR 2016. Os métodos máis básicos ofrecen un mellor comportamento que aqueles, mais complexos, que inclúen información sintáctico-semántica na análise das oracións. Por último, o uso de modelos distribucionais construidos automaticamente a partir de corpus ofrece resultados comparábeis ás estratexias que utilizan recursos léxicos externos construídos manualmente.

本文提出了几种基于分布模型和依赖解析的无监督语义文本相似性检测方法。使用ASSIN共享任务中使用的数据集对系统进行评估，该任务与PROPOR 2016一起保存。最基本的方法提供了比那些更好的行为，但很复杂，其中包括祈祷分析中的合成语义信息。最后，使用语料库中自动构建的分布模型提供了与使用手动构建的外部词汇资源的策略相当的结果。

引用次数: 2

Análise da capacidade de identificação de paráfrase em ferramentas de resolução de correferência 相关性解析工具中转述识别能力的分析

IF 0.6 Q4 LINGUISTICS

Linguamatica

Pub Date : 2019-01-24 DOI: 10.21814/LM.10.2.288

Bernardo Scapini Consoli, Joaquim Francisco Lira Neto, Sandra Collovini, Renata Vieira

Os fenômenos linguísticos de correferência e paráfrase compartilham certos aspectos. É comum, por exemplo, referir-se a uma mesma entidade de maneiras diferentes em um mesmo contexto, assim, a resolução de correferências pode auxiliar o processo de identificação de paráfrases. Este artigo apresenta uma análise das capacidades da ferramenta de resolução de correferência CORP, para Português, no contexto de identificação de paráfrases nos níveis de sentença e de sintagma.

共指和意译的语言现象有某些共同之处。例如，在同一上下文中以不同的方式引用同一实体是很常见的，因此共指解析可以帮助识别意译。本文分析了葡萄牙语共参考公司的解析工具在句子和短语水平上的意译识别的能力。

引用次数: 2

首页上一页

下一页尾页

类型

全部化学•材料生命科学医学物理工程技术环境•农林材料科学地球科学法学管理学化学环境科学与生态学计算机科学教育学经济学农林科学人文科学生物学数学物理与天体物理心理学综合性期刊其他工业工程理学历史学农学文学信息工程

数据库

全部 ACS Publications Elsevier ieeexplore Springer The Royal Society of Chemistry Wiley

期刊

Linguamatica

全部 Acc. Chem. Res. ACS Applied Bio Materials ACS Appl. Electron. Mater. ACS Appl. Energy Mater. ACS Appl. Mater. Interfaces ACS Appl. Nano Mater. ACS Appl. Polym. Mater. ACS BIOMATER-SCI ENG ACS Catal. ACS Cent. Sci. ACS Chem. Biol. ACS Chemical Health & Safety ACS Chem. Neurosci. ACS Comb. Sci. ACS Earth Space Chem. ACS Energy Lett. ACS Infect. Dis. ACS Macro Lett. ACS Mater. Lett. ACS Med. Chem. Lett. ACS Nano ACS Omega ACS Photonics ACS Sens. ACS Sustainable Chem. Eng. ACS Synth. Biol. Anal. Chem. BIOCHEMISTRY-US Bioconjugate Chem. BIOMACROMOLECULES Chem. Res. Toxicol. Chem. Rev. Chem. Mater. CRYST GROWTH DES ENERG FUEL Environ. Sci. Technol. Environ. Sci. Technol. Lett. Eur. J. Inorg. Chem. IND ENG CHEM RES Inorg. Chem. J. Agric. Food. Chem. J. Chem. Eng. Data J. Chem. Educ. J. Chem. Inf. Model. J. Chem. Theory Comput. J. Med. Chem. J. Nat. Prod. J PROTEOME RES J. Am. Chem. Soc. LANGMUIR MACROMOLECULES Mol. Pharmaceutics Nano Lett. Org. Lett. ORG PROCESS RES DEV ORGANOMETALLICS J. Org. Chem. J. Phys. Chem. J. Phys. Chem. A J. Phys. Chem. B J. Phys. Chem. C J. Phys. Chem. Lett. Analyst Anal. Methods Biomater. Sci. Catal. Sci. Technol. Chem. Commun. Chem. Soc. Rev. CHEM EDUC RES PRACT CRYSTENGCOMM Dalton Trans. Energy Environ. Sci. ENVIRON SCI-NANO ENVIRON SCI-PROC IMP ENVIRON SCI-WAT RES Faraday Discuss. Food Funct. Green Chem. Inorg. Chem. Front. Integr. Biol. J. Anal. At. Spectrom. J. Mater. Chem. A J. Mater. Chem. B J. Mater. Chem. C Lab Chip Mater. Chem. Front. Mater. Horiz. MEDCHEMCOMM Metallomics Mol. Biosyst. Mol. Syst. Des. Eng. Nanoscale Nanoscale Horiz. Nat. Prod. Rep. New J. Chem. Org. Biomol. Chem. Org. Chem. Front. PHOTOCH PHOTOBIO SCI PCCP Polym. Chem.

﹀