首页 > 最新文献

Linguamatica最新文献

英文 中文
CORP: Uma Abordagem Baseada em Regras e Conhecimento Semântico para a Resolução de Correferências CORP:一种基于规则和语义知识的关联引用解析方法
IF 0.6 Q2 Arts and Humanities Pub Date : 2017-01-07 DOI: 10.21814/lm.9.1.241
Evandro Brasil da Fonseca, Vinicius Sesti, André Antonitsch, A. A. Vanin, Renata Vieira
In this paper we propose the use of lexical, syntactic and semantic knowledge for coreference resolution.  We conducted several experiments involving different heuristics. As a result of this study, we generated a practical system that solves coreference in Portuguese texts. In addition, it was possible to increase our recall through semantic knowledge provided by Onto.PT.
在本文中,我们提出使用词汇、句法和语义知识来解决共指问题。我们进行了几个涉及不同启发式的实验。通过这项研究,我们生成了一个实用的系统来解决葡萄牙语文本中的共指问题。此外,通过Onto.PT提供的语义知识可以提高我们的召回率。
{"title":"CORP: Uma Abordagem Baseada em Regras e Conhecimento Semântico para a Resolução de Correferências","authors":"Evandro Brasil da Fonseca, Vinicius Sesti, André Antonitsch, A. A. Vanin, Renata Vieira","doi":"10.21814/lm.9.1.241","DOIUrl":"https://doi.org/10.21814/lm.9.1.241","url":null,"abstract":"In this paper we propose the use of lexical, syntactic and semantic knowledge for coreference resolution.  We conducted several experiments involving different heuristics. As a result of this study, we generated a practical system that solves coreference in Portuguese texts. In addition, it was possible to increase our recall through semantic knowledge provided by Onto.PT.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":null,"pages":null},"PeriodicalIF":0.6,"publicationDate":"2017-01-07","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"43236972","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 12
BrAgriNews: Um Corpus Temporal-Causal (Português-Brasileiro) para a Agricultura BrAgriNews:农业的时间-因果语料库(葡萄牙-巴西)
IF 0.6 Q2 Arts and Humanities Pub Date : 2017-01-07 DOI: 10.21814/lm.9.1.245
Brett Drury, Robson Fernandes, Alneu de Andrade Lopes
There has been a recent sharp increase in interest in academia and industry in applying machine learning and artificial intelligence to agricultural problems. Text mining and related natural language processing techniques, have been rarely used to tackle agricultural problems, and at the time of writing there was a single project in the Portuguese language. It is possible that the failure of researchers to use text mining techniques to analyze Portuguese texts to resolve agricultural problems may be due to a lack of freely available corpora. To correct the lack of a Portuguese language agriculture centric corpus we are releasing a Brazilian-Portuguese agricultural language resource, which is described by this paper. The corpus is partially non-contiguous and spans a time period from 1996 to 2016. It consists of news stories that have been scraped from Brazilian News sites that have been annotated with the following information types: causal, sentiment, named entities that include temporal expressions. The corpus has additional resources such as a: treebank, lists of frequent: unigrams, bigrams and trigrams, as well words or phrases that have been identified by journalists as either: ``important'' or domain specific.  It is hoped that the release of this corpus will stimulate the adoption of text mining in agriculture in the Lusophonic research community.
最近,学术界和工业界对将机器学习和人工智能应用于农业问题的兴趣急剧增加。文本挖掘和相关的自然语言处理技术很少用于解决农业问题,在撰写本文时,有一个葡萄牙语的单一项目。研究人员未能使用文本挖掘技术来分析葡萄牙语文本以解决农业问题,可能是由于缺乏免费的语料库。为了纠正葡萄牙语农业中心语料库的缺乏,我们发布了一个巴西-葡萄牙农业语言资源,本文对此进行了描述。语料库部分不连续,时间跨度从1996年到2016年。它由从巴西新闻网站抓取的新闻故事组成,这些新闻故事已经用以下信息类型进行了注释:因果关系、情感、包含时间表达式的命名实体。语料库有额外的资源,如树库,频繁的单字母、双字母和三字母列表,以及被记者识别为“重要”或特定领域的单词或短语。希望这个语料库的发布将刺激在葡语研究界农业文本挖掘的采用。
{"title":"BrAgriNews: Um Corpus Temporal-Causal (Português-Brasileiro) para a Agricultura","authors":"Brett Drury, Robson Fernandes, Alneu de Andrade Lopes","doi":"10.21814/lm.9.1.245","DOIUrl":"https://doi.org/10.21814/lm.9.1.245","url":null,"abstract":"There has been a recent sharp increase in interest in academia and industry in applying machine learning and artificial intelligence to agricultural problems. Text mining and related natural language processing techniques, have been rarely used to tackle agricultural problems, and at the time of writing there was a single project in the Portuguese language. It is possible that the failure of researchers to use text mining techniques to analyze Portuguese texts to resolve agricultural problems may be due to a lack of freely available corpora. To correct the lack of a Portuguese language agriculture centric corpus we are releasing a Brazilian-Portuguese agricultural language resource, which is described by this paper. The corpus is partially non-contiguous and spans a time period from 1996 to 2016. It consists of news stories that have been scraped from Brazilian News sites that have been annotated with the following information types: causal, sentiment, named entities that include temporal expressions. The corpus has additional resources such as a: treebank, lists of frequent: unigrams, bigrams and trigrams, as well words or phrases that have been identified by journalists as either: ``important'' or domain specific.  It is hoped that the release of this corpus will stimulate the adoption of text mining in agriculture in the Lusophonic research community.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":null,"pages":null},"PeriodicalIF":0.6,"publicationDate":"2017-01-07","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"48852791","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 4
Geração Automática de Sentenças em Língua Natural para Sequências de Pictogramas como Apoio à Comunicação Alternativa e Ampliada 自动生成象形图序列的自然语言句子,以支持替代和扩展的交流
IF 0.6 Q2 Arts and Humanities Pub Date : 2017-01-07 DOI: 10.21814/lm.9.1.242
R. Pereira, H. Macedo, R. C. N. Givigi, Marco Túlio Chella
A Comunicacao Alternativa e Ampliada (CAA) e uma area de pratica clinica educacional para fonoaudiologos cujo objetivo e auxiliar individuos que possuam deficiencia na oralidade. Os simbolos de comunicacao pictorica constituem um dos sistemas da CAA que podem complementar ou mesmo substituir a linguagem falada desses individuos. E possivel utilizar a habilidade ja adquirida em comunicacao pictorica por parte de criancas com deficiencia para promover sua alfabetizacao. Infelizmente, a literatura relacionada parece nao indicar solucao pratica para tal questao. Neste artigo, propomos um metodo para geracao automatica de sentencas naturais em lingua portuguesa do Brasil que corresponda a uma dada sequencia de simbolos pictoricos apresentados. Este metodo foi implementado em uma ferramenta visual de apoio ao profissional educador e atualmente faz parte de um dos recursos de CAA do Laboratorio de CAA da Universidade Federal de Sergipe. Um conjunto de validacao fornecido pelo Laboratorio mostrou a corretude das sentencas geradas pela ferramenta.
替代和扩展沟通(AAC)是言语治疗师的一个教育临床实践领域,其目标是帮助口腔缺陷患者。图像交流的符号构成了AAC系统之一,可以补充甚至取代这些人的口语。可以利用残疾儿童在图片交流中已经掌握的技能来提高他们的识字能力。不幸的是,相关文献似乎没有表明这一问题的实际解决方案。在这篇文章中,我们提出了一种在巴西葡萄牙语中自动生成自然句子的方法,该方法对应于给定的图形符号序列。该方法是在一个可视化工具中实现的,以支持专业教育工作者,目前是塞尔吉培联邦大学AAC实验室AAC资源的一部分。实验室提供的一组验证显示了该工具生成的句子的正确性。
{"title":"Geração Automática de Sentenças em Língua Natural para Sequências de Pictogramas como Apoio à Comunicação Alternativa e Ampliada","authors":"R. Pereira, H. Macedo, R. C. N. Givigi, Marco Túlio Chella","doi":"10.21814/lm.9.1.242","DOIUrl":"https://doi.org/10.21814/lm.9.1.242","url":null,"abstract":"A Comunicacao Alternativa e Ampliada (CAA) e uma area de pratica clinica educacional para fonoaudiologos cujo objetivo e auxiliar individuos que possuam deficiencia na oralidade. Os simbolos de comunicacao pictorica constituem um dos sistemas da CAA que podem complementar ou mesmo substituir a linguagem falada desses individuos. E possivel utilizar a habilidade ja adquirida em comunicacao pictorica por parte de criancas com deficiencia para promover sua alfabetizacao. Infelizmente, a literatura relacionada parece nao indicar solucao pratica para tal questao. Neste artigo, propomos um metodo para geracao automatica de sentencas naturais em lingua portuguesa do Brasil que corresponda a uma dada sequencia de simbolos pictoricos apresentados. Este metodo foi implementado em uma ferramenta visual de apoio ao profissional educador e atualmente faz parte de um dos recursos de CAA do Laboratorio de CAA da Universidade Federal de Sergipe. Um conjunto de validacao fornecido pelo Laboratorio mostrou a corretude das sentencas geradas pela ferramenta.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":null,"pages":null},"PeriodicalIF":0.6,"publicationDate":"2017-01-07","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"49114397","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
LinguaKit: uma ferramenta multilingue para a análise linguística e a extração de informação LinguaKit:用于语言分析和信息提取的多语言工具
IF 0.6 Q2 Arts and Humanities Pub Date : 2017-01-07 DOI: 10.21814/lm.9.1.243
Pablo Gamallo, Marcos Garcia
Este artigo apresenta LinguaKit, uma suite multilingue de ferramentas de analise, extracao, anotacao e correcao linguisticas. LinguaKit permite realizar tarefas tao diversas como a lematizacao, a etiquetagem morfossintatica ou a analise sintatica (entre outras), incluindo tambem aplicacoes para a analise de sentimentos (ou minaria de opinioes), a extracao de termos multipalavra, ou a anotacao concetual e ligacao a recursos enciclopedicos tais como a DBpedia. A maior parte dos modulos funcionam para quatro variedades linguisticas: portugues, espanhol, ingles e galego. A linguagem de programacao de LinguaKit e Perl, e o codigo esta disponivel sob a licenca livre GPLv3.
本文介绍了LinguaKit,一个多语言的语言分析、提取、注释和校正工具套件。LinguaKit允许工作这么几个lematizacao、标签morfossintatica之间的分析sintatica(或其他),也包括投资分析的感情(或破坏)的意见,multipalavra extracao的术语或概念anotacao enciclopedicos如DBpedia和连接的资源。大多数模块适用于四种语言:葡萄牙语、西班牙语、英语和加利西亚语。LinguaKit编程语言和Perl,代码可在免费许可证GPLv3下获得。
{"title":"LinguaKit: uma ferramenta multilingue para a análise linguística e a extração de informação","authors":"Pablo Gamallo, Marcos Garcia","doi":"10.21814/lm.9.1.243","DOIUrl":"https://doi.org/10.21814/lm.9.1.243","url":null,"abstract":"Este artigo apresenta LinguaKit, uma suite multilingue de ferramentas de analise, extracao, anotacao e correcao linguisticas. LinguaKit permite realizar tarefas tao diversas como a lematizacao, a etiquetagem morfossintatica ou a analise sintatica (entre outras), incluindo tambem aplicacoes para a analise de sentimentos (ou minaria de opinioes), a extracao de termos multipalavra, ou a anotacao concetual e ligacao a recursos enciclopedicos tais como a DBpedia. A maior parte dos modulos funcionam para quatro variedades linguisticas: portugues, espanhol, ingles e galego. A linguagem de programacao de LinguaKit e Perl, e o codigo esta disponivel sob a licenca livre GPLv3.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":null,"pages":null},"PeriodicalIF":0.6,"publicationDate":"2017-01-07","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"45218310","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 29
ASAPP: Alinhamento Semântico Automático de Palavras aplicado ao Português ASAPP:应用于葡萄牙语的自动单词语义对齐
IF 0.6 Q2 Arts and Humanities Pub Date : 2016-12-31 DOI: 10.21814/LM.8.2.234
Ana Oliveira Alves, Ricardo Rodrigues, Hugo Gonçalo Oliveira
We present two distinct approaches to the ASSIN shared evaluation task where, given a collection with pairs of sentences, in Portuguese, poses the following challenges: (a)~computing the semantic similarity between the sentences of each pair; and (b)~testing whether one sentence paraphrases or entails the other. The first approach, dubbed Reciclagem, is exclusively based on heuristics computed on Portuguese semantic networks. The second, dubbed ASAPP, is based on supervised machine learning. The results of Reciclagem enable an indirect comparison of Portuguese semantic networks. They were then used as features of the ASAPP approach, together with lexical and syntactic features. After comparing our results with those in the gold collection, it is clear that ASAPP consistently outperforms Reciclagem. This happens both for European Portuguese and Brazilian Portuguese, where the entailment performance reaches an accuracy of 80.28% +- 0.019, and the semantic similarity scores are 66.5% +- 0.021 correlated with those given by humans.
我们提出了两种不同的ASSIN共享评估任务的方法,其中,给定一个葡萄牙语句子对的集合,提出了以下挑战:(a)~计算每对句子之间的语义相似性;(b)测试一个句子是否改写了另一个句子或包含了另一个句子。第一种方法被称为Reciclagem,完全基于葡萄牙语语义网络计算的启发式。第二个被称为ASAPP,是基于监督机器学习的。Reciclagem的结果使葡萄牙语语义网络的间接比较成为可能。然后将它们与词汇和句法特征一起作为ASAPP方法的特征。在将我们的结果与黄金集合中的结果进行比较后,很明显ASAPP始终优于Reciclagem。对于欧洲葡萄牙语和巴西葡萄牙语,蕴涵性能达到80.28% +- 0.019的准确率,与人类给出的语义相似度得分为66.5% +- 0.021。
{"title":"ASAPP: Alinhamento Semântico Automático de Palavras aplicado ao Português","authors":"Ana Oliveira Alves, Ricardo Rodrigues, Hugo Gonçalo Oliveira","doi":"10.21814/LM.8.2.234","DOIUrl":"https://doi.org/10.21814/LM.8.2.234","url":null,"abstract":"We present two distinct approaches to the ASSIN shared evaluation task where, given a collection with pairs of sentences, in Portuguese, poses the following challenges: (a)~computing the semantic similarity between the sentences of each pair; and (b)~testing whether one sentence paraphrases or entails the other. The first approach, dubbed Reciclagem, is exclusively based on heuristics computed on Portuguese semantic networks. The second, dubbed ASAPP, is based on supervised machine learning. The results of Reciclagem enable an indirect comparison of Portuguese semantic networks. They were then used as features of the ASAPP approach, together with lexical and syntactic features. After comparing our results with those in the gold collection, it is clear that ASAPP consistently outperforms Reciclagem. This happens both for European Portuguese and Brazilian Portuguese, where the entailment performance reaches an accuracy of 80.28% +- 0.019, and the semantic similarity scores are 66.5% +- 0.021 correlated with those given by humans.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":null,"pages":null},"PeriodicalIF":0.6,"publicationDate":"2016-12-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68372563","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 18
Visão Geral da Avaliação de Similaridade Semântica e Inferência Textual 语义相似性评价与语篇推理概述
IF 0.6 Q2 Arts and Humanities Pub Date : 2016-12-31 DOI: 10.21814/LM.8.2.235
Erick Rocha Fonseca, L. Santos, Marcelo Criscuolo, Sandra M. Aluísio
Inferencia Textual e Similaridade Semântica sao duas tarefas do processamento de linguas naturais que tratam de pares de trechos de textos. O objetivo da primeira e determinar se o significado de um trecho implica o outro, enquanto que a segunda atribui uma pontuacao de similaridade semântica ao par. Esse artigo apresenta os resultados da avaliacao conjunta ASSIN (Avaliacao de Similaridade Semântica e Inferencia) e seu corpus, que foi anotado para ambas as tarefas nas variantes brasileira e europeia da lingua portuguesa. O corpus difere de similares na literatura em suas tres classes para a tarefa de inferencia textual (Implicacao, Parafrase e Neutro) e por ter sido composto de sentencas extraidas de textos jornalisticos. Seis equipes participaram da avaliacao conjunta, explorando diferentes estrategias.
文本推理和语义相似性是自然语言处理对文本片段的两个任务。第一的目标的意义是否意味着另一个片段,而第二个高度平价语音语义相似。本文介绍评估的结果联合ASSIN(评估的相似性和语义推理)的语料对这两个任务都在巴西和欧洲的英语变体。该语料库在文本推理任务(暗示、意译和中性)的三个类中不同于类似的文献,因为它是由从新闻文本中提取的句子组成的。六个小组参与了联合评估,探索了不同的策略。
{"title":"Visão Geral da Avaliação de Similaridade Semântica e Inferência Textual","authors":"Erick Rocha Fonseca, L. Santos, Marcelo Criscuolo, Sandra M. Aluísio","doi":"10.21814/LM.8.2.235","DOIUrl":"https://doi.org/10.21814/LM.8.2.235","url":null,"abstract":"Inferencia Textual e Similaridade Semântica sao duas tarefas do processamento de linguas naturais que tratam de pares de trechos de textos. O objetivo da primeira e determinar se o significado de um trecho implica o outro, enquanto que a segunda atribui uma pontuacao de similaridade semântica ao par. Esse artigo apresenta os resultados da avaliacao conjunta ASSIN (Avaliacao de Similaridade Semântica e Inferencia) e seu corpus, que foi anotado para ambas as tarefas nas variantes brasileira e europeia da lingua portuguesa. O corpus difere de similares na literatura em suas tres classes para a tarefa de inferencia textual (Implicacao, Parafrase e Neutro) e por ter sido composto de sentencas extraidas de textos jornalisticos. Seis equipes participaram da avaliacao conjunta, explorando diferentes estrategias.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":null,"pages":null},"PeriodicalIF":0.6,"publicationDate":"2016-12-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68372163","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 39
INESC-ID@ASSIN: Medição de Similaridade Semântica e Reconhecimento de Inferência Textual INESC-ID@ASSIN:语义相似性测量和文本推理识别
IF 0.6 Q2 Arts and Humanities Pub Date : 2016-12-31 DOI: 10.21814/LM.8.2.233
Pedro Fialho, Ricardo Marques, Bruno Martins, Luísa Coheur, Paulo Quaresma
In this article we present INESC-ID@ASSIN, a system that competed in the 2016 joint evaluation effort entitled Avaliacao de Similaridade Semântica e Inferencia Textual (ASSIN), in the tasks of semantic similarity and textual entailment recognition. INESC-ID@ASSIN addresses the problem of detecting sentence similarity as a regression task, and it addresses textual entailment as a classification task. Although INESC-ID@ASSIN relies mainly on simple lexical features for detecting paraphrases and recognizing textual entailment, promising results were achieved in this joint evaluation.
在本文中,我们介绍了INESC-ID@ASSIN,这是一个在2016年联合评估工作中竞争的系统,名为Avaliacao de Similaridade semntica e interencia Textual (ASSIN),在语义相似性和文本蕴意识别的任务中。INESC-ID@ASSIN将检测句子相似性的问题作为一个回归任务,并将文本蕴涵作为一个分类任务。虽然INESC-ID@ASSIN主要依靠简单的词汇特征来检测释义和识别文本蕴涵,但在这次联合评估中取得了令人满意的结果。
{"title":"INESC-ID@ASSIN: Medição de Similaridade Semântica e Reconhecimento de Inferência Textual","authors":"Pedro Fialho, Ricardo Marques, Bruno Martins, Luísa Coheur, Paulo Quaresma","doi":"10.21814/LM.8.2.233","DOIUrl":"https://doi.org/10.21814/LM.8.2.233","url":null,"abstract":"In this article we present INESC-ID@ASSIN, a system that competed in the 2016 joint evaluation effort entitled Avaliacao de Similaridade Semântica e Inferencia Textual (ASSIN), in the tasks of semantic similarity and textual entailment recognition. INESC-ID@ASSIN addresses the problem of detecting sentence similarity as a regression task, and it addresses textual entailment as a classification task. Although INESC-ID@ASSIN relies mainly on simple lexical features for detecting paraphrases and recognizing textual entailment, promising results were achieved in this joint evaluation.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":null,"pages":null},"PeriodicalIF":0.6,"publicationDate":"2016-12-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68372488","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 19
Blue Man Group no ASSIN: Usando Representações Distribuídas para Similaridade Semântica e Inferência Textual ASSIN中的Blue Man Group:使用分布式表示进行语义相似性和文本推断
IF 0.6 Q2 Arts and Humanities Pub Date : 2016-12-31 DOI: 10.21814/LM.8.2.231
Luciano Barbosa, P. R. Cavalin, Victor Guimarães, Matthias Kormaksson
In this paper, we present the methodology and the results obtained by our team, dubbed Blue Man Group, in the ASSIN (from the Portuguese Avaliacao de Similaridade Semântica e Inferencia Textual) competition, held at PROPOR 2016. Our team's strategy consisted of evaluating methods based on semantic word vectors, following two distinct directions: 1) to make use of low-dimensional, compact, feature sets, and 2) deep learning-based strategies dealing with high-dimensional feature vectors. Evaluation results demonstrated that the first strategy was more promising, so that the results from the second strategy have been discarded. As a result, by considering the best run of each of the six participant teams, we have been able to achieve the best accuracy and F1 values in entailment recognition, in the Brazilian Portuguese set, and the best F1 score considering also the Portuguse from Portugal set. In the semantic similarity task, our team was ranked second in the Brazilian Portuguese set, and third considering both sets.
在本文中,我们介绍了我们的团队(称为Blue Man Group)在2016年PROPOR举行的ASSIN(来自葡萄牙Avaliacao de Similaridade sem ntica e interencia Textual)竞赛中获得的方法和结果。我们团队的策略包括基于语义词向量的评估方法,遵循两个不同的方向:1)利用低维、紧凑的特征集,以及2)处理高维特征向量的基于深度学习的策略。评价结果表明,第一种策略更有希望,因此第二种策略的结果被丢弃。因此,通过考虑六支参赛队伍的最佳运行,我们能够在蕴涵识别中获得最佳精度和F1值,在巴西葡萄牙集合中,以及在考虑来自葡萄牙的葡萄牙集合的最佳F1分数。在语义相似度任务中,我们的团队在巴西葡萄牙语组中排名第二,在两组中排名第三。
{"title":"Blue Man Group no ASSIN: Usando Representações Distribuídas para Similaridade Semântica e Inferência Textual","authors":"Luciano Barbosa, P. R. Cavalin, Victor Guimarães, Matthias Kormaksson","doi":"10.21814/LM.8.2.231","DOIUrl":"https://doi.org/10.21814/LM.8.2.231","url":null,"abstract":"In this paper, we present the methodology and the results obtained by our team, dubbed Blue Man Group, in the ASSIN (from the Portuguese Avaliacao de Similaridade Semântica e Inferencia Textual) competition, held at PROPOR 2016. Our team's strategy consisted of evaluating methods based on semantic word vectors, following two distinct directions: 1) to make use of low-dimensional, compact, feature sets, and 2) deep learning-based strategies dealing with high-dimensional feature vectors. Evaluation results demonstrated that the first strategy was more promising, so that the results from the second strategy have been discarded. As a result, by considering the best run of each of the six participant teams, we have been able to achieve the best accuracy and F1 values in entailment recognition, in the Brazilian Portuguese set, and the best F1 score considering also the Portuguse from Portugal set. In the semantic similarity task, our team was ranked second in the Brazilian Portuguese set, and third considering both sets.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":null,"pages":null},"PeriodicalIF":0.6,"publicationDate":"2016-12-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68372536","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 8
Editorial e Prefácio 社论Prefácio
IF 0.6 Q2 Arts and Humanities Pub Date : 2016-12-31 DOI: 10.21814/LM.6.1.178
Brandão Simões, Alberto Manuel
Editorial Este ano de 2014 e iniciado com uma edicao especial. Assim como em 2010, publicamos um conjunto de artigos alargados, seleccionados dos artigos aceites no nono Simposio Brasileiro de Tecnologia da Informacao e Linguagem Humana (STIL). Portanto, esta edicao abre com tres artigos seleccionados da edicao de 2013 do STIL que abordam diferentes aspectos da linguagem natural: em primeiro lugar a geracao de texto de forma a descrever o ambiente virtual em que um utilizador se encontra; posteriormente sera discutida a analise de coerencia no uso de entidades em textos cientificos; finalmente sera apresentado um sistema para o reconhecimento de entidades mencionadas, ou nomeadas. Para completar o volume, incluimos neste numero especial dois artigos de investigacao que nao fazem parte do STIL: primeiro um trabalho relacionado com a previsao, usando diferentes tipos de regressao e dados extraidos de texto escrito em linguagem natural; e em seguida, um trabalho sobre a anotacao e disponibilizacao de corpos paralelos criados a partir de trabalhos de traducao de alunos, de modo a serem uteis para, entre outras coisas, o proprio ensino de linguas. Alberto Simoes Jose Joao Almeida Xavier Gomez Guinovart Prefacio O Simposio Brasileiro de Tecnologia da Informacao e da Linguagem Humana (STIL) e o principal evento nacional apoiado e organizado pela Comissao Especial de Processamento de Linguagem Natural (CE-PLN) da Sociedade Brasileira de Computacao (SBC). O evento foi concebido em 2003 com o nome TIL (Workshop de Tecnologia da Informacao e da Linguagem Humana), tendo o proposito de estimular o desenvolvimento de uma area genuinamente multidisciplinar, procurando atrair pesquisadores, membros da comunidade academica e da industria que atuam nas areas de Ciencia da Computacao, Linguistica e Ciencia da Informacao, entre outras, pois o processamento computacional das linguas humanas requer a coordenacao de esforcos de diversas comunidades, que contribuem com conhecimentos especificos e metodologias de pesquisa proprias no desenvolvimento de tecnicas e sistemas. O principal objetivo do STIL e fornecer o forum adequado para a integracao dessas comunidades. Em 2003, foi realizado na USP-Sao Carlos/SP; em 2004 e 2005 foi hospedado pelo Congresso da SBC em Salvador/BA e Sao Leopoldo/RS, respectivamente; em 2006, o evento foi hospedado pela International Joint Conference IBERAMIA/SBIA/SBRN, em Ribeirao Preto/SP, que consistiu no maior evento de Inteligencia Artificial ja realizado no Brasil. A 5a. edicao do evento foi hospedada novamente pelo XXVII Congresso da SBC no Rio de Janeiro/RJ, no Instituto Militar de Engenharia-IME. A 6a. edicao do evento foi realizado em 2008 juntamente com o Webmedia, em Vila Velha-ES, e foi a ultima com o nome de TIL. A 7a. edicao, ja com o nome de STIL, foi realizada na USP-Sao Carlos/SP em 2009. A 8a edicao ocorreu em Cuiaba/MT em 2011, na UFMT. A 9a. edicao foi realizada em Fortaleza/CE em 2013, juntamente com o 2o. Brazilian Confer
2014年的社论,从特别版开始。和2010年一样,我们从第九届巴西信息技术和人类语言研讨会(STIL)接受的文章中挑选了一组扩展文章。因此,本版以2013年STIL版的三篇精选文章开始,讨论自然语言的不同方面:首先,生成文本以描述用户所处的虚拟环境;随后将讨论科学文本中实体使用的一致性分析;最后,将提出一种承认上述或指定实体的制度。为了完成这一卷,我们在本期特刊中包括了两篇不属于STIL的研究文章:第一篇是关于预测的工作,使用不同类型的回归和从自然语言书面文本中提取的数据;然后是对学生翻译作品中创建的平行体的注释和可用性的研究,以便对语言教学本身有用。Alberto Simoes Jose Joao Almeida Xavier Gomez Guinovart序言巴西信息技术和人类语言研讨会(STIL)是由巴西计算学会(SBC)自然语言处理特别委员会(CE-PLN)支持和组织的主要国家活动。该事件在2003年设计,直到(车间的信息技术和人类语言的刺激的目的),而不能真正的多学科的发展,寻找吸引学术研究人员,社区成员和行业代理领域的计算机科学、语言学、信息科学等,是人类语言的计算处理需要社会各界的努力,协调在技术和系统的发展中贡献特定的知识和研究方法。STIL的主要目标是为这些社区的融合提供适当的论坛。2003年,它在USP-Sao Carlos/SP举行;2004年和2005年,SBC大会分别在萨尔瓦多/巴和Sao Leopoldo/RS举办;2006年,该活动由伊比利亚/SBIA/SBRN国际联合会议在Ribeirao Preto/SP主办,这是巴西有史以来最大的人工智能活动。第五。该活动的版本再次由第二十七届SBC大会在里约热内卢de Janeiro/RJ,军事工程学院-IME主办。6的。该活动于2008年与Webmedia一起在Vila Velha-ES举行,这是最后一次以TIL的名字举行。七号的。这个版本,已经被称为STIL,于2009年在USP-Sao Carlos/SP举行。第八版于2011年在Cuiaba/MT举行,在UFMT。9的。该版本于2013年在福塔莱萨/CE举行,与第二版一起举行。巴西智能系统会议(BRACIS-13)和第十届全国人工和计算智能会议(ENIAC)。目前,STIL是巴西最大的社区活动,可以被认为是该国唯一一个完全致力于这一主题的活动。2013年版收到了来自巴西、英国、秘鲁、德国、美国和葡萄牙的65份意见书。每一篇文章都由来自7个国家和34所高等教育机构的64名成员组成的项目委员会的至少3名成员进行了审查。15篇论文被选为口头陈述(接受率23%),17篇论文被选为海报陈述。最好的论文被邀请提交扩展版本,发表在人类语言计算和计算处理领域的两家重要期刊上,分别是《巴西计算机学会杂志》(JBCS)和《伊比利亚语言自动处理杂志》(Linguamatica)。在Linguamatica纪念STIL 2013的特别版中,我们带来了以下2013年STIL文章的三个扩展版本:Diego Silva和Ivandre Paraboni的《在交互式虚拟环境中生成参考表达》;Alison Polpeta Freitas和Valeria Feltrim在科学文本局部连贯自动分析中的实体网格;NERP-CRF:一种通过条件随机字段识别命名实体的工具,Daniela do Amaral和Renata Vieira著。我们借此机会感谢作者、项目委员会成员、特邀演讲者、SBC以及2013年STIL的地方和一般委员会。我们希望大家对这些作品有一个有益的阅读!Sandra Maria Aluisio Valeria Delisandra Feltrim
{"title":"Editorial e Prefácio","authors":"Brandão Simões, Alberto Manuel","doi":"10.21814/LM.6.1.178","DOIUrl":"https://doi.org/10.21814/LM.6.1.178","url":null,"abstract":"Editorial Este ano de 2014 e iniciado com uma edicao especial. Assim como em 2010, publicamos um conjunto de artigos alargados, seleccionados dos artigos aceites no nono Simposio Brasileiro de Tecnologia da Informacao e Linguagem Humana (STIL). Portanto, esta edicao abre com tres artigos seleccionados da edicao de 2013 do STIL que abordam diferentes aspectos da linguagem natural: em primeiro lugar a geracao de texto de forma a descrever o ambiente virtual em que um utilizador se encontra; posteriormente sera discutida a analise de coerencia no uso de entidades em textos cientificos; finalmente sera apresentado um sistema para o reconhecimento de entidades mencionadas, ou nomeadas. Para completar o volume, incluimos neste numero especial dois artigos de investigacao que nao fazem parte do STIL: primeiro um trabalho relacionado com a previsao, usando diferentes tipos de regressao e dados extraidos de texto escrito em linguagem natural; e em seguida, um trabalho sobre a anotacao e disponibilizacao de corpos paralelos criados a partir de trabalhos de traducao de alunos, de modo a serem uteis para, entre outras coisas, o proprio ensino de linguas. Alberto Simoes Jose Joao Almeida Xavier Gomez Guinovart Prefacio O Simposio Brasileiro de Tecnologia da Informacao e da Linguagem Humana (STIL) e o principal evento nacional apoiado e organizado pela Comissao Especial de Processamento de Linguagem Natural (CE-PLN) da Sociedade Brasileira de Computacao (SBC). O evento foi concebido em 2003 com o nome TIL (Workshop de Tecnologia da Informacao e da Linguagem Humana), tendo o proposito de estimular o desenvolvimento de uma area genuinamente multidisciplinar, procurando atrair pesquisadores, membros da comunidade academica e da industria que atuam nas areas de Ciencia da Computacao, Linguistica e Ciencia da Informacao, entre outras, pois o processamento computacional das linguas humanas requer a coordenacao de esforcos de diversas comunidades, que contribuem com conhecimentos especificos e metodologias de pesquisa proprias no desenvolvimento de tecnicas e sistemas. O principal objetivo do STIL e fornecer o forum adequado para a integracao dessas comunidades. Em 2003, foi realizado na USP-Sao Carlos/SP; em 2004 e 2005 foi hospedado pelo Congresso da SBC em Salvador/BA e Sao Leopoldo/RS, respectivamente; em 2006, o evento foi hospedado pela International Joint Conference IBERAMIA/SBIA/SBRN, em Ribeirao Preto/SP, que consistiu no maior evento de Inteligencia Artificial ja realizado no Brasil. A 5a. edicao do evento foi hospedada novamente pelo XXVII Congresso da SBC no Rio de Janeiro/RJ, no Instituto Militar de Engenharia-IME. A 6a. edicao do evento foi realizado em 2008 juntamente com o Webmedia, em Vila Velha-ES, e foi a ultima com o nome de TIL. A 7a. edicao, ja com o nome de STIL, foi realizada na USP-Sao Carlos/SP em 2009. A 8a edicao ocorreu em Cuiaba/MT em 2011, na UFMT. A 9a. edicao foi realizada em Fortaleza/CE em 2013, juntamente com o 2o. Brazilian Confer","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":null,"pages":null},"PeriodicalIF":0.6,"publicationDate":"2016-12-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68370842","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
FlexSTS: Um Framework para Similaridade Semântica Textual FlexSTS:文本语义相似性框架
IF 0.6 Q2 Arts and Humanities Pub Date : 2016-12-31 DOI: 10.21814/LM.8.2.232
Jânio Freire, Vládia Pinheiro, David Feitosa
Desde 2012, os eventos de Semantic Evaluation (SemEval)  propoem a tarefa de Similaridade Semântica Textual (STS) como um tema de competicao, demonstrando sua relevância. Em 2016, a tarefa foi, pela primeira vez, proposta para lingua portuguesa, no Workshop de Avaliacao de Similaridade Semântica e Inferencia Textual (ASSIN), realizado durante a conferencia PROPOR 2016. Neste trabalho, apresentamos o FlexSTS --- um framework flexivel para STS que combina diversos componentes como parsers morfologicos e sintaticos, bases de conhecimento e lexicais, algoritmos de aprendizagem automatica, e algoritmos de alinhamento e calculo da similaridade. Para a ASSIN, FlexSTS foi instanciado em tres sistemas de STS para lingua portuguesa. Os resultados obtidos foram comparados com uma abordagem baseline que utiliza o coeficiente DICE.
自2012年以来,语义评估(SemEval)事件提出文本语义相似性(STS)任务作为一个竞争主题,证明了它的相关性。2016年,在2016年提议会议期间举行的语义相似性和文本推理评估研讨会(ASSIN)上,葡萄牙语首次提出了这项任务。在这项工作中,我们提出了FlexSTS——一个灵活的STS框架,它结合了几个组件,如形态和语法解析器、知识和词汇数据库、机器学习算法、对齐和相似性计算算法。对于ASSIN来说,FlexSTS是在三个葡萄牙语STS系统中实例化的。结果与使用DICE系数的基线方法进行了比较。
{"title":"FlexSTS: Um Framework para Similaridade Semântica Textual","authors":"Jânio Freire, Vládia Pinheiro, David Feitosa","doi":"10.21814/LM.8.2.232","DOIUrl":"https://doi.org/10.21814/LM.8.2.232","url":null,"abstract":"Desde 2012, os eventos de Semantic Evaluation (SemEval)  propoem a tarefa de Similaridade Semântica Textual (STS) como um tema de competicao, demonstrando sua relevância. Em 2016, a tarefa foi, pela primeira vez, proposta para lingua portuguesa, no Workshop de Avaliacao de Similaridade Semântica e Inferencia Textual (ASSIN), realizado durante a conferencia PROPOR 2016. Neste trabalho, apresentamos o FlexSTS --- um framework flexivel para STS que combina diversos componentes como parsers morfologicos e sintaticos, bases de conhecimento e lexicais, algoritmos de aprendizagem automatica, e algoritmos de alinhamento e calculo da similaridade. Para a ASSIN, FlexSTS foi instanciado em tres sistemas de STS para lingua portuguesa. Os resultados obtidos foram comparados com uma abordagem baseline que utiliza o coeficiente DICE.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":null,"pages":null},"PeriodicalIF":0.6,"publicationDate":"2016-12-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68372296","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 5
期刊
Linguamatica
全部 Acc. Chem. Res. ACS Applied Bio Materials ACS Appl. Electron. Mater. ACS Appl. Energy Mater. ACS Appl. Mater. Interfaces ACS Appl. Nano Mater. ACS Appl. Polym. Mater. ACS BIOMATER-SCI ENG ACS Catal. ACS Cent. Sci. ACS Chem. Biol. ACS Chemical Health & Safety ACS Chem. Neurosci. ACS Comb. Sci. ACS Earth Space Chem. ACS Energy Lett. ACS Infect. Dis. ACS Macro Lett. ACS Mater. Lett. ACS Med. Chem. Lett. ACS Nano ACS Omega ACS Photonics ACS Sens. ACS Sustainable Chem. Eng. ACS Synth. Biol. Anal. Chem. BIOCHEMISTRY-US Bioconjugate Chem. BIOMACROMOLECULES Chem. Res. Toxicol. Chem. Rev. Chem. Mater. CRYST GROWTH DES ENERG FUEL Environ. Sci. Technol. Environ. Sci. Technol. Lett. Eur. J. Inorg. Chem. IND ENG CHEM RES Inorg. Chem. J. Agric. Food. Chem. J. Chem. Eng. Data J. Chem. Educ. J. Chem. Inf. Model. J. Chem. Theory Comput. J. Med. Chem. J. Nat. Prod. J PROTEOME RES J. Am. Chem. Soc. LANGMUIR MACROMOLECULES Mol. Pharmaceutics Nano Lett. Org. Lett. ORG PROCESS RES DEV ORGANOMETALLICS J. Org. Chem. J. Phys. Chem. J. Phys. Chem. A J. Phys. Chem. B J. Phys. Chem. C J. Phys. Chem. Lett. Analyst Anal. Methods Biomater. Sci. Catal. Sci. Technol. Chem. Commun. Chem. Soc. Rev. CHEM EDUC RES PRACT CRYSTENGCOMM Dalton Trans. Energy Environ. Sci. ENVIRON SCI-NANO ENVIRON SCI-PROC IMP ENVIRON SCI-WAT RES Faraday Discuss. Food Funct. Green Chem. Inorg. Chem. Front. Integr. Biol. J. Anal. At. Spectrom. J. Mater. Chem. A J. Mater. Chem. B J. Mater. Chem. C Lab Chip Mater. Chem. Front. Mater. Horiz. MEDCHEMCOMM Metallomics Mol. Biosyst. Mol. Syst. Des. Eng. Nanoscale Nanoscale Horiz. Nat. Prod. Rep. New J. Chem. Org. Biomol. Chem. Org. Chem. Front. PHOTOCH PHOTOBIO SCI PCCP Polym. Chem.
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1