Evandro Brasil da Fonseca, Vinicius Sesti, André Antonitsch, A. A. Vanin, Renata Vieira
In this paper we propose the use of lexical, syntactic and semantic knowledge for coreference resolution. We conducted several experiments involving different heuristics. As a result of this study, we generated a practical system that solves coreference in Portuguese texts. In addition, it was possible to increase our recall through semantic knowledge provided by Onto.PT.
{"title":"CORP: Uma Abordagem Baseada em Regras e Conhecimento Semântico para a Resolução de Correferências","authors":"Evandro Brasil da Fonseca, Vinicius Sesti, André Antonitsch, A. A. Vanin, Renata Vieira","doi":"10.21814/lm.9.1.241","DOIUrl":"https://doi.org/10.21814/lm.9.1.241","url":null,"abstract":"In this paper we propose the use of lexical, syntactic and semantic knowledge for coreference resolution. We conducted several experiments involving different heuristics. As a result of this study, we generated a practical system that solves coreference in Portuguese texts. In addition, it was possible to increase our recall through semantic knowledge provided by Onto.PT.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"9 1","pages":"3-18"},"PeriodicalIF":0.6,"publicationDate":"2017-01-07","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"43236972","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Brett Drury, Robson Fernandes, Alneu de Andrade Lopes
There has been a recent sharp increase in interest in academia and industry in applying machine learning and artificial intelligence to agricultural problems. Text mining and related natural language processing techniques, have been rarely used to tackle agricultural problems, and at the time of writing there was a single project in the Portuguese language. It is possible that the failure of researchers to use text mining techniques to analyze Portuguese texts to resolve agricultural problems may be due to a lack of freely available corpora. To correct the lack of a Portuguese language agriculture centric corpus we are releasing a Brazilian-Portuguese agricultural language resource, which is described by this paper. The corpus is partially non-contiguous and spans a time period from 1996 to 2016. It consists of news stories that have been scraped from Brazilian News sites that have been annotated with the following information types: causal, sentiment, named entities that include temporal expressions. The corpus has additional resources such as a: treebank, lists of frequent: unigrams, bigrams and trigrams, as well words or phrases that have been identified by journalists as either: ``important'' or domain specific. It is hoped that the release of this corpus will stimulate the adoption of text mining in agriculture in the Lusophonic research community.
{"title":"BrAgriNews: Um Corpus Temporal-Causal (Português-Brasileiro) para a Agricultura","authors":"Brett Drury, Robson Fernandes, Alneu de Andrade Lopes","doi":"10.21814/lm.9.1.245","DOIUrl":"https://doi.org/10.21814/lm.9.1.245","url":null,"abstract":"There has been a recent sharp increase in interest in academia and industry in applying machine learning and artificial intelligence to agricultural problems. Text mining and related natural language processing techniques, have been rarely used to tackle agricultural problems, and at the time of writing there was a single project in the Portuguese language. It is possible that the failure of researchers to use text mining techniques to analyze Portuguese texts to resolve agricultural problems may be due to a lack of freely available corpora. To correct the lack of a Portuguese language agriculture centric corpus we are releasing a Brazilian-Portuguese agricultural language resource, which is described by this paper. The corpus is partially non-contiguous and spans a time period from 1996 to 2016. It consists of news stories that have been scraped from Brazilian News sites that have been annotated with the following information types: causal, sentiment, named entities that include temporal expressions. The corpus has additional resources such as a: treebank, lists of frequent: unigrams, bigrams and trigrams, as well words or phrases that have been identified by journalists as either: ``important'' or domain specific. It is hoped that the release of this corpus will stimulate the adoption of text mining in agriculture in the Lusophonic research community.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"9 1","pages":"41-54"},"PeriodicalIF":0.6,"publicationDate":"2017-01-07","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"48852791","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
R. Pereira, H. Macedo, R. C. N. Givigi, Marco Túlio Chella
A Comunicacao Alternativa e Ampliada (CAA) e uma area de pratica clinica educacional para fonoaudiologos cujo objetivo e auxiliar individuos que possuam deficiencia na oralidade. Os simbolos de comunicacao pictorica constituem um dos sistemas da CAA que podem complementar ou mesmo substituir a linguagem falada desses individuos. E possivel utilizar a habilidade ja adquirida em comunicacao pictorica por parte de criancas com deficiencia para promover sua alfabetizacao. Infelizmente, a literatura relacionada parece nao indicar solucao pratica para tal questao. Neste artigo, propomos um metodo para geracao automatica de sentencas naturais em lingua portuguesa do Brasil que corresponda a uma dada sequencia de simbolos pictoricos apresentados. Este metodo foi implementado em uma ferramenta visual de apoio ao profissional educador e atualmente faz parte de um dos recursos de CAA do Laboratorio de CAA da Universidade Federal de Sergipe. Um conjunto de validacao fornecido pelo Laboratorio mostrou a corretude das sentencas geradas pela ferramenta.
{"title":"Geração Automática de Sentenças em Língua Natural para Sequências de Pictogramas como Apoio à Comunicação Alternativa e Ampliada","authors":"R. Pereira, H. Macedo, R. C. N. Givigi, Marco Túlio Chella","doi":"10.21814/lm.9.1.242","DOIUrl":"https://doi.org/10.21814/lm.9.1.242","url":null,"abstract":"A Comunicacao Alternativa e Ampliada (CAA) e uma area de pratica clinica educacional para fonoaudiologos cujo objetivo e auxiliar individuos que possuam deficiencia na oralidade. Os simbolos de comunicacao pictorica constituem um dos sistemas da CAA que podem complementar ou mesmo substituir a linguagem falada desses individuos. E possivel utilizar a habilidade ja adquirida em comunicacao pictorica por parte de criancas com deficiencia para promover sua alfabetizacao. Infelizmente, a literatura relacionada parece nao indicar solucao pratica para tal questao. Neste artigo, propomos um metodo para geracao automatica de sentencas naturais em lingua portuguesa do Brasil que corresponda a uma dada sequencia de simbolos pictoricos apresentados. Este metodo foi implementado em uma ferramenta visual de apoio ao profissional educador e atualmente faz parte de um dos recursos de CAA do Laboratorio de CAA da Universidade Federal de Sergipe. Um conjunto de validacao fornecido pelo Laboratorio mostrou a corretude das sentencas geradas pela ferramenta.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"9 1","pages":"31-39"},"PeriodicalIF":0.6,"publicationDate":"2017-01-07","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"49114397","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Este artigo apresenta LinguaKit, uma suite multilingue de ferramentas de analise, extracao, anotacao e correcao linguisticas. LinguaKit permite realizar tarefas tao diversas como a lematizacao, a etiquetagem morfossintatica ou a analise sintatica (entre outras), incluindo tambem aplicacoes para a analise de sentimentos (ou minaria de opinioes), a extracao de termos multipalavra, ou a anotacao concetual e ligacao a recursos enciclopedicos tais como a DBpedia. A maior parte dos modulos funcionam para quatro variedades linguisticas: portugues, espanhol, ingles e galego. A linguagem de programacao de LinguaKit e Perl, e o codigo esta disponivel sob a licenca livre GPLv3.
{"title":"LinguaKit: uma ferramenta multilingue para a análise linguística e a extração de informação","authors":"Pablo Gamallo, Marcos Garcia","doi":"10.21814/lm.9.1.243","DOIUrl":"https://doi.org/10.21814/lm.9.1.243","url":null,"abstract":"Este artigo apresenta LinguaKit, uma suite multilingue de ferramentas de analise, extracao, anotacao e correcao linguisticas. LinguaKit permite realizar tarefas tao diversas como a lematizacao, a etiquetagem morfossintatica ou a analise sintatica (entre outras), incluindo tambem aplicacoes para a analise de sentimentos (ou minaria de opinioes), a extracao de termos multipalavra, ou a anotacao concetual e ligacao a recursos enciclopedicos tais como a DBpedia. A maior parte dos modulos funcionam para quatro variedades linguisticas: portugues, espanhol, ingles e galego. A linguagem de programacao de LinguaKit e Perl, e o codigo esta disponivel sob a licenca livre GPLv3.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"9 1","pages":"19-28"},"PeriodicalIF":0.6,"publicationDate":"2017-01-07","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"45218310","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Ana Oliveira Alves, Ricardo Rodrigues, Hugo Gonçalo Oliveira
We present two distinct approaches to the ASSIN shared evaluation task where, given a collection with pairs of sentences, in Portuguese, poses the following challenges: (a)~computing the semantic similarity between the sentences of each pair; and (b)~testing whether one sentence paraphrases or entails the other. The first approach, dubbed Reciclagem, is exclusively based on heuristics computed on Portuguese semantic networks. The second, dubbed ASAPP, is based on supervised machine learning. The results of Reciclagem enable an indirect comparison of Portuguese semantic networks. They were then used as features of the ASAPP approach, together with lexical and syntactic features. After comparing our results with those in the gold collection, it is clear that ASAPP consistently outperforms Reciclagem. This happens both for European Portuguese and Brazilian Portuguese, where the entailment performance reaches an accuracy of 80.28% +- 0.019, and the semantic similarity scores are 66.5% +- 0.021 correlated with those given by humans.
{"title":"ASAPP: Alinhamento Semântico Automático de Palavras aplicado ao Português","authors":"Ana Oliveira Alves, Ricardo Rodrigues, Hugo Gonçalo Oliveira","doi":"10.21814/LM.8.2.234","DOIUrl":"https://doi.org/10.21814/LM.8.2.234","url":null,"abstract":"We present two distinct approaches to the ASSIN shared evaluation task where, given a collection with pairs of sentences, in Portuguese, poses the following challenges: (a)~computing the semantic similarity between the sentences of each pair; and (b)~testing whether one sentence paraphrases or entails the other. The first approach, dubbed Reciclagem, is exclusively based on heuristics computed on Portuguese semantic networks. The second, dubbed ASAPP, is based on supervised machine learning. The results of Reciclagem enable an indirect comparison of Portuguese semantic networks. They were then used as features of the ASAPP approach, together with lexical and syntactic features. After comparing our results with those in the gold collection, it is clear that ASAPP consistently outperforms Reciclagem. This happens both for European Portuguese and Brazilian Portuguese, where the entailment performance reaches an accuracy of 80.28% +- 0.019, and the semantic similarity scores are 66.5% +- 0.021 correlated with those given by humans.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"8 1","pages":"43-58"},"PeriodicalIF":0.6,"publicationDate":"2016-12-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68372563","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Erick Rocha Fonseca, L. Santos, Marcelo Criscuolo, Sandra M. Aluísio
Inferencia Textual e Similaridade Semântica sao duas tarefas do processamento de linguas naturais que tratam de pares de trechos de textos. O objetivo da primeira e determinar se o significado de um trecho implica o outro, enquanto que a segunda atribui uma pontuacao de similaridade semântica ao par. Esse artigo apresenta os resultados da avaliacao conjunta ASSIN (Avaliacao de Similaridade Semântica e Inferencia) e seu corpus, que foi anotado para ambas as tarefas nas variantes brasileira e europeia da lingua portuguesa. O corpus difere de similares na literatura em suas tres classes para a tarefa de inferencia textual (Implicacao, Parafrase e Neutro) e por ter sido composto de sentencas extraidas de textos jornalisticos. Seis equipes participaram da avaliacao conjunta, explorando diferentes estrategias.
{"title":"Visão Geral da Avaliação de Similaridade Semântica e Inferência Textual","authors":"Erick Rocha Fonseca, L. Santos, Marcelo Criscuolo, Sandra M. Aluísio","doi":"10.21814/LM.8.2.235","DOIUrl":"https://doi.org/10.21814/LM.8.2.235","url":null,"abstract":"Inferencia Textual e Similaridade Semântica sao duas tarefas do processamento de linguas naturais que tratam de pares de trechos de textos. O objetivo da primeira e determinar se o significado de um trecho implica o outro, enquanto que a segunda atribui uma pontuacao de similaridade semântica ao par. Esse artigo apresenta os resultados da avaliacao conjunta ASSIN (Avaliacao de Similaridade Semântica e Inferencia) e seu corpus, que foi anotado para ambas as tarefas nas variantes brasileira e europeia da lingua portuguesa. O corpus difere de similares na literatura em suas tres classes para a tarefa de inferencia textual (Implicacao, Parafrase e Neutro) e por ter sido composto de sentencas extraidas de textos jornalisticos. Seis equipes participaram da avaliacao conjunta, explorando diferentes estrategias.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"35 1","pages":"3-13"},"PeriodicalIF":0.6,"publicationDate":"2016-12-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68372163","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pedro Fialho, Ricardo Marques, Bruno Martins, Luísa Coheur, Paulo Quaresma
In this article we present INESC-ID@ASSIN, a system that competed in the 2016 joint evaluation effort entitled Avaliacao de Similaridade Semântica e Inferencia Textual (ASSIN), in the tasks of semantic similarity and textual entailment recognition. INESC-ID@ASSIN addresses the problem of detecting sentence similarity as a regression task, and it addresses textual entailment as a classification task. Although INESC-ID@ASSIN relies mainly on simple lexical features for detecting paraphrases and recognizing textual entailment, promising results were achieved in this joint evaluation.
在本文中,我们介绍了INESC-ID@ASSIN,这是一个在2016年联合评估工作中竞争的系统,名为Avaliacao de Similaridade semntica e interencia Textual (ASSIN),在语义相似性和文本蕴意识别的任务中。INESC-ID@ASSIN将检测句子相似性的问题作为一个回归任务,并将文本蕴涵作为一个分类任务。虽然INESC-ID@ASSIN主要依靠简单的词汇特征来检测释义和识别文本蕴涵,但在这次联合评估中取得了令人满意的结果。
{"title":"INESC-ID@ASSIN: Medição de Similaridade Semântica e Reconhecimento de Inferência Textual","authors":"Pedro Fialho, Ricardo Marques, Bruno Martins, Luísa Coheur, Paulo Quaresma","doi":"10.21814/LM.8.2.233","DOIUrl":"https://doi.org/10.21814/LM.8.2.233","url":null,"abstract":"In this article we present INESC-ID@ASSIN, a system that competed in the 2016 joint evaluation effort entitled Avaliacao de Similaridade Semântica e Inferencia Textual (ASSIN), in the tasks of semantic similarity and textual entailment recognition. INESC-ID@ASSIN addresses the problem of detecting sentence similarity as a regression task, and it addresses textual entailment as a classification task. Although INESC-ID@ASSIN relies mainly on simple lexical features for detecting paraphrases and recognizing textual entailment, promising results were achieved in this joint evaluation.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"8 1","pages":"33-42"},"PeriodicalIF":0.6,"publicationDate":"2016-12-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68372488","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Luciano Barbosa, P. R. Cavalin, Victor Guimarães, Matthias Kormaksson
In this paper, we present the methodology and the results obtained by our team, dubbed Blue Man Group, in the ASSIN (from the Portuguese Avaliacao de Similaridade Semântica e Inferencia Textual) competition, held at PROPOR 2016. Our team's strategy consisted of evaluating methods based on semantic word vectors, following two distinct directions: 1) to make use of low-dimensional, compact, feature sets, and 2) deep learning-based strategies dealing with high-dimensional feature vectors. Evaluation results demonstrated that the first strategy was more promising, so that the results from the second strategy have been discarded. As a result, by considering the best run of each of the six participant teams, we have been able to achieve the best accuracy and F1 values in entailment recognition, in the Brazilian Portuguese set, and the best F1 score considering also the Portuguse from Portugal set. In the semantic similarity task, our team was ranked second in the Brazilian Portuguese set, and third considering both sets.
在本文中,我们介绍了我们的团队(称为Blue Man Group)在2016年PROPOR举行的ASSIN(来自葡萄牙Avaliacao de Similaridade sem ntica e interencia Textual)竞赛中获得的方法和结果。我们团队的策略包括基于语义词向量的评估方法,遵循两个不同的方向:1)利用低维、紧凑的特征集,以及2)处理高维特征向量的基于深度学习的策略。评价结果表明,第一种策略更有希望,因此第二种策略的结果被丢弃。因此,通过考虑六支参赛队伍的最佳运行,我们能够在蕴涵识别中获得最佳精度和F1值,在巴西葡萄牙集合中,以及在考虑来自葡萄牙的葡萄牙集合的最佳F1分数。在语义相似度任务中,我们的团队在巴西葡萄牙语组中排名第二,在两组中排名第三。
{"title":"Blue Man Group no ASSIN: Usando Representações Distribuídas para Similaridade Semântica e Inferência Textual","authors":"Luciano Barbosa, P. R. Cavalin, Victor Guimarães, Matthias Kormaksson","doi":"10.21814/LM.8.2.231","DOIUrl":"https://doi.org/10.21814/LM.8.2.231","url":null,"abstract":"In this paper, we present the methodology and the results obtained by our team, dubbed Blue Man Group, in the ASSIN (from the Portuguese Avaliacao de Similaridade Semântica e Inferencia Textual) competition, held at PROPOR 2016. Our team's strategy consisted of evaluating methods based on semantic word vectors, following two distinct directions: 1) to make use of low-dimensional, compact, feature sets, and 2) deep learning-based strategies dealing with high-dimensional feature vectors. Evaluation results demonstrated that the first strategy was more promising, so that the results from the second strategy have been discarded. As a result, by considering the best run of each of the six participant teams, we have been able to achieve the best accuracy and F1 values in entailment recognition, in the Brazilian Portuguese set, and the best F1 score considering also the Portuguse from Portugal set. In the semantic similarity task, our team was ranked second in the Brazilian Portuguese set, and third considering both sets.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"19 1","pages":"15-22"},"PeriodicalIF":0.6,"publicationDate":"2016-12-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68372536","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Editorial Este ano de 2014 e iniciado com uma edicao especial. Assim como em 2010, publicamos um conjunto de artigos alargados, seleccionados dos artigos aceites no nono Simposio Brasileiro de Tecnologia da Informacao e Linguagem Humana (STIL). Portanto, esta edicao abre com tres artigos seleccionados da edicao de 2013 do STIL que abordam diferentes aspectos da linguagem natural: em primeiro lugar a geracao de texto de forma a descrever o ambiente virtual em que um utilizador se encontra; posteriormente sera discutida a analise de coerencia no uso de entidades em textos cientificos; finalmente sera apresentado um sistema para o reconhecimento de entidades mencionadas, ou nomeadas. Para completar o volume, incluimos neste numero especial dois artigos de investigacao que nao fazem parte do STIL: primeiro um trabalho relacionado com a previsao, usando diferentes tipos de regressao e dados extraidos de texto escrito em linguagem natural; e em seguida, um trabalho sobre a anotacao e disponibilizacao de corpos paralelos criados a partir de trabalhos de traducao de alunos, de modo a serem uteis para, entre outras coisas, o proprio ensino de linguas. Alberto Simoes Jose Joao Almeida Xavier Gomez Guinovart Prefacio O Simposio Brasileiro de Tecnologia da Informacao e da Linguagem Humana (STIL) e o principal evento nacional apoiado e organizado pela Comissao Especial de Processamento de Linguagem Natural (CE-PLN) da Sociedade Brasileira de Computacao (SBC). O evento foi concebido em 2003 com o nome TIL (Workshop de Tecnologia da Informacao e da Linguagem Humana), tendo o proposito de estimular o desenvolvimento de uma area genuinamente multidisciplinar, procurando atrair pesquisadores, membros da comunidade academica e da industria que atuam nas areas de Ciencia da Computacao, Linguistica e Ciencia da Informacao, entre outras, pois o processamento computacional das linguas humanas requer a coordenacao de esforcos de diversas comunidades, que contribuem com conhecimentos especificos e metodologias de pesquisa proprias no desenvolvimento de tecnicas e sistemas. O principal objetivo do STIL e fornecer o forum adequado para a integracao dessas comunidades. Em 2003, foi realizado na USP-Sao Carlos/SP; em 2004 e 2005 foi hospedado pelo Congresso da SBC em Salvador/BA e Sao Leopoldo/RS, respectivamente; em 2006, o evento foi hospedado pela International Joint Conference IBERAMIA/SBIA/SBRN, em Ribeirao Preto/SP, que consistiu no maior evento de Inteligencia Artificial ja realizado no Brasil. A 5a. edicao do evento foi hospedada novamente pelo XXVII Congresso da SBC no Rio de Janeiro/RJ, no Instituto Militar de Engenharia-IME. A 6a. edicao do evento foi realizado em 2008 juntamente com o Webmedia, em Vila Velha-ES, e foi a ultima com o nome de TIL. A 7a. edicao, ja com o nome de STIL, foi realizada na USP-Sao Carlos/SP em 2009. A 8a edicao ocorreu em Cuiaba/MT em 2011, na UFMT. A 9a. edicao foi realizada em Fortaleza/CE em 2013, juntamente com o 2o. Brazilian Confer
2014年的社论,从特别版开始。和2010年一样,我们从第九届巴西信息技术和人类语言研讨会(STIL)接受的文章中挑选了一组扩展文章。因此,本版以2013年STIL版的三篇精选文章开始,讨论自然语言的不同方面:首先,生成文本以描述用户所处的虚拟环境;随后将讨论科学文本中实体使用的一致性分析;最后,将提出一种承认上述或指定实体的制度。为了完成这一卷,我们在本期特刊中包括了两篇不属于STIL的研究文章:第一篇是关于预测的工作,使用不同类型的回归和从自然语言书面文本中提取的数据;然后是对学生翻译作品中创建的平行体的注释和可用性的研究,以便对语言教学本身有用。Alberto Simoes Jose Joao Almeida Xavier Gomez Guinovart序言巴西信息技术和人类语言研讨会(STIL)是由巴西计算学会(SBC)自然语言处理特别委员会(CE-PLN)支持和组织的主要国家活动。该事件在2003年设计,直到(车间的信息技术和人类语言的刺激的目的),而不能真正的多学科的发展,寻找吸引学术研究人员,社区成员和行业代理领域的计算机科学、语言学、信息科学等,是人类语言的计算处理需要社会各界的努力,协调在技术和系统的发展中贡献特定的知识和研究方法。STIL的主要目标是为这些社区的融合提供适当的论坛。2003年,它在USP-Sao Carlos/SP举行;2004年和2005年,SBC大会分别在萨尔瓦多/巴和Sao Leopoldo/RS举办;2006年,该活动由伊比利亚/SBIA/SBRN国际联合会议在Ribeirao Preto/SP主办,这是巴西有史以来最大的人工智能活动。第五。该活动的版本再次由第二十七届SBC大会在里约热内卢de Janeiro/RJ,军事工程学院-IME主办。6的。该活动于2008年与Webmedia一起在Vila Velha-ES举行,这是最后一次以TIL的名字举行。七号的。这个版本,已经被称为STIL,于2009年在USP-Sao Carlos/SP举行。第八版于2011年在Cuiaba/MT举行,在UFMT。9的。该版本于2013年在福塔莱萨/CE举行,与第二版一起举行。巴西智能系统会议(BRACIS-13)和第十届全国人工和计算智能会议(ENIAC)。目前,STIL是巴西最大的社区活动,可以被认为是该国唯一一个完全致力于这一主题的活动。2013年版收到了来自巴西、英国、秘鲁、德国、美国和葡萄牙的65份意见书。每一篇文章都由来自7个国家和34所高等教育机构的64名成员组成的项目委员会的至少3名成员进行了审查。15篇论文被选为口头陈述(接受率23%),17篇论文被选为海报陈述。最好的论文被邀请提交扩展版本,发表在人类语言计算和计算处理领域的两家重要期刊上,分别是《巴西计算机学会杂志》(JBCS)和《伊比利亚语言自动处理杂志》(Linguamatica)。在Linguamatica纪念STIL 2013的特别版中,我们带来了以下2013年STIL文章的三个扩展版本:Diego Silva和Ivandre Paraboni的《在交互式虚拟环境中生成参考表达》;Alison Polpeta Freitas和Valeria Feltrim在科学文本局部连贯自动分析中的实体网格;NERP-CRF:一种通过条件随机字段识别命名实体的工具,Daniela do Amaral和Renata Vieira著。我们借此机会感谢作者、项目委员会成员、特邀演讲者、SBC以及2013年STIL的地方和一般委员会。我们希望大家对这些作品有一个有益的阅读!Sandra Maria Aluisio Valeria Delisandra Feltrim
{"title":"Editorial e Prefácio","authors":"Brandão Simões, Alberto Manuel","doi":"10.21814/LM.6.1.178","DOIUrl":"https://doi.org/10.21814/LM.6.1.178","url":null,"abstract":"Editorial Este ano de 2014 e iniciado com uma edicao especial. Assim como em 2010, publicamos um conjunto de artigos alargados, seleccionados dos artigos aceites no nono Simposio Brasileiro de Tecnologia da Informacao e Linguagem Humana (STIL). Portanto, esta edicao abre com tres artigos seleccionados da edicao de 2013 do STIL que abordam diferentes aspectos da linguagem natural: em primeiro lugar a geracao de texto de forma a descrever o ambiente virtual em que um utilizador se encontra; posteriormente sera discutida a analise de coerencia no uso de entidades em textos cientificos; finalmente sera apresentado um sistema para o reconhecimento de entidades mencionadas, ou nomeadas. Para completar o volume, incluimos neste numero especial dois artigos de investigacao que nao fazem parte do STIL: primeiro um trabalho relacionado com a previsao, usando diferentes tipos de regressao e dados extraidos de texto escrito em linguagem natural; e em seguida, um trabalho sobre a anotacao e disponibilizacao de corpos paralelos criados a partir de trabalhos de traducao de alunos, de modo a serem uteis para, entre outras coisas, o proprio ensino de linguas. Alberto Simoes Jose Joao Almeida Xavier Gomez Guinovart Prefacio O Simposio Brasileiro de Tecnologia da Informacao e da Linguagem Humana (STIL) e o principal evento nacional apoiado e organizado pela Comissao Especial de Processamento de Linguagem Natural (CE-PLN) da Sociedade Brasileira de Computacao (SBC). O evento foi concebido em 2003 com o nome TIL (Workshop de Tecnologia da Informacao e da Linguagem Humana), tendo o proposito de estimular o desenvolvimento de uma area genuinamente multidisciplinar, procurando atrair pesquisadores, membros da comunidade academica e da industria que atuam nas areas de Ciencia da Computacao, Linguistica e Ciencia da Informacao, entre outras, pois o processamento computacional das linguas humanas requer a coordenacao de esforcos de diversas comunidades, que contribuem com conhecimentos especificos e metodologias de pesquisa proprias no desenvolvimento de tecnicas e sistemas. O principal objetivo do STIL e fornecer o forum adequado para a integracao dessas comunidades. Em 2003, foi realizado na USP-Sao Carlos/SP; em 2004 e 2005 foi hospedado pelo Congresso da SBC em Salvador/BA e Sao Leopoldo/RS, respectivamente; em 2006, o evento foi hospedado pela International Joint Conference IBERAMIA/SBIA/SBRN, em Ribeirao Preto/SP, que consistiu no maior evento de Inteligencia Artificial ja realizado no Brasil. A 5a. edicao do evento foi hospedada novamente pelo XXVII Congresso da SBC no Rio de Janeiro/RJ, no Instituto Militar de Engenharia-IME. A 6a. edicao do evento foi realizado em 2008 juntamente com o Webmedia, em Vila Velha-ES, e foi a ultima com o nome de TIL. A 7a. edicao, ja com o nome de STIL, foi realizada na USP-Sao Carlos/SP em 2009. A 8a edicao ocorreu em Cuiaba/MT em 2011, na UFMT. A 9a. edicao foi realizada em Fortaleza/CE em 2013, juntamente com o 2o. Brazilian Confer","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"6 1","pages":"3-11"},"PeriodicalIF":0.6,"publicationDate":"2016-12-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68370842","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Desde 2012, os eventos de Semantic Evaluation (SemEval) propoem a tarefa de Similaridade Semântica Textual (STS) como um tema de competicao, demonstrando sua relevância. Em 2016, a tarefa foi, pela primeira vez, proposta para lingua portuguesa, no Workshop de Avaliacao de Similaridade Semântica e Inferencia Textual (ASSIN), realizado durante a conferencia PROPOR 2016. Neste trabalho, apresentamos o FlexSTS --- um framework flexivel para STS que combina diversos componentes como parsers morfologicos e sintaticos, bases de conhecimento e lexicais, algoritmos de aprendizagem automatica, e algoritmos de alinhamento e calculo da similaridade. Para a ASSIN, FlexSTS foi instanciado em tres sistemas de STS para lingua portuguesa. Os resultados obtidos foram comparados com uma abordagem baseline que utiliza o coeficiente DICE.
{"title":"FlexSTS: Um Framework para Similaridade Semântica Textual","authors":"Jânio Freire, Vládia Pinheiro, David Feitosa","doi":"10.21814/LM.8.2.232","DOIUrl":"https://doi.org/10.21814/LM.8.2.232","url":null,"abstract":"Desde 2012, os eventos de Semantic Evaluation (SemEval) propoem a tarefa de Similaridade Semântica Textual (STS) como um tema de competicao, demonstrando sua relevância. Em 2016, a tarefa foi, pela primeira vez, proposta para lingua portuguesa, no Workshop de Avaliacao de Similaridade Semântica e Inferencia Textual (ASSIN), realizado durante a conferencia PROPOR 2016. Neste trabalho, apresentamos o FlexSTS --- um framework flexivel para STS que combina diversos componentes como parsers morfologicos e sintaticos, bases de conhecimento e lexicais, algoritmos de aprendizagem automatica, e algoritmos de alinhamento e calculo da similaridade. Para a ASSIN, FlexSTS foi instanciado em tres sistemas de STS para lingua portuguesa. Os resultados obtidos foram comparados com uma abordagem baseline que utiliza o coeficiente DICE.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"8 1","pages":"23-31"},"PeriodicalIF":0.6,"publicationDate":"2016-12-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68372296","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}