{"title":"Realização de Previsões com Conteúdos Textuais em Português","authors":"Indira Gandi Mascarenhas de Brito, Bruno Martins","doi":"10.21814/LM.6.1.174","DOIUrl":null,"url":null,"abstract":"A previsao de quantidades do mundo real com base em informacao textual atraiu recentemente um interesse significativo, embora os estudos anteriores se tenham concentrado em aplicacoes que envolvem apenas textos em ingles. Este artigo apresenta um estudo experimental sobre a realizacao de previsoes com base em textos em portugues, envolvendo o uso de documentos associados a tres dominios distintos. Relatamos experiencias utilizando diferentes tipos de modelos de regressao, usando esquemas de ponderacao para as carateristicas descritivas do atual estado da arte, e usando carateristicas descritivas derivadas de representacoes para as palavras baseadas no agrupamento automatico das mesmas. Atraves de experiencias, demonstramos que modelos de regressao usando a informacao textual atingem melhores resultados, quando comparados com abordagens simples tais como realizar as previsoes com base no valor medio dos dados de treino. Demonstramos ainda que as representacoes de documentos mais ricas (e.g., usando o algoritmo de Brown para o agrupamento automatico de palavras, e o esquema de ponderacao das carateristicas denominado Delta-TF-IDF) resultam em ligeiras melhorias no desempenho.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"6 1","pages":"53-68"},"PeriodicalIF":0.3000,"publicationDate":"2014-07-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Linguamatica","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.21814/LM.6.1.174","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q4","JCRName":"LINGUISTICS","Score":null,"Total":0}
引用次数: 0
Abstract
A previsao de quantidades do mundo real com base em informacao textual atraiu recentemente um interesse significativo, embora os estudos anteriores se tenham concentrado em aplicacoes que envolvem apenas textos em ingles. Este artigo apresenta um estudo experimental sobre a realizacao de previsoes com base em textos em portugues, envolvendo o uso de documentos associados a tres dominios distintos. Relatamos experiencias utilizando diferentes tipos de modelos de regressao, usando esquemas de ponderacao para as carateristicas descritivas do atual estado da arte, e usando carateristicas descritivas derivadas de representacoes para as palavras baseadas no agrupamento automatico das mesmas. Atraves de experiencias, demonstramos que modelos de regressao usando a informacao textual atingem melhores resultados, quando comparados com abordagens simples tais como realizar as previsoes com base no valor medio dos dados de treino. Demonstramos ainda que as representacoes de documentos mais ricas (e.g., usando o algoritmo de Brown para o agrupamento automatico de palavras, e o esquema de ponderacao das carateristicas denominado Delta-TF-IDF) resultam em ligeiras melhorias no desempenho.