Estratégias Lexicométricas para Detetar Especificidades Textuais

IF 0.1 Q4 LINGUISTICS Linguamatica Pub Date : 2018-08-04 DOI:10.21814/LM.10.1.263

Álvaro Iriarte Sanromán, Pablo Gamallo, Alberto Simões

引用次数: 5

Abstract

Neste artigo propomo-nos a definir e desenvolver uma estratégia automática para procurar especificidades lexicais dentro de conjuntos de textos utilizando unidades lexicais simples e expressões com várias palavras, ou termos multipalavra (MWE, a sua sigla em inglês). Propomos uma metodologia para o cálculo da divergência de distribuições de lemas e de MWE que permitirá encontrar, automaticamente, diferenças e semelhanças entre textos não anotados. Esta metodologia poderá ser utilizada para posteriormente identificar grupos de textos sobre os quais se procederá a análises quantitativas e qualitativas semiautomáticas e/ou com intervenção humana. Num primeiro teste, utilizamos dois textos de especialidade (da área da pediatria) e um texto literário, presumindo que os textos de especialidade deveriam apresentar maiores divergências relativamente ao texto literário do que entre eles próprios. Como os testes feitos mostraram a tendência esperada, decidimos aplicar a mesma metodologia a um segundo grupo de textos (três conjuntos de entrevistas a visitantes da cidade de Santiago de Compostela).

查看原文

微信好友朋友圈 QQ好友复制链接

本刊更多论文

检测文本特异性的词汇计量策略

在本文中，我们建议定义和发展一种自动策略，使用简单的词汇单位和多词表达，或多词术语(MWE)在文本集中搜索词汇细节。我们提出了一种计算标语和MWE分布散度的方法，该方法可以自动发现未注释文本之间的异同。该方法可用于随后识别定量和定性分析半自动和/或人工干预的文本组。在第一个测试中，我们使用了两篇专业文本(儿科领域)和一篇文学文本，假设专业文本与文学文本的差异应该大于它们之间的差异。由于测试显示了预期的趋势，我们决定将同样的方法应用于第二组文本(对圣地亚哥德孔波斯特拉市游客的三组访谈)。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文去求助

来源期刊