Reconocimiento de términos en español mediante la aplicación de un enfoque de comparación entre corpus

IF 0.1 Q4 LINGUISTICS Linguamatica Pub Date : 2015-12-01 DOI:10.21814/LM.7.2.217

O. A. López, C. Aguilar, Tomás Infante

{"title":"Reconocimiento de términos en español mediante la aplicación de un enfoque de comparación entre corpus","authors":"O. A. López, C. Aguilar, Tomás Infante","doi":"10.21814/LM.7.2.217","DOIUrl":null,"url":null,"abstract":"espanolEn este articulo presentamos una metodologia para la identificacion y extraccion de terminos a partir de fuentes textuales en espanol correspondientes a dominios de conocimiento especializados mediante un enfoque de contraste entre corpus. El enfoque de contraste entre corpus hace uso de medidas para asignar relevancia a palabras que ocurren tanto en el corpus de dominio como en corpus de lengua general o de otro dominio diferente al de interes. Dado lo anterior, en este trabajo realizamos una exploracion de cuatro medidas usadas para asignar relevancia a palabras con el objetivo de incorporar la de mejor desempeno a nuestra metodologia. Los resultados obtenidos muestran un desempeno mejor de las medidas diferencia de rangos y razon de frecuencias relativas comparado con la razon log-likelihood y la medida usada en Termostat. EnglishIn this article we present a methodology for identifying and extracting terms from text sources in Spanish corresponding specialized-domain corpus by means of a contrastive approach. The contrastive approach requires a measure for assigning relevance to words occurring both in domain corpus and reference corpus. Therefore, in this work we explored four measures used for assigning relevance to words with the goal of incorporating the best measure in our methodology. Our results show a better performance of rank difference and relative frequency ratio measures compared with log-likelihood ratio and the measure used by Termostat.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"38 1","pages":"19-34"},"PeriodicalIF":0.1000,"publicationDate":"2015-12-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"3","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Linguamatica","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.21814/LM.7.2.217","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q4","JCRName":"LINGUISTICS","Score":null,"Total":0}

引用次数: 3

Abstract

espanolEn este articulo presentamos una metodologia para la identificacion y extraccion de terminos a partir de fuentes textuales en espanol correspondientes a dominios de conocimiento especializados mediante un enfoque de contraste entre corpus. El enfoque de contraste entre corpus hace uso de medidas para asignar relevancia a palabras que ocurren tanto en el corpus de dominio como en corpus de lengua general o de otro dominio diferente al de interes. Dado lo anterior, en este trabajo realizamos una exploracion de cuatro medidas usadas para asignar relevancia a palabras con el objetivo de incorporar la de mejor desempeno a nuestra metodologia. Los resultados obtenidos muestran un desempeno mejor de las medidas diferencia de rangos y razon de frecuencias relativas comparado con la razon log-likelihood y la medida usada en Termostat. EnglishIn this article we present a methodology for identifying and extracting terms from text sources in Spanish corresponding specialized-domain corpus by means of a contrastive approach. The contrastive approach requires a measure for assigning relevance to words occurring both in domain corpus and reference corpus. Therefore, in this work we explored four measures used for assigning relevance to words with the goal of incorporating the best measure in our methodology. Our results show a better performance of rank difference and relative frequency ratio measures compared with log-likelihood ratio and the measure used by Termostat.

查看原文

微信好友朋友圈 QQ好友复制链接

本刊更多论文

通过应用语料库比较方法来识别西班牙语术语

本文提出了一种方法，通过语料库对比的方法，从专业知识领域对应的西班牙语文本来源中识别和提取术语。语料库对比方法使用度量来分配出现在领域语料库、通用语言语料库或感兴趣的其他领域的单词的相关性。在这种情况下，重要的是要记住，词汇的相关性是由它们的相关性决定的，而不是由它们的相关性决定的。在此基础上，对温度恒温器中使用的对数相似度比值和相对频率差进行了测量。在这篇文章中，我们提出了一种方法，通过对比方法从相应的西班牙语专业领域语体的文本来源中识别和提取术语。对比法要求对出现在域语料库和引用语料库中的词进行相关性分配。因此，在本文中，我们探讨了用于分配词语相关性的四种方法，目的是将最佳方法纳入我们的方法。我们的结果表明，与对数相似度比和恒温器使用的测量方法相比，秩差和相对频率比测量方法的性能更好。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文去求助

来源期刊