{"title":"Reconocimiento de términos en español mediante la aplicación de un enfoque de comparación entre corpus","authors":"O. A. López, C. Aguilar, Tomás Infante","doi":"10.21814/LM.7.2.217","DOIUrl":null,"url":null,"abstract":"espanolEn este articulo presentamos una metodologia para la identificacion y extraccion de terminos a partir de fuentes textuales en espanol correspondientes a dominios de conocimiento especializados mediante un enfoque de contraste entre corpus. El enfoque de contraste entre corpus hace uso de medidas para asignar relevancia a palabras que ocurren tanto en el corpus de dominio como en corpus de lengua general o de otro dominio diferente al de interes. Dado lo anterior, en este trabajo realizamos una exploracion de cuatro medidas usadas para asignar relevancia a palabras con el objetivo de incorporar la de mejor desempeno a nuestra metodologia. Los resultados obtenidos muestran un desempeno mejor de las medidas diferencia de rangos y razon de frecuencias relativas comparado con la razon log-likelihood y la medida usada en Termostat. EnglishIn this article we present a methodology for identifying and extracting terms from text sources in Spanish corresponding specialized-domain corpus by means of a contrastive approach. The contrastive approach requires a measure for assigning relevance to words occurring both in domain corpus and reference corpus. Therefore, in this work we explored four measures used for assigning relevance to words with the goal of incorporating the best measure in our methodology. Our results show a better performance of rank difference and relative frequency ratio measures compared with log-likelihood ratio and the measure used by Termostat.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"38 1","pages":"19-34"},"PeriodicalIF":0.3000,"publicationDate":"2015-12-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"3","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Linguamatica","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.21814/LM.7.2.217","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q4","JCRName":"LINGUISTICS","Score":null,"Total":0}
引用次数: 3
Abstract
espanolEn este articulo presentamos una metodologia para la identificacion y extraccion de terminos a partir de fuentes textuales en espanol correspondientes a dominios de conocimiento especializados mediante un enfoque de contraste entre corpus. El enfoque de contraste entre corpus hace uso de medidas para asignar relevancia a palabras que ocurren tanto en el corpus de dominio como en corpus de lengua general o de otro dominio diferente al de interes. Dado lo anterior, en este trabajo realizamos una exploracion de cuatro medidas usadas para asignar relevancia a palabras con el objetivo de incorporar la de mejor desempeno a nuestra metodologia. Los resultados obtenidos muestran un desempeno mejor de las medidas diferencia de rangos y razon de frecuencias relativas comparado con la razon log-likelihood y la medida usada en Termostat. EnglishIn this article we present a methodology for identifying and extracting terms from text sources in Spanish corresponding specialized-domain corpus by means of a contrastive approach. The contrastive approach requires a measure for assigning relevance to words occurring both in domain corpus and reference corpus. Therefore, in this work we explored four measures used for assigning relevance to words with the goal of incorporating the best measure in our methodology. Our results show a better performance of rank difference and relative frequency ratio measures compared with log-likelihood ratio and the measure used by Termostat.