This research was carried out as part of project PID2020-118369GB-I00, Transversal Integration of Culture in a Terminological Knowledge Base on Environment (TRANSCULTURE), funded by the Spanish Ministry of Science and Innovation.
{"title":"Extraction of Terms Semantically Related to Colponyms: Evaluation in a Small Specialized Corpus","authors":"Juan Rojas Garcia","doi":"10.26342/2021-67-12","DOIUrl":"https://doi.org/10.26342/2021-67-12","url":null,"abstract":"This research was carried out as part of project PID2020-118369GB-I00, Transversal Integration of Culture in a Terminological Knowledge Base on Environment (TRANSCULTURE), funded by the Spanish Ministry of Science and Innovation.","PeriodicalId":43929,"journal":{"name":"Procesamiento del Lenguaje Natural","volume":"9 1","pages":"139-151"},"PeriodicalIF":0.8,"publicationDate":"2021-09-06","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"75593771","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
We hypothesize that parallel corpora as well as machine translation outputs contain many literal translations that are the result of transferring the constructions of the source language to the target language. When translating passive expressions from English to Spanish, there are several constructions available, however, both automatic and human (if of low quality) translations tend to select the periphrastic structure, which is the literal construction. The objective of this article is to make use of strategies trained on monolingual corpora to translate English passive expressions into Spanish so as to verify whether unsupervised translation with monolingual corpora benefits syntactic diversity. Special attention will be given to the monolingual-based strategy relying on dependency-based contextualization. The results of the experiments carried out show that the methods relying on monolingual corpora tend to offer more non-literal translations (middle-voice) than those trained on parallel corpora.
{"title":"Using Dependency-Based Contextualization for transferring Passive Constructions from English to Spanish","authors":"Pablo Gamallo, Gorka Labaka Intxauspe","doi":"10.26342/2021-66-4","DOIUrl":"https://doi.org/10.26342/2021-66-4","url":null,"abstract":"We hypothesize that parallel corpora as well as machine translation outputs contain many literal translations that are the result of transferring the constructions of the source language to the target language. When translating passive expressions from English to Spanish, there are several constructions available, however, both automatic and human (if of low quality) translations tend to select the periphrastic structure, which is the literal construction. The objective of this article is to make use of strategies trained on monolingual corpora to translate English passive expressions into Spanish so as to verify whether unsupervised translation with monolingual corpora benefits syntactic diversity. Special attention will be given to the monolingual-based strategy relying on dependency-based contextualization. The results of the experiments carried out show that the methods relying on monolingual corpora tend to offer more non-literal translations (middle-voice) than those trained on parallel corpora.","PeriodicalId":43929,"journal":{"name":"Procesamiento del Lenguaje Natural","volume":"27 1","pages":"53-64"},"PeriodicalIF":0.8,"publicationDate":"2021-03-02","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"84651689","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
The Spanish Ministry of Economy and Competitiveness, who awarded Uxoa Inurrieta a predoctoral fellowship (BES-2013-066372) to conduct research within the SKATeR project (TIN2012-38584-C06-02).
{"title":"Identification and translation of verb+noun Multiword Expressions: A Spanish-Basque study","authors":"U. Inurrieta","doi":"10.26342/2020-64-15","DOIUrl":"https://doi.org/10.26342/2020-64-15","url":null,"abstract":"The Spanish Ministry of Economy and Competitiveness, who awarded Uxoa Inurrieta a predoctoral fellowship (BES-2013-066372) to conduct research within the SKATeR project (TIN2012-38584-C06-02).","PeriodicalId":43929,"journal":{"name":"Procesamiento del Lenguaje Natural","volume":"14 1","pages":"123-126"},"PeriodicalIF":0.8,"publicationDate":"2020-03-27","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"84983957","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
This work was supported by national funds through FCT - Fundacao para a Ciencia e a Tecnologia postdoctoral program.
本研究由FCT国家科学技术基金博士后项目资助。
{"title":"Automatic proficiency classification in L2 Portuguese","authors":"R. Gayo, Iria del","doi":"10.26342/2019-63-7","DOIUrl":"https://doi.org/10.26342/2019-63-7","url":null,"abstract":"This work was supported by national funds through FCT - Fundacao para a Ciencia e a Tecnologia postdoctoral program.","PeriodicalId":43929,"journal":{"name":"Procesamiento del Lenguaje Natural","volume":"37 1","pages":"67-74"},"PeriodicalIF":0.8,"publicationDate":"2019-09-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"82093002","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
espanolEn este articulo presentamos el primer detector de la Unidad Central (CU) de resumenes cientificos en castellano basado en tecnicas de aprendizaje automatico. Para ello, nos hemos basado en la anotacion del Spanish RST Treebank anotado bajo la Teoria de la Estructura Retorica o Rhetorical Structure Theory (RST). El metodo empleado para detectar la unidad central es el modelo de bolsa de palabras utilizando clasificadores como Naive Bayes y SVM. Finalmente, evaluamos el rendimiento de los clasificadores y hemos creado el detector de CUs usando el mejor clasificador. EnglishIn this paper we present the first automatic detector of the Central Unit (CU) for Spanish scientific abstracts based on machine learning techniques. To do so, learning and evaluation data was extracted from the RST Spanish Treebank annotated under the Rhetorical Structure Theory (RST). We use a bag-of-words model based on Naive Bayes and SVM classifiers to detect the central units of a text. Finaly, we evaluate the performance of the classifiers and choose the best to create an automatic CU detector.
在这篇文章中,我们介绍了第一个基于机器学习技术的西班牙语科学摘要中央单元(CU)探测器。本文提出了一种方法,通过对西班牙语树库的注释,在修辞结构理论(RST)下进行注释。用于检测中央单元的方法是使用Naive贝叶斯和SVM等分类器的词袋模型。最后,我们评估了分类器的性能,并使用最佳分类器创建了CUs检测器。EnglishIn this paper we目前the first automatic《中央股(uc)探测器[abstracts based on machine learning科学技术。To do was so,学习和评价数据或from the RST[注释Treebank under the Rhetorical Structure Theory (RST)。We use a bag-of-words model based on天真贝and SVM干扰源classifiers to the中央presonus of a text。最后,我们评估了分类器的性能,并选择了最好的一个来创建一个自动铜探测器。
{"title":"A Supervised Central Unit Detector for Spanish","authors":"Kepa Xabier Bengoetxea Kortazar, Mikel Quintian","doi":"10.26342/2018-60-3","DOIUrl":"https://doi.org/10.26342/2018-60-3","url":null,"abstract":"espanolEn este articulo presentamos el primer detector de la Unidad Central (CU) de resumenes cientificos en castellano basado en tecnicas de aprendizaje automatico. Para ello, nos hemos basado en la anotacion del Spanish RST Treebank anotado bajo la Teoria de la Estructura Retorica o Rhetorical Structure Theory (RST). El metodo empleado para detectar la unidad central es el modelo de bolsa de palabras utilizando clasificadores como Naive Bayes y SVM. Finalmente, evaluamos el rendimiento de los clasificadores y hemos creado el detector de CUs usando el mejor clasificador. EnglishIn this paper we present the first automatic detector of the Central Unit (CU) for Spanish scientific abstracts based on machine learning techniques. To do so, learning and evaluation data was extracted from the RST Spanish Treebank annotated under the Rhetorical Structure Theory (RST). We use a bag-of-words model based on Naive Bayes and SVM classifiers to detect the central units of a text. Finaly, we evaluate the performance of the classifiers and choose the best to create an automatic CU detector.","PeriodicalId":43929,"journal":{"name":"Procesamiento del Lenguaje Natural","volume":"118 1","pages":"29-36"},"PeriodicalIF":0.8,"publicationDate":"2018-03-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"77429243","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
OBJETIVOS. La clasificacion automatica de opiniones requiere un esfuerzo multidisciplinario, donde la linguistica y el procesamiento del lenguaje natural juegan un rol importante. Un aspecto importante a considerar en la clasificacion de opiniones es el lenguaje figurado tal como la ironia, el sarcasmo y la satira, ya que el doble sentido expresado en una opinion o comentario puede invertir la polaridad de la opinion. El objetivo principal de esta tesis es la deteccion de patrones psicolinguisticos para el analisis de lenguaje subjetivo en espanol. Especificamente, se establecieron 4 objetivos especificos: 1) diseno de un metodo para la deteccion de patrones psicolinguisticos para el analisis de sentimientos; 2) diseno de un metodo para la deteccion de patrones psicolinguisticos para el analisis de textos satiricos y no satiricos; 3) validacion del metodo para el analisis de sentimientos en diversos dominios como el turistico y peliculas; 4) validacion del metodo para la deteccion automatica de la satira en el dominio de noticias. METODOLOGIA. Para lograr este objetivo, primero se lleva a cabo un estudio del estado del arte que incluye tecnologias de procesamiento de lenguaje natural, analisis de sentimientos y lenguaje subjetivo. Especificamente, los diferentes niveles de procesamiento, principales enfoques del analisis de sentimientos, niveles de procesamiento de la opinion, bases de conocimiento, recursos linguisticos disponibles y principales tecnicas para la deteccion del lenguaje figurado. Posteriormente, se realiza el diseno e implementacion de un metodo para el analisis de sentimientos y deteccion de la satira basados en caracteristicas psicolinguisticas. Finalmente, la propuesta se valida en diferentes dominios. Concretamente, el metodo de analisis de sentimientos se aplica al dominio turistico y de peliculas; y el metodo de deteccion de la satira se aplica en el dominio de noticias en redes sociales. RESULTADOS. Como resultado se obtiene: o Un metodo para la clasificacion de sentimientos y deteccion de la satira. Este metodo permite clasificar opiniones como positivas, negativas, neutras, muy positivas y muy negativas y tweets como satiricos y no satiricos. o Un proceso para el pre-procesamiento de tweets en espanol. o Un corpus en el dominio del turismo. El corpus contiene 1600 opiniones sobre hoteles, restaurantes, museos, entre otros temas, las cuales son clasificadas con su respectiva polaridad (positivo, negativo, neutro, muy positivo, muy negativo). o Un corpus de tweets satiricos y no satiricos. Este corpus consiste en un conjunto de 10000 tweets etiquetados como satiricos y no satiricos extraidos desde diversas cuentas de Twitter. o Un conjunto de caracteristicas psicolinguisticas para la clasificacion de sentimientos y deteccion de la satira. CONCLUSIONES. La clasificacion automatica de opiniones requiere un esfuerzo donde la linguistica y el procesamiento del lenguaje natural juegan un rol importante. Gracias a estas disciplin
{"title":"Detección de Patrones Psicolingüísticos para el Análisis de Lenguaje Subjetivo en Español","authors":"María del Pilar Salas-Zárate","doi":"10.26342/2018-60-10","DOIUrl":"https://doi.org/10.26342/2018-60-10","url":null,"abstract":"OBJETIVOS. La clasificacion automatica de opiniones requiere un esfuerzo multidisciplinario, donde la linguistica y el procesamiento del lenguaje natural juegan un rol importante. Un aspecto importante a considerar en la clasificacion de opiniones es el lenguaje figurado tal como la ironia, el sarcasmo y la satira, ya que el doble sentido expresado en una opinion o comentario puede invertir la polaridad de la opinion. El objetivo principal de esta tesis es la deteccion de patrones psicolinguisticos para el analisis de lenguaje subjetivo en espanol. Especificamente, se establecieron 4 objetivos especificos: 1) diseno de un metodo para la deteccion de patrones psicolinguisticos para el analisis de sentimientos; 2) diseno de un metodo para la deteccion de patrones psicolinguisticos para el analisis de textos satiricos y no satiricos; 3) validacion del metodo para el analisis de sentimientos en diversos dominios como el turistico y peliculas; 4) validacion del metodo para la deteccion automatica de la satira en el dominio de noticias. METODOLOGIA. Para lograr este objetivo, primero se lleva a cabo un estudio del estado del arte que incluye tecnologias de procesamiento de lenguaje natural, analisis de sentimientos y lenguaje subjetivo. Especificamente, los diferentes niveles de procesamiento, principales enfoques del analisis de sentimientos, niveles de procesamiento de la opinion, bases de conocimiento, recursos linguisticos disponibles y principales tecnicas para la deteccion del lenguaje figurado. Posteriormente, se realiza el diseno e implementacion de un metodo para el analisis de sentimientos y deteccion de la satira basados en caracteristicas psicolinguisticas. Finalmente, la propuesta se valida en diferentes dominios. Concretamente, el metodo de analisis de sentimientos se aplica al dominio turistico y de peliculas; y el metodo de deteccion de la satira se aplica en el dominio de noticias en redes sociales. RESULTADOS. Como resultado se obtiene: o Un metodo para la clasificacion de sentimientos y deteccion de la satira. Este metodo permite clasificar opiniones como positivas, negativas, neutras, muy positivas y muy negativas y tweets como satiricos y no satiricos. o Un proceso para el pre-procesamiento de tweets en espanol. o Un corpus en el dominio del turismo. El corpus contiene 1600 opiniones sobre hoteles, restaurantes, museos, entre otros temas, las cuales son clasificadas con su respectiva polaridad (positivo, negativo, neutro, muy positivo, muy negativo). o Un corpus de tweets satiricos y no satiricos. Este corpus consiste en un conjunto de 10000 tweets etiquetados como satiricos y no satiricos extraidos desde diversas cuentas de Twitter. o Un conjunto de caracteristicas psicolinguisticas para la clasificacion de sentimientos y deteccion de la satira. CONCLUSIONES. La clasificacion automatica de opiniones requiere un esfuerzo donde la linguistica y el procesamiento del lenguaje natural juegan un rol importante. Gracias a estas disciplin","PeriodicalId":43929,"journal":{"name":"Procesamiento del Lenguaje Natural","volume":"142 1","pages":"79-82"},"PeriodicalIF":0.8,"publicationDate":"2018-03-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"75544056","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2013-04-15DOI: 10.4995/THESIS/10251/16012
Alberto Barrón Cedeño
This PhD research was supported by the National Council of Science and Technology of Mexico (CONACyT) through the 192021/302009 scholarship. The Ministry of Education of Spain supported my internship in the University of Sheffield through the TME2009-00456 grant. The investigation was carried out in the framework of the MICINN project Text-Enterprise 2.0 (TIN2009-13391-C04-03).
{"title":"On the Mono- and Cross-Language Detection of Text Re-Use and Plagiarism","authors":"Alberto Barrón Cedeño","doi":"10.4995/THESIS/10251/16012","DOIUrl":"https://doi.org/10.4995/THESIS/10251/16012","url":null,"abstract":"This PhD research was supported by the National Council of Science and Technology of Mexico (CONACyT) through the 192021/302009 scholarship. The Ministry of Education of Spain supported my internship in the University of Sheffield through the TME2009-00456 grant. The investigation was carried out in the framework of the MICINN project Text-Enterprise 2.0 (TIN2009-13391-C04-03).","PeriodicalId":43929,"journal":{"name":"Procesamiento del Lenguaje Natural","volume":"13 1","pages":"103-105"},"PeriodicalIF":0.8,"publicationDate":"2013-04-15","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"82131373","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2012-07-19DOI: 10.4995/THESIS/10251/16692
A. Pérez
Thesis funded by the National Council for Science and Technology (CONACyT - Mexico); as well as partially supported by the Text-Enterprise 2.0 project (TIN2009-13391-C04-03).
{"title":"Linguistic-based Patterns for Figurative Language Processing: The Case of Humor Recognition and Irony Detection","authors":"A. Pérez","doi":"10.4995/THESIS/10251/16692","DOIUrl":"https://doi.org/10.4995/THESIS/10251/16692","url":null,"abstract":"Thesis funded by the National Council for Science and Technology (CONACyT - Mexico); as well as partially supported by the Text-Enterprise 2.0 project (TIN2009-13391-C04-03).","PeriodicalId":43929,"journal":{"name":"Procesamiento del Lenguaje Natural","volume":"106 1","pages":"107-109"},"PeriodicalIF":0.8,"publicationDate":"2012-07-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"84278173","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2011-05-06DOI: 10.4995/THESIS/10251/6562
R. Cabrera
Tesis doctoral en reconocimiento de formas e inteligencia artificial realizada en la Universidad Politecnica de Valencia por Rafael Guzman Cabrera bajo la direccion de los doctores Paolo Rosso y Manuel Montes y Gomez (INAOE, Mexico). La defensa de la tesis tuvo lugar el 24 de noviembre ante el tribunal formado por los doctores Manuel Palomar Sanz (Universidad de Alicante), Paloma Martinez Fernandez (Universidad Carlos III de Madrid), Luis Villasenor Pineda (INAOE, Mexico), Grigori Sidorov (Instituto Politecnico Nacional, Mexico) y Antonio Molina Marco (Universidad Politecnica de Valencia). La calificacion obtenida fue Sobresaliente Cum Laude por unanimidad. La mayoria de los metodos para la categorizacion automatica de documentos estan basados en tecnicas de aprendizaje supervisado y, por consecuencia, tienen el problema de requerir un gran numero de instancias de entrenamiento. Con la finalidad de afrontar este problema, en esta tesis se propone un nuevo metodo semi-supervisado para la categorizacion de documentos, el cual considera la extraccion automatica de ejemplos no etiquetados de la Web y su incorporacion al conjunto de entrenamiento. los resultados obtenidos permiten ver la efectividad del metodo desarrollado.
在Paolo Rosso和Manuel Montes y Gomez博士(INAOE,墨西哥)的指导下,Rafael Guzman Cabrera在巴伦西亚理工大学完成了关于形状识别和人工智能的博士论文。辩护论点有地方法院11月24日由医生Manuel鸡笼有时Sanz(阿利坎特大学)、鸽子Martinez Fernandez(马德里卡洛斯三世大学),Luis Villasenor覆(INAOE Mexico)、Grigori Sidorov (Politecnico研究所国家、墨西哥)和安东尼奥·莫利纳(瓦伦西亚)Politecnica大学框架。获得的评分是一致的,以优异的成绩。大多数自动文档分类方法都基于监督学习技术,因此存在需要大量培训实例的问题。为了解决这一问题,本文提出了一种新的半监督文档分类方法,该方法考虑了从Web中自动提取未标记的示例并将其纳入培训集。所获得的结果表明了所开发方法的有效性。
{"title":"Categorización semi-supervisada de Documentos usando la Web como corpus","authors":"R. Cabrera","doi":"10.4995/THESIS/10251/6562","DOIUrl":"https://doi.org/10.4995/THESIS/10251/6562","url":null,"abstract":"Tesis doctoral en reconocimiento de formas e inteligencia artificial realizada en la Universidad Politecnica de Valencia por Rafael Guzman Cabrera bajo la direccion de los doctores Paolo Rosso y Manuel Montes y Gomez (INAOE, Mexico). La defensa de la tesis tuvo lugar el 24 de noviembre ante el tribunal formado por los doctores Manuel Palomar Sanz (Universidad de Alicante), Paloma Martinez Fernandez (Universidad Carlos III de Madrid), Luis Villasenor Pineda (INAOE, Mexico), Grigori Sidorov (Instituto Politecnico Nacional, Mexico) y Antonio Molina Marco (Universidad Politecnica de Valencia). La calificacion obtenida fue Sobresaliente Cum Laude por unanimidad.\u0000\u0000La mayoria de los metodos para la categorizacion automatica de documentos estan basados en tecnicas de aprendizaje supervisado y, por consecuencia, tienen el problema de requerir un gran numero de instancias de entrenamiento. Con la finalidad de afrontar este problema, en esta tesis se propone un nuevo metodo semi-supervisado para la categorizacion de documentos, el cual considera la extraccion automatica de ejemplos no etiquetados de la Web y su incorporacion al conjunto de entrenamiento. los resultados obtenidos permiten ver la efectividad del metodo desarrollado.","PeriodicalId":43929,"journal":{"name":"Procesamiento del Lenguaje Natural","volume":"99 1","pages":"127-128"},"PeriodicalIF":0.8,"publicationDate":"2011-05-06","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"72531447","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2009-03-01DOI: 10.4995/THESIS/10251/2641
Pinto Avendaño, David Eduardo
En este trabajo de tesis doctoral se investiga el problema del agrupamiento de conjuntos especiales de documentos llamados textos cortos de dominios restringidos. Para llevar a cabo esta tarea, se han analizados diversos corpora y metodos de agrupamiento. Mas aun, se han introducido algunas medidas de evaluacion de corpus, tecnicas de seleccion de terminos y medidas para la validez de agrupamiento con la finalidad de estudiar los siguientes problemas: -Determinar la relativa dificultad de un corpus para ser agrupado y estudiar algunas de sus caracteristicas como longitud de los textos, amplitud del dominio, estilometria, desequilibrio de clases y estructura. -Contribuir en el estado del arte sobre el agrupamiento de corpora compuesto de textos cortos de dominios restringidos El trabajo de investigacion que se ha llevado a cabo se encuentra parcialmente enfocado en el "agrupamiento de textos cortos". Este tema se considera relevante dado el modo actual y futuro en que las personas tienden a usar un "lenguaje reducido" constituidos por textos cortos (por ejemplo, blogs, snippets, noticias y generacion de mensajes de textos como el correo electronico y el chat). Adicionalmente, se estudia la amplitud del dominio de corpora. En este sentido, un corpus puede ser considerado como restringido o amplio si el grado de traslape de vocabulario es alto o bajo, respectivamente. En la tarea de categorizacion, es bastante complejo lidiar con corpora de dominio restringido tales como articulos cientificos, reportes tecnicos, patentes, etc. El objetivo principal de este trabajo consiste en estudiar las posibles estrategias para tratar con los siguientes dos problemas: a) las bajas frecuencias de los terminos del vocabulario en textos cortos, y b) el alto traslape de vocabulario asociado a dominios restringidos. Si bien, cada uno de los problemas anteriores es un reto suficientemente alto, cuando se trata con textos cortos de dominios restringidos, la complejidad del problema se incr
{"title":"On Clustering and Evaluation of Narrow Domain Short-Test Corpora","authors":"Pinto Avendaño, David Eduardo","doi":"10.4995/THESIS/10251/2641","DOIUrl":"https://doi.org/10.4995/THESIS/10251/2641","url":null,"abstract":"En este trabajo de tesis doctoral se investiga el problema del agrupamiento de conjuntos especiales de documentos llamados textos cortos de dominios restringidos.\u0000Para llevar a cabo esta tarea, se han analizados diversos corpora y metodos de agrupamiento. Mas aun, se han introducido algunas medidas de evaluacion de corpus, tecnicas de seleccion de terminos y medidas para la validez de agrupamiento con la finalidad de estudiar los siguientes problemas:\u0000-Determinar la relativa dificultad de un corpus para ser agrupado y estudiar algunas de sus caracteristicas como longitud de los textos, amplitud del dominio, estilometria, desequilibrio de clases y estructura.\u0000-Contribuir en el estado del arte sobre el agrupamiento de corpora compuesto de textos cortos de dominios restringidos\u0000El trabajo de investigacion que se ha llevado a cabo se encuentra parcialmente enfocado en el \"agrupamiento de textos cortos\". Este tema se considera relevante dado el modo actual y futuro en que las personas tienden a usar un \"lenguaje reducido\" constituidos por textos cortos (por ejemplo, blogs, snippets, noticias y generacion de mensajes de textos como el correo electronico y el chat).\u0000Adicionalmente, se estudia la amplitud del dominio de corpora. En este sentido, un corpus puede ser considerado como restringido o amplio si el grado de traslape de vocabulario es alto o bajo, respectivamente. En la tarea de categorizacion, es bastante complejo lidiar con corpora de dominio restringido tales como articulos cientificos, reportes tecnicos, patentes, etc.\u0000El objetivo principal de este trabajo consiste en estudiar las posibles estrategias para tratar con los siguientes dos problemas:\u0000a) las bajas frecuencias de los terminos del vocabulario en textos cortos, y\u0000b) el alto traslape de vocabulario asociado a dominios restringidos.\u0000Si bien, cada uno de los problemas anteriores es un reto suficientemente alto, cuando se trata con textos cortos de dominios restringidos, la complejidad del problema se incr","PeriodicalId":43929,"journal":{"name":"Procesamiento del Lenguaje Natural","volume":"os-1 1","pages":""},"PeriodicalIF":0.8,"publicationDate":"2009-03-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"87681148","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}