Procesamiento del Lenguaje Natural最新文献

英文中文

Extraction of Terms Semantically Related to Colponyms: Evaluation in a Small Specialized Corpus 语料库相关词的语义提取:小型专业语料库中的评价

IF 0.8 Q4 COMPUTER SCIENCE, ARTIFICIAL INTELLIGENCE

Procesamiento del Lenguaje Natural

Pub Date : 2021-09-06 DOI: 10.26342/2021-67-12

Juan Rojas Garcia

This research was carried out as part of project PID2020-118369GB-I00, Transversal Integration of Culture in a Terminological Knowledge Base on Environment (TRANSCULTURE), funded by the Spanish Ministry of Science and Innovation.

本研究是由西班牙科学与创新部资助的PID2020-118369GB-I00项目“环境术语知识库中的文化横向整合(TRANSCULTURE)”的一部分。

引用次数: 0

Using Dependency-Based Contextualization for transferring Passive Constructions from English to Spanish 基于依存的语境化在英语被动句向西班牙语转换中的应用

IF 0.8 Q4 COMPUTER SCIENCE, ARTIFICIAL INTELLIGENCE

Procesamiento del Lenguaje Natural

Pub Date : 2021-03-02 DOI: 10.26342/2021-66-4

Pablo Gamallo, Gorka Labaka Intxauspe

We hypothesize that parallel corpora as well as machine translation outputs contain many literal translations that are the result of transferring the constructions of the source language to the target language. When translating passive expressions from English to Spanish, there are several constructions available, however, both automatic and human (if of low quality) translations tend to select the periphrastic structure, which is the literal construction. The objective of this article is to make use of strategies trained on monolingual corpora to translate English passive expressions into Spanish so as to verify whether unsupervised translation with monolingual corpora benefits syntactic diversity. Special attention will be given to the monolingual-based strategy relying on dependency-based contextualization. The results of the experiments carried out show that the methods relying on monolingual corpora tend to offer more non-literal translations (middle-voice) than those trained on parallel corpora.

我们假设平行语料库和机器翻译输出包含许多直译，这些直译是将源语言的结构转移到目标语言的结果。在将被动语态从英语翻译成西班牙语时，有几种结构可供选择，然而，无论是自动翻译还是人工翻译(如果质量不高)都倾向于选择迂回结构，即字面结构。本文的目的是利用单语语料库训练的策略将英语被动表达翻译成西班牙语，以验证单语语料库的无监督翻译是否有利于句法多样性。我们将特别关注基于依赖情境化的单语策略。实验结果表明，基于单语语料库的翻译方法比基于平行语料库的翻译方法更倾向于提供更多的非字面翻译(中音)。

引用次数: 0

Identification and translation of verb+noun Multiword Expressions: A Spanish-Basque study 动词+名词多词短语的识别与翻译:西班牙语-巴斯克语研究

IF 0.8 Q4 COMPUTER SCIENCE, ARTIFICIAL INTELLIGENCE

Procesamiento del Lenguaje Natural

Pub Date : 2020-03-27 DOI: 10.26342/2020-64-15

U. Inurrieta

The Spanish Ministry of Economy and Competitiveness, who awarded Uxoa Inurrieta a predoctoral fellowship (BES-2013-066372) to conduct research within the SKATeR project (TIN2012-38584-C06-02).

西班牙经济和竞争力部授予Uxoa Inurrieta博士前奖学金(BES-2013-066372)，以开展SKATeR项目(TIN2012-38584-C06-02)的研究。

引用次数: 0

Automatic proficiency classification in L2 Portuguese L2葡萄牙语自动熟练程度分类

IF 0.8 Q4 COMPUTER SCIENCE, ARTIFICIAL INTELLIGENCE

Procesamiento del Lenguaje Natural

Pub Date : 2019-09-01 DOI: 10.26342/2019-63-7

R. Gayo, Iria del

This work was supported by national funds through FCT - Fundacao para a Ciencia e a Tecnologia postdoctoral program.

本研究由FCT国家科学技术基金博士后项目资助。

引用次数: 1

A Supervised Central Unit Detector for Spanish 西班牙语监督中央单元检测器

IF 0.8 Q4 COMPUTER SCIENCE, ARTIFICIAL INTELLIGENCE

Procesamiento del Lenguaje Natural

Pub Date : 2018-03-01 DOI: 10.26342/2018-60-3

Kepa Xabier Bengoetxea Kortazar, Mikel Quintian

espanolEn este articulo presentamos el primer detector de la Unidad Central (CU) de resumenes cientificos en castellano basado en tecnicas de aprendizaje automatico. Para ello, nos hemos basado en la anotacion del Spanish RST Treebank anotado bajo la Teoria de la Estructura Retorica o Rhetorical Structure Theory (RST). El metodo empleado para detectar la unidad central es el modelo de bolsa de palabras utilizando clasificadores como Naive Bayes y SVM. Finalmente, evaluamos el rendimiento de los clasificadores y hemos creado el detector de CUs usando el mejor clasificador. EnglishIn this paper we present the first automatic detector of the Central Unit (CU) for Spanish scientific abstracts based on machine learning techniques. To do so, learning and evaluation data was extracted from the RST Spanish Treebank annotated under the Rhetorical Structure Theory (RST). We use a bag-of-words model based on Naive Bayes and SVM classifiers to detect the central units of a text. Finaly, we evaluate the performance of the classifiers and choose the best to create an automatic CU detector.

在这篇文章中，我们介绍了第一个基于机器学习技术的西班牙语科学摘要中央单元(CU)探测器。本文提出了一种方法，通过对西班牙语树库的注释，在修辞结构理论(RST)下进行注释。用于检测中央单元的方法是使用Naive贝叶斯和SVM等分类器的词袋模型。最后，我们评估了分类器的性能，并使用最佳分类器创建了CUs检测器。EnglishIn this paper we目前the first automatic《中央股(uc)探测器[abstracts based on machine learning科学技术。To do was so,学习和评价数据或from the RST[注释Treebank under the Rhetorical Structure Theory (RST)。We use a bag-of-words model based on天真贝and SVM干扰源classifiers to the中央presonus of a text。最后，我们评估了分类器的性能，并选择了最好的一个来创建一个自动铜探测器。

引用次数: 1

Detección de Patrones Psicolingüísticos para el Análisis de Lenguaje Subjetivo en Español 西班牙语主观语言分析的心理语言模式检测

IF 0.8 Q4 COMPUTER SCIENCE, ARTIFICIAL INTELLIGENCE

Procesamiento del Lenguaje Natural

Pub Date : 2018-03-01 DOI: 10.26342/2018-60-10

María del Pilar Salas-Zárate

OBJETIVOS. La clasificacion automatica de opiniones requiere un esfuerzo multidisciplinario, donde la linguistica y el procesamiento del lenguaje natural juegan un rol importante. Un aspecto importante a considerar en la clasificacion de opiniones es el lenguaje figurado tal como la ironia, el sarcasmo y la satira, ya que el doble sentido expresado en una opinion o comentario puede invertir la polaridad de la opinion. El objetivo principal de esta tesis es la deteccion de patrones psicolinguisticos para el analisis de lenguaje subjetivo en espanol. Especificamente, se establecieron 4 objetivos especificos: 1) diseno de un metodo para la deteccion de patrones psicolinguisticos para el analisis de sentimientos; 2) diseno de un metodo para la deteccion de patrones psicolinguisticos para el analisis de textos satiricos y no satiricos; 3) validacion del metodo para el analisis de sentimientos en diversos dominios como el turistico y peliculas; 4) validacion del metodo para la deteccion automatica de la satira en el dominio de noticias. METODOLOGIA. Para lograr este objetivo, primero se lleva a cabo un estudio del estado del arte que incluye tecnologias de procesamiento de lenguaje natural, analisis de sentimientos y lenguaje subjetivo. Especificamente, los diferentes niveles de procesamiento, principales enfoques del analisis de sentimientos, niveles de procesamiento de la opinion, bases de conocimiento, recursos linguisticos disponibles y principales tecnicas para la deteccion del lenguaje figurado. Posteriormente, se realiza el diseno e implementacion de un metodo para el analisis de sentimientos y deteccion de la satira basados en caracteristicas psicolinguisticas. Finalmente, la propuesta se valida en diferentes dominios. Concretamente, el metodo de analisis de sentimientos se aplica al dominio turistico y de peliculas; y el metodo de deteccion de la satira se aplica en el dominio de noticias en redes sociales. RESULTADOS. Como resultado se obtiene: o Un metodo para la clasificacion de sentimientos y deteccion de la satira. Este metodo permite clasificar opiniones como positivas, negativas, neutras, muy positivas y muy negativas y tweets como satiricos y no satiricos. o Un proceso para el pre-procesamiento de tweets en espanol. o Un corpus en el dominio del turismo. El corpus contiene 1600 opiniones sobre hoteles, restaurantes, museos, entre otros temas, las cuales son clasificadas con su respectiva polaridad (positivo, negativo, neutro, muy positivo, muy negativo). o Un corpus de tweets satiricos y no satiricos. Este corpus consiste en un conjunto de 10000 tweets etiquetados como satiricos y no satiricos extraidos desde diversas cuentas de Twitter. o Un conjunto de caracteristicas psicolinguisticas para la clasificacion de sentimientos y deteccion de la satira. CONCLUSIONES. La clasificacion automatica de opiniones requiere un esfuerzo donde la linguistica y el procesamiento del lenguaje natural juegan un rol importante. Gracias a estas disciplin

目标。意见的自动分类需要多学科的努力，其中语言学和自然语言处理发挥着重要作用。在对意见进行分类时，需要考虑的一个重要方面是比喻性语言，如反讽、讽刺和讽刺，因为在意见或评论中表达的双关语可以扭转意见的极性。本文的主要目的是检测西班牙语主观语言分析的心理语言学模式。具体而言，我们设定了4个具体目标:1)设计一种检测情绪分析心理语言模式的方法;2)设计一种用于分析讽刺和非讽刺文本的心理语言模式检测方法;3)在旅游、电影等各个领域验证情感分析方法;4)新闻领域讽刺自动检测方法的验证。METODOLOGIA。为了实现这一目标，首先进行了一项最先进的研究，包括自然语言处理技术、情感分析和主观语言。具体来说，不同的加工水平，情绪分析的主要方法，意见加工水平，知识库，可用的语言资源和检测比喻语言的主要技术。在此基础上，提出了一种基于心理语言学特征的情感分析和讽刺检测方法。最后，该建议在不同的领域得到验证。具体来说，情感分析方法应用于旅游和电影领域;讽刺检测方法应用于社交网络新闻领域。结果。因此，我们得到:o一种对情绪进行分类和检测讽刺的方法。这种方法允许将意见分为积极的、消极的、中立的、非常积极的和非常消极的，推文分为讽刺的和非讽刺的。或者用西班牙语预处理推文的过程。或者是旅游领域的语料库。该语料库包含1600个关于酒店、餐厅、博物馆等主题的意见，这些意见按各自的极性(积极、消极、中性、非常积极、非常消极)进行分类。或者一组讽刺和非讽刺的推文。该语料库由一组10000条标记为讽刺和非讽刺的推文组成，这些推文来自不同的Twitter账户。o一套心理语言学特征，用于对情绪进行分类和检测讽刺。结论。意见的自动分类需要语言学和自然语言处理发挥重要作用的努力。这些学科使人们能够更好地理解人类语言，对观点进行分类，并总结文本中表达的情感。另一方面，比喻语言是PLN中最困难的主题之一，因为与字面语言不同，作者利用各种语言人物，如隐喻、类比、歧义等，来投射更复杂的意义。这种类型的语言不仅对计算机很难理解，对人类也很难理解。本文描述了一种情绪分析的心理语言模式检测和讽刺自动检测的方法。心理语言学特征，结合自然语言处理和数据挖掘技术，被证明在情感和讽刺检测方面是有效的。此外，不同领域的方法验证证明了我们对意见和推文进行分类的方法的有效性。他的父亲是一名律师，母亲是一名律师。= =地理= =根据美国人口普查，这个县的面积为。此外，比喻语言是情感分析中需要考虑的一个重要方面，因为在观点中表达的双重含义可以改变观点的极端。= =地理= =根据美国人口普查，这个县的面积为。建立了四个具体目标:1)设计一种检测情感分析心理语言学模式的方法;2)设计一种检测讽刺文本分析的心理语言学模式的方法;3)不同背景下情感分析方法的验证，如旅游和电影领域;4)新闻领域讽刺自动检测方法的验证。采用的方法。所提出的方法是基于对现状的分析。

{"title":"Detección de Patrones Psicolingüísticos para el Análisis de Lenguaje Subjetivo en Español","authors":"María del Pilar Salas-Zárate","doi":"10.26342/2018-60-10","DOIUrl":"https://doi.org/10.26342/2018-60-10","url":null,"abstract":"OBJETIVOS. La clasificacion automatica de opiniones requiere un esfuerzo multidisciplinario, donde la linguistica y el procesamiento del lenguaje natural juegan un rol importante. Un aspecto importante a considerar en la clasificacion de opiniones es el lenguaje figurado tal como la ironia, el sarcasmo y la satira, ya que el doble sentido expresado en una opinion o comentario puede invertir la polaridad de la opinion. El objetivo principal de esta tesis es la deteccion de patrones psicolinguisticos para el analisis de lenguaje subjetivo en espanol. Especificamente, se establecieron 4 objetivos especificos: 1) diseno de un metodo para la deteccion de patrones psicolinguisticos para el analisis de sentimientos; 2) diseno de un metodo para la deteccion de patrones psicolinguisticos para el analisis de textos satiricos y no satiricos; 3) validacion del metodo para el analisis de sentimientos en diversos dominios como el turistico y peliculas; 4) validacion del metodo para la deteccion automatica de la satira en el dominio de noticias. METODOLOGIA. Para lograr este objetivo, primero se lleva a cabo un estudio del estado del arte que incluye tecnologias de procesamiento de lenguaje natural, analisis de sentimientos y lenguaje subjetivo. Especificamente, los diferentes niveles de procesamiento, principales enfoques del analisis de sentimientos, niveles de procesamiento de la opinion, bases de conocimiento, recursos linguisticos disponibles y principales tecnicas para la deteccion del lenguaje figurado. Posteriormente, se realiza el diseno e implementacion de un metodo para el analisis de sentimientos y deteccion de la satira basados en caracteristicas psicolinguisticas. Finalmente, la propuesta se valida en diferentes dominios. Concretamente, el metodo de analisis de sentimientos se aplica al dominio turistico y de peliculas; y el metodo de deteccion de la satira se aplica en el dominio de noticias en redes sociales. RESULTADOS. Como resultado se obtiene: o Un metodo para la clasificacion de sentimientos y deteccion de la satira. Este metodo permite clasificar opiniones como positivas, negativas, neutras, muy positivas y muy negativas y tweets como satiricos y no satiricos. o Un proceso para el pre-procesamiento de tweets en espanol. o Un corpus en el dominio del turismo. El corpus contiene 1600 opiniones sobre hoteles, restaurantes, museos, entre otros temas, las cuales son clasificadas con su respectiva polaridad (positivo, negativo, neutro, muy positivo, muy negativo). o Un corpus de tweets satiricos y no satiricos. Este corpus consiste en un conjunto de 10000 tweets etiquetados como satiricos y no satiricos extraidos desde diversas cuentas de Twitter. o Un conjunto de caracteristicas psicolinguisticas para la clasificacion de sentimientos y deteccion de la satira. CONCLUSIONES. La clasificacion automatica de opiniones requiere un esfuerzo donde la linguistica y el procesamiento del lenguaje natural juegan un rol importante. Gracias a estas disciplin","PeriodicalId":43929,"journal":{"name":"Procesamiento del Lenguaje Natural","volume":"142 1","pages":"79-82"},"PeriodicalIF":0.8,"publicationDate":"2018-03-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"75544056","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 1

On the Mono- and Cross-Language Detection of Text Re-Use and Plagiarism 关于文本重复使用和剽窃的单语言和跨语言检测

IF 0.8 Q4 COMPUTER SCIENCE, ARTIFICIAL INTELLIGENCE

Procesamiento del Lenguaje Natural

Pub Date : 2013-04-15 DOI: 10.4995/THESIS/10251/16012

Alberto Barrón Cedeño

This PhD research was supported by the National Council of Science and Technology of Mexico (CONACyT) through the 192021/302009 scholarship. The Ministry of Education of Spain supported my internship in the University of Sheffield through the TME2009-00456 grant. The investigation was carried out in the framework of the MICINN project Text-Enterprise 2.0 (TIN2009-13391-C04-03).

该博士研究由墨西哥国家科学技术委员会(CONACyT)通过192021/302009奖学金提供支持。西班牙教育部通过TME2009-00456资助我在英国谢菲尔德大学实习。调查是在MICINN项目Text-Enterprise 2.0 (TIN2009-13391-C04-03)的框架下进行的。

引用次数: 34

Linguistic-based Patterns for Figurative Language Processing: The Case of Humor Recognition and Irony Detection 基于语言的比喻语言处理模式:以幽默识别和反语检测为例

IF 0.8 Q4 COMPUTER SCIENCE, ARTIFICIAL INTELLIGENCE

Procesamiento del Lenguaje Natural

Pub Date : 2012-07-19 DOI: 10.4995/THESIS/10251/16692

A. Pérez

Thesis funded by the National Council for Science and Technology (CONACyT - Mexico); as well as partially supported by the Text-Enterprise 2.0 project (TIN2009-13391-C04-03).

国家科学技术委员会(CONACyT - Mexico)资助的论文;也得到了Text-Enterprise 2.0项目(TIN2009-13391-C04-03)的部分支持。

引用次数: 10

Categorización semi-supervisada de Documentos usando la Web como corpus 使用Web作为语料库对文档进行半监督分类

IF 0.8 Q4 COMPUTER SCIENCE, ARTIFICIAL INTELLIGENCE

Procesamiento del Lenguaje Natural

Pub Date : 2011-05-06 DOI: 10.4995/THESIS/10251/6562

R. Cabrera

Tesis doctoral en reconocimiento de formas e inteligencia artificial realizada en la Universidad Politecnica de Valencia por Rafael Guzman Cabrera bajo la direccion de los doctores Paolo Rosso y Manuel Montes y Gomez (INAOE, Mexico). La defensa de la tesis tuvo lugar el 24 de noviembre ante el tribunal formado por los doctores Manuel Palomar Sanz (Universidad de Alicante), Paloma Martinez Fernandez (Universidad Carlos III de Madrid), Luis Villasenor Pineda (INAOE, Mexico), Grigori Sidorov (Instituto Politecnico Nacional, Mexico) y Antonio Molina Marco (Universidad Politecnica de Valencia). La calificacion obtenida fue Sobresaliente Cum Laude por unanimidad.La mayoria de los metodos para la categorizacion automatica de documentos estan basados en tecnicas de aprendizaje supervisado y, por consecuencia, tienen el problema de requerir un gran numero de instancias de entrenamiento. Con la finalidad de afrontar este problema, en esta tesis se propone un nuevo metodo semi-supervisado para la categorizacion de documentos, el cual considera la extraccion automatica de ejemplos no etiquetados de la Web y su incorporacion al conjunto de entrenamiento. los resultados obtenidos permiten ver la efectividad del metodo desarrollado.

在Paolo Rosso和Manuel Montes y Gomez博士(INAOE，墨西哥)的指导下，Rafael Guzman Cabrera在巴伦西亚理工大学完成了关于形状识别和人工智能的博士论文。辩护论点有地方法院11月24日由医生Manuel鸡笼有时Sanz(阿利坎特大学)、鸽子Martinez Fernandez(马德里卡洛斯三世大学),Luis Villasenor覆(INAOE Mexico)、Grigori Sidorov (Politecnico研究所国家、墨西哥)和安东尼奥·莫利纳(瓦伦西亚)Politecnica大学框架。获得的评分是一致的，以优异的成绩。大多数自动文档分类方法都基于监督学习技术，因此存在需要大量培训实例的问题。为了解决这一问题，本文提出了一种新的半监督文档分类方法，该方法考虑了从Web中自动提取未标记的示例并将其纳入培训集。所获得的结果表明了所开发方法的有效性。

{"title":"Categorización semi-supervisada de Documentos usando la Web como corpus","authors":"R. Cabrera","doi":"10.4995/THESIS/10251/6562","DOIUrl":"https://doi.org/10.4995/THESIS/10251/6562","url":null,"abstract":"Tesis doctoral en reconocimiento de formas e inteligencia artificial realizada en la Universidad Politecnica de Valencia por Rafael Guzman Cabrera bajo la direccion de los doctores Paolo Rosso y Manuel Montes y Gomez (INAOE, Mexico). La defensa de la tesis tuvo lugar el 24 de noviembre ante el tribunal formado por los doctores Manuel Palomar Sanz (Universidad de Alicante), Paloma Martinez Fernandez (Universidad Carlos III de Madrid), Luis Villasenor Pineda (INAOE, Mexico), Grigori Sidorov (Instituto Politecnico Nacional, Mexico) y Antonio Molina Marco (Universidad Politecnica de Valencia). La calificacion obtenida fue Sobresaliente Cum Laude por unanimidad.\u0000\u0000La mayoria de los metodos para la categorizacion automatica de documentos estan basados en tecnicas de aprendizaje supervisado y, por consecuencia, tienen el problema de requerir un gran numero de instancias de entrenamiento. Con la finalidad de afrontar este problema, en esta tesis se propone un nuevo metodo semi-supervisado para la categorizacion de documentos, el cual considera la extraccion automatica de ejemplos no etiquetados de la Web y su incorporacion al conjunto de entrenamiento. los resultados obtenidos permiten ver la efectividad del metodo desarrollado.","PeriodicalId":43929,"journal":{"name":"Procesamiento del Lenguaje Natural","volume":"99 1","pages":"127-128"},"PeriodicalIF":0.8,"publicationDate":"2011-05-06","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"72531447","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 0

On Clustering and Evaluation of Narrow Domain Short-Test Corpora 窄域短测试语料库的聚类与评价

IF 0.8 Q4 COMPUTER SCIENCE, ARTIFICIAL INTELLIGENCE

Procesamiento del Lenguaje Natural

Pub Date : 2009-03-01 DOI: 10.4995/THESIS/10251/2641

Pinto Avendaño, David Eduardo

En este trabajo de tesis doctoral se investiga el problema del agrupamiento de conjuntos especiales de documentos llamados textos cortos de dominios restringidos.Para llevar a cabo esta tarea, se han analizados diversos corpora y metodos de agrupamiento. Mas aun, se han introducido algunas medidas de evaluacion de corpus, tecnicas de seleccion de terminos y medidas para la validez de agrupamiento con la finalidad de estudiar los siguientes problemas:-Determinar la relativa dificultad de un corpus para ser agrupado y estudiar algunas de sus caracteristicas como longitud de los textos, amplitud del dominio, estilometria, desequilibrio de clases y estructura.-Contribuir en el estado del arte sobre el agrupamiento de corpora compuesto de textos cortos de dominios restringidosEl trabajo de investigacion que se ha llevado a cabo se encuentra parcialmente enfocado en el "agrupamiento de textos cortos". Este tema se considera relevante dado el modo actual y futuro en que las personas tienden a usar un "lenguaje reducido" constituidos por textos cortos (por ejemplo, blogs, snippets, noticias y generacion de mensajes de textos como el correo electronico y el chat).Adicionalmente, se estudia la amplitud del dominio de corpora. En este sentido, un corpus puede ser considerado como restringido o amplio si el grado de traslape de vocabulario es alto o bajo, respectivamente. En la tarea de categorizacion, es bastante complejo lidiar con corpora de dominio restringido tales como articulos cientificos, reportes tecnicos, patentes, etc.El objetivo principal de este trabajo consiste en estudiar las posibles estrategias para tratar con los siguientes dos problemas:a) las bajas frecuencias de los terminos del vocabulario en textos cortos, yb) el alto traslape de vocabulario asociado a dominios restringidos.Si bien, cada uno de los problemas anteriores es un reto suficientemente alto, cuando se trata con textos cortos de dominios restringidos, la complejidad del problema se incr

在这篇论文中，我们研究了被称为有限域短文本的特殊文档集的聚类问题。为了完成这项任务，我们分析了各种语料库和聚类方法。更重要的是,我们采取了一些措施的语料库,tecnicas evaluacion seleccion术语。和措施的有效性分组以探讨下列问题:-Determinar相对困难一个语料库是动员和研究其中的一些caracteristicas统治作为文本的长度,振幅,estilometria,种类和结构失衡。-对由有限领域的短文本组成的语料库进行分组的最新贡献已经进行的研究工作部分集中在“短文本分组”上。这个话题被认为是相关的，因为现在和将来人们倾向于使用由短文本组成的“简化语言”(如博客、片段、新闻和生成文本信息，如电子邮件和聊天)。此外，还研究了语料库域的振幅。从这个意义上说，如果词汇重叠程度分别高或低，语料库可以被认为是受限的或广泛的。在categorizacion域,是相当复杂,处理的限制,如第科学家、实至名归,专利,etc.El报告这项工作的主要目标是研究备选战略,以解决以下两个问题:(a)低频率的词汇术语。文字短小精悍,yb)相关联的词汇traslape受限域较高。虽然上述每一个问题都是一个足够高的挑战，但当涉及到来自有限领域的简短文本时，问题的复杂性增加了

{"title":"On Clustering and Evaluation of Narrow Domain Short-Test Corpora","authors":"Pinto Avendaño, David Eduardo","doi":"10.4995/THESIS/10251/2641","DOIUrl":"https://doi.org/10.4995/THESIS/10251/2641","url":null,"abstract":"En este trabajo de tesis doctoral se investiga el problema del agrupamiento de conjuntos especiales de documentos llamados textos cortos de dominios restringidos.\u0000Para llevar a cabo esta tarea, se han analizados diversos corpora y metodos de agrupamiento. Mas aun, se han introducido algunas medidas de evaluacion de corpus, tecnicas de seleccion de terminos y medidas para la validez de agrupamiento con la finalidad de estudiar los siguientes problemas:\u0000-Determinar la relativa dificultad de un corpus para ser agrupado y estudiar algunas de sus caracteristicas como longitud de los textos, amplitud del dominio, estilometria, desequilibrio de clases y estructura.\u0000-Contribuir en el estado del arte sobre el agrupamiento de corpora compuesto de textos cortos de dominios restringidos\u0000El trabajo de investigacion que se ha llevado a cabo se encuentra parcialmente enfocado en el \"agrupamiento de textos cortos\". Este tema se considera relevante dado el modo actual y futuro en que las personas tienden a usar un \"lenguaje reducido\" constituidos por textos cortos (por ejemplo, blogs, snippets, noticias y generacion de mensajes de textos como el correo electronico y el chat).\u0000Adicionalmente, se estudia la amplitud del dominio de corpora. En este sentido, un corpus puede ser considerado como restringido o amplio si el grado de traslape de vocabulario es alto o bajo, respectivamente. En la tarea de categorizacion, es bastante complejo lidiar con corpora de dominio restringido tales como articulos cientificos, reportes tecnicos, patentes, etc.\u0000El objetivo principal de este trabajo consiste en estudiar las posibles estrategias para tratar con los siguientes dos problemas:\u0000a) las bajas frecuencias de los terminos del vocabulario en textos cortos, y\u0000b) el alto traslape de vocabulario asociado a dominios restringidos.\u0000Si bien, cada uno de los problemas anteriores es un reto suficientemente alto, cuando se trata con textos cortos de dominios restringidos, la complejidad del problema se incr","PeriodicalId":43929,"journal":{"name":"Procesamiento del Lenguaje Natural","volume":"os-1 1","pages":""},"PeriodicalIF":0.8,"publicationDate":"2009-03-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"87681148","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 28

类型

全部化学•材料生命科学医学物理工程技术环境•农林材料科学地球科学法学管理学化学环境科学与生态学计算机科学教育学经济学农林科学人文科学生物学数学物理与天体物理心理学综合性期刊其他工业工程理学历史学农学文学信息工程

数据库

全部 ACS Publications Elsevier ieeexplore Springer The Royal Society of Chemistry Wiley

期刊

Procesamiento del Lenguaje Natural

全部 Acc. Chem. Res. ACS Applied Bio Materials ACS Appl. Electron. Mater. ACS Appl. Energy Mater. ACS Appl. Mater. Interfaces ACS Appl. Nano Mater. ACS Appl. Polym. Mater. ACS BIOMATER-SCI ENG ACS Catal. ACS Cent. Sci. ACS Chem. Biol. ACS Chemical Health & Safety ACS Chem. Neurosci. ACS Comb. Sci. ACS Earth Space Chem. ACS Energy Lett. ACS Infect. Dis. ACS Macro Lett. ACS Mater. Lett. ACS Med. Chem. Lett. ACS Nano ACS Omega ACS Photonics ACS Sens. ACS Sustainable Chem. Eng. ACS Synth. Biol. Anal. Chem. BIOCHEMISTRY-US Bioconjugate Chem. BIOMACROMOLECULES Chem. Res. Toxicol. Chem. Rev. Chem. Mater. CRYST GROWTH DES ENERG FUEL Environ. Sci. Technol. Environ. Sci. Technol. Lett. Eur. J. Inorg. Chem. IND ENG CHEM RES Inorg. Chem. J. Agric. Food. Chem. J. Chem. Eng. Data J. Chem. Educ. J. Chem. Inf. Model. J. Chem. Theory Comput. J. Med. Chem. J. Nat. Prod. J PROTEOME RES J. Am. Chem. Soc. LANGMUIR MACROMOLECULES Mol. Pharmaceutics Nano Lett. Org. Lett. ORG PROCESS RES DEV ORGANOMETALLICS J. Org. Chem. J. Phys. Chem. J. Phys. Chem. A J. Phys. Chem. B J. Phys. Chem. C J. Phys. Chem. Lett. Analyst Anal. Methods Biomater. Sci. Catal. Sci. Technol. Chem. Commun. Chem. Soc. Rev. CHEM EDUC RES PRACT CRYSTENGCOMM Dalton Trans. Energy Environ. Sci. ENVIRON SCI-NANO ENVIRON SCI-PROC IMP ENVIRON SCI-WAT RES Faraday Discuss. Food Funct. Green Chem. Inorg. Chem. Front. Integr. Biol. J. Anal. At. Spectrom. J. Mater. Chem. A J. Mater. Chem. B J. Mater. Chem. C Lab Chip Mater. Chem. Front. Mater. Horiz. MEDCHEMCOMM Metallomics Mol. Biosyst. Mol. Syst. Des. Eng. Nanoscale Nanoscale Horiz. Nat. Prod. Rep. New J. Chem. Org. Biomol. Chem. Org. Chem. Front. PHOTOCH PHOTOBIO SCI PCCP Polym. Chem.

﹀