En este artículo ofrecemos una formalización de reglas de pluralización en castellano para ser utilizada concretamente en el procesamiento de términos especializados, ya que con frecuencia estos no se encuentran registrados en los diccionarios de lengua general y, por tanto, no son reconocidos su categoría y lema. Esto tiene consecuencias negativas en tareas como la extracción de terminología, especialmente en el caso de lenguas con riqueza morfológica. Enfrentamos el problema con un diseño en forma de cascada de reglas de sustitución, expresiones regulares y adquisición léxica a partir de corpus de grandes dimensiones. Los resultados experimentales muestran una reducción significativa de la tasa de error de dos etiquetadores ampliamente utilizados: TreeTagger y UDPipe. Ofrecemos una implementación en código abierto que funciona como posproceso del etiquetado.
{"title":"Formalización de reglas para la detección del plural en castellano en el caso de unidades no diccionarizadas","authors":"Rogelio Nazar, Amparo Galdames","doi":"10.21814/lm.11.2.285","DOIUrl":"https://doi.org/10.21814/lm.11.2.285","url":null,"abstract":"En este artículo ofrecemos una formalización de reglas de pluralización en castellano para ser utilizada concretamente en el procesamiento de términos especializados, ya que con frecuencia estos no se encuentran registrados en los diccionarios de lengua general y, por tanto, no son reconocidos su categoría y lema. Esto tiene consecuencias negativas en tareas como la extracción de terminología, especialmente en el caso de lenguas con riqueza morfológica. Enfrentamos el problema con un diseño en forma de cascada de reglas de sustitución, expresiones regulares y adquisición léxica a partir de corpus de grandes dimensiones. Los resultados experimentales muestran una reducción significativa de la tasa de error de dos etiquetadores ampliamente utilizados: TreeTagger y UDPipe. Ofrecemos una implementación en código abierto que funciona como posproceso del etiquetado.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"11 1","pages":"17-32"},"PeriodicalIF":0.6,"publicationDate":"2020-01-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"47339780","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Diagnoses of Alzheimer's Disease (AD) and Mild Cognitive Impairment (CCL) are based on the analysis of the patient's cognitive functions by administering cognitive and neuropsychological assessment batteries. The use of retelling narratives is common to help identify and quantify the degree of dementia. In general, one point is awarded for each unit recalled, and the final score represents the number of units recalled. In this paper, we evaluated two clinical tasks: the automatic identification of which elements of a retold narrative were recalled; and the binary classification of the narrative produced by a patient, having the units identified as attributes, aiming at an automatic screening of patients with cognitive impairment. We used two transcribed retelling data sets in which sentences were divided and manually annotated with the information units. These data sets were then made publicly available. They are: the Arizona Battery for Communication and Dementia Disorders (ABCD) that contains narratives of patients with CCL and Healthy Controls and the Avaliacao da Linguagem no Envelhecimento (BALE), which includes narratives of patients with AD and CCLs as well as Healthy Controls. We evaluated two methods based on semantic similarity, referred to here as STS and Chunking, and transformed the multi-label problem of identifying elements of a retold narrative into binary classification problems, finding a cutoff point for the similarity value of each information unit. In this way, we were able to overcome two baselines for the two datasets in the SubsetAccuracy metric, which is the most punitive for the multi-label scenario. In binary classification, however, not all six machine learning methods evaluated performed better than the baselines methods. For ABCD, the best methods were Decision Trees and KNN, and for BALE, SVM with RBF kernel stood out.
阿尔茨海默病(AD)和轻度认知障碍(CCL)的诊断是基于通过使用认知和神经心理评估电池对患者认知功能的分析。复述叙述的使用很常见,有助于识别和量化痴呆症的程度。一般情况下,每召回一个单位得一分,最终分数代表召回的单位数量。在这篇论文中,我们评估了两项临床任务:自动识别重述叙事的哪些元素被回忆起来;以及对患者产生的叙述进行二元分类,将单位确定为属性,旨在自动筛查认知障碍患者。我们使用了两个转录的复述数据集,其中的句子被划分,并用信息单元手动注释。这些数据集随后被公开。它们是:亚利桑那州沟通和痴呆症研究所(ABCD),其中包含CCL患者和健康对照组的叙述,以及Avaliacao da Lingagem no Envelhecimento(BALE),其中包括AD和CCL患者以及健康对照组。我们评估了两种基于语义相似性的方法,这里称为STS和Chunking,并将识别重述叙事元素的多标签问题转化为二元分类问题,为每个信息单元的相似性值找到了一个临界点。通过这种方式,我们能够克服SubsetCuracy度量中两个数据集的两个基线,这对多标签场景来说是最惩罚性的。然而,在二进制分类中,并非所有六种评估的机器学习方法都比基线方法表现得更好。对于ABCD,最好的方法是决策树和KNN,而对于BALE,带有RBF核的SVM尤为突出。
{"title":"Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica avaliação de métodos de similaridade semântica","authors":"L. Santos, Sandra M. Aluísio","doi":"10.21814/lm.11.2.304","DOIUrl":"https://doi.org/10.21814/lm.11.2.304","url":null,"abstract":"Diagnoses of Alzheimer's Disease (AD) and Mild Cognitive Impairment (CCL) are based on the analysis of the patient's cognitive functions by administering cognitive and neuropsychological assessment batteries. The use of retelling narratives is common to help identify and quantify the degree of dementia. In general, one point is awarded for each unit recalled, and the final score represents the number of units recalled. In this paper, we evaluated two clinical tasks: the automatic identification of which elements of a retold narrative were recalled; and the binary classification of the narrative produced by a patient, having the units identified as attributes, aiming at an automatic screening of patients with cognitive impairment. We used two transcribed retelling data sets in which sentences were divided and manually annotated with the information units. These data sets were then made publicly available. They are: the Arizona Battery for Communication and Dementia Disorders (ABCD) that contains narratives of patients with CCL and Healthy Controls and the Avaliacao da Linguagem no Envelhecimento (BALE), which includes narratives of patients with AD and CCLs as well as Healthy Controls. We evaluated two methods based on semantic similarity, referred to here as STS and Chunking, and transformed the multi-label problem of identifying elements of a retold narrative into binary classification problems, finding a cutoff point for the similarity value of each information unit. In this way, we were able to overcome two baselines for the two datasets in the SubsetAccuracy metric, which is the most punitive for the multi-label scenario. In binary classification, however, not all six machine learning methods evaluated performed better than the baselines methods. For ABCD, the best methods were Decision Trees and KNN, and for BALE, SVM with RBF kernel stood out.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"11 1","pages":"47-63"},"PeriodicalIF":0.6,"publicationDate":"2020-01-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"49441155","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
espanolUna integracion eficiente de un sistema de traduccion automatica (TA) en un flujo de traduccion conlleva la necesidad de distinguir entre oraciones que se benefician de la TA y las que no antes de que pasen a manos del traductor. En este trabajo, cuestionamos el uso por separado de las dimensiones de esfuerzo de posedicion de Krings (2001) para clasificar oraciones en aptas para traducir o poseditar al entrenar modelos de prediccion y abogamos por una estrategia multidimensional. A partir de una tarea de posedicion en un escenario real, se recogen mediciones de los tres parametros de esfuerzo, a saber, tiempo, tasa de palabras poseditadas, y percepcion del esfuerzo, como representativos de las tres dimensiones (temporal, tecnica y cognitiva). Los resultados muestran que, a pesar de que existen correlaciones entre las mediciones, los parametros difieren en la clasificacion de un numero elevado de oraciones. Concluimos que la estrategia multidimensional es necesaria para estimar el esfuerzo real de posedicion. EnglishAn efficient integration of a machine translation (MT) system within a translation flow entails the need to distinguish between sentences that benefit from MT and those that do not before they are presented to the translator. In this work we question the use of Krings' (2001) post-editing effort dimensions separately to classify sentences into suitable for translation or for post-editing when training predictions models and propose a multidimensional strategy instead. We collect measurements of three effort parameters, namely, time, number of post-edited words and perception of effort, as representative of the three dimensions (temporal, technical and cognitive) in a real post-editing task. The results show that, although there are correlations between the measurements, the effort parameters differ in the classification of a considerable number of sentences. We conclude that the multidimensional strategy is necessary to estimate the overall post-editing effort.
{"title":"Estrategia multidimensional para la selección de candidatos de traducción automática para posedición","authors":"Nora Aranberri","doi":"10.21814/lm.11.2.277","DOIUrl":"https://doi.org/10.21814/lm.11.2.277","url":null,"abstract":"espanolUna integracion eficiente de un sistema de traduccion automatica (TA) en un flujo de traduccion conlleva la necesidad de distinguir entre oraciones que se benefician de la TA y las que no antes de que pasen a manos del traductor. En este trabajo, cuestionamos el uso por separado de las dimensiones de esfuerzo de posedicion de Krings (2001) para clasificar oraciones en aptas para traducir o poseditar al entrenar modelos de prediccion y abogamos por una estrategia multidimensional. A partir de una tarea de posedicion en un escenario real, se recogen mediciones de los tres parametros de esfuerzo, a saber, tiempo, tasa de palabras poseditadas, y percepcion del esfuerzo, como representativos de las tres dimensiones (temporal, tecnica y cognitiva). Los resultados muestran que, a pesar de que existen correlaciones entre las mediciones, los parametros difieren en la clasificacion de un numero elevado de oraciones. Concluimos que la estrategia multidimensional es necesaria para estimar el esfuerzo real de posedicion. EnglishAn efficient integration of a machine translation (MT) system within a translation flow entails the need to distinguish between sentences that benefit from MT and those that do not before they are presented to the translator. In this work we question the use of Krings' (2001) post-editing effort dimensions separately to classify sentences into suitable for translation or for post-editing when training predictions models and propose a multidimensional strategy instead. We collect measurements of three effort parameters, namely, time, number of post-edited words and perception of effort, as representative of the three dimensions (temporal, technical and cognitive) in a real post-editing task. The results show that, although there are correlations between the measurements, the effort parameters differ in the classification of a considerable number of sentences. We conclude that the multidimensional strategy is necessary to estimate the overall post-editing effort.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"11 1","pages":"3-16"},"PeriodicalIF":0.6,"publicationDate":"2020-01-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"45688131","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
This paper aims to present a hierarchical clustering technique for the analysis of semantic and syntactic patterns of transitivity at clausal level. From an empirical and usage-based approach, this type of methodology has proved useful for the investigation of linguistic patterns to which speakers are exposed, reaching similar results found in theoretically categories. In a simple sampling procedure without replacement, 690 oral units were selected from a corpus of 23 oral interviews. These sentence units were analyzed in terms of nine transitivity parameters and their clausal syntax. The goal was to identify groups of sentences that share similarities in terms of this set of traits. The groups found reveal a kind of proto-conceptual meaning of the sentences, which includes correlated aspectual and actantial traits. The results show three basic micro-narrative scenarios on which the event expressed in clausal unfolds.
{"title":"O uso da análise de clusters na identificação de padrões de transitividade linguística","authors":"Marcus Lepesqueur, I. A. Reis","doi":"10.21814/lm.11.2.292","DOIUrl":"https://doi.org/10.21814/lm.11.2.292","url":null,"abstract":"This paper aims to present a hierarchical clustering technique for the analysis of semantic and syntactic patterns of transitivity at clausal level. From an empirical and usage-based approach, this type of methodology has proved useful for the investigation of linguistic patterns to which speakers are exposed, reaching similar results found in theoretically categories. In a simple sampling procedure without replacement, 690 oral units were selected from a corpus of 23 oral interviews. These sentence units were analyzed in terms of nine transitivity parameters and their clausal syntax. The goal was to identify groups of sentences that share similarities in terms of this set of traits. The groups found reveal a kind of proto-conceptual meaning of the sentences, which includes correlated aspectual and actantial traits. The results show three basic micro-narrative scenarios on which the event expressed in clausal unfolds.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"11 1","pages":"33-45"},"PeriodicalIF":0.6,"publicationDate":"2020-01-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"43469010","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Esta presentación de dous prototipos de xeración automática de lingua natural achega unha visión de conxunto da metodoloxía aplicada na descrición e procesamento dos datos lingüísticos, así como das técnicas e ferramentas xa existentes ou desenvolvidas co fin de garantir o funcionamento dos simuladores en alemán, español e francés.
{"title":"Aplicación de WordNet e de word embeddings no desenvolvemento de prototipos para a xeración automática da lingua","authors":"María José Domínguez Vázquez","doi":"10.21814/lm.12.2.337","DOIUrl":"https://doi.org/10.21814/lm.12.2.337","url":null,"abstract":"Esta presentación de dous prototipos de xeración automática de lingua natural achega unha visión de conxunto da metodoloxía aplicada na descrición e procesamento dos datos lingüísticos, así como das técnicas e ferramentas xa existentes ou desenvolvidas co fin de garantir o funcionamento dos simuladores en alemán, español e francés.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"12 1","pages":"71-80"},"PeriodicalIF":0.6,"publicationDate":"2020-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68367731","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Este artigo relata a preparação da anotação da coleção ELTeC-por com entidades mencionadas apropriadas ao género textual "romances e novelas publicadas entre 1840 e 1920", para possibilitar a leitura distante em português. Em primeiro lugar apresentamos a coleção ELTeC-por, compilada no âmbito da ação COST "Distant Reading for European Literary History" para estudar a literatura europeia, e explicamos as diversas restrições e escolhas necessárias, fornecendo uma caracterização inicial segundo vários eixos: a origem e tamanho das obras, o seu (sub)género literário, o género do autor, o local de publicação e a existência ou não de mais edições. Em seguida apresentamos o sistema PALAVRAS-NER, com o qual anotaremos a coleção, explicando detalhadamente o seu funcionamento. Passamos então à descrição da criação de uma subcoleção de oito obras revistas, que servem, por um lado, para avaliar o desempenho do sistema de REM automático, e, por outro, para caracterizar o tipo de população esperada. As obras podem classificar-se segundo dois eixos diferentes: romances históricos vs. romances contemporâneos; e obras com grafia original ou grafia modernizada. Além disso, algumas obras são obviamente canónicas, outras não. Além da descrição quantitativa do resultado de anotação e revisão, apresentamos algumas considerações qualitativas sobre o processo. Também fornecemos uma análise detalhada de algumas categorias, tentando mostrar como os lugares, profissões e gentílicos mais mencionados podem ser indicadores numa leitura distante. Concluímos comparando com o trabalho internacional feito na análise de entidades mencionadas de obras literárias, explicando as diferenças e sugerindo trabalho futuro.
{"title":"Avaliando entidades mencionadas na coleção ELTeC-por","authors":"Diana Santos, Eckhard Bick, Marcin Wlodek","doi":"10.21814/lm.12.2.336","DOIUrl":"https://doi.org/10.21814/lm.12.2.336","url":null,"abstract":"Este artigo relata a preparação da anotação da coleção ELTeC-por com entidades mencionadas apropriadas ao género textual \"romances e novelas publicadas entre 1840 e 1920\", para possibilitar a leitura distante em português. Em primeiro lugar apresentamos a coleção ELTeC-por, compilada no âmbito da ação COST \"Distant Reading for European Literary History\" para estudar a literatura europeia, e explicamos as diversas restrições e escolhas necessárias, fornecendo uma caracterização inicial segundo vários eixos: a origem e tamanho das obras, o seu (sub)género literário, o género do autor, o local de publicação e a existência ou não de mais edições. Em seguida apresentamos o sistema PALAVRAS-NER, com o qual anotaremos a coleção, explicando detalhadamente o seu funcionamento. Passamos então à descrição da criação de uma subcoleção de oito obras revistas, que servem, por um lado, para avaliar o desempenho do sistema de REM automático, e, por outro, para caracterizar o tipo de população esperada. As obras podem classificar-se segundo dois eixos diferentes: romances históricos vs. romances contemporâneos; e obras com grafia original ou grafia modernizada. Além disso, algumas obras são obviamente canónicas, outras não. Além da descrição quantitativa do resultado de anotação e revisão, apresentamos algumas considerações qualitativas sobre o processo. Também fornecemos uma análise detalhada de algumas categorias, tentando mostrar como os lugares, profissões e gentílicos mais mencionados podem ser indicadores numa leitura distante. Concluímos comparando com o trabalho internacional feito na análise de entidades mencionadas de obras literárias, explicando as diferenças e sugerindo trabalho futuro.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"12 1","pages":"29-49"},"PeriodicalIF":0.6,"publicationDate":"2020-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68367478","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
A Adaptação Textual é uma grande área de pesquisa do Processamento de Línguas Naturais (PLN), bastante conhecida como prática educacional, e possui duas grandes abordagens: a Simplificação e a Elaboração Textual. Não há muitos trabalhos na literatura de PLN que tratam todas as fases da Adaptação Lexical para implementação de sistemas. Vários trabalhos tratam independentemente as tarefas de Simplificação e Elaboração Lexicais, trazendo contribuições parciais, já que cada uma das tarefas possuem seus próprios desafios. Este trabalho propôs um pipeline para a Adaptação Lexical e apresenta contribuições para três das quatro etapas do pipeline, sendo elas: (i) proposta e avaliação de métodos para a tarefa de Identificação de Palavras Complexas; (ii) análise de córpus para levantamento de padrões de Elaboração Lexical do tipo definição; (iii) disponibilização do córpus SIMPLEX-PB 3.0, contendo em sua nova versão definições curtas extraídas de dicionário que foram revisadas manualmente, anotações de termos técnicos extraídas de dicionário, e métricas linguísticas de complexidade lexical; e (iv) proposta e avaliação de métodos para Simplificação Lexical, estabelecendo um novo SOTA para a tarefa aplicada no Português Brasileiro.
{"title":"Adaptação Lexical Automática em Textos Informativos do Português Brasileiro para o Ensino Fundamental","authors":"Nathan Siegle Hartmann, Sandra M. Aluísio","doi":"10.21814/lm.12.2.323","DOIUrl":"https://doi.org/10.21814/lm.12.2.323","url":null,"abstract":"A Adaptação Textual é uma grande área de pesquisa do Processamento de Línguas Naturais (PLN), bastante conhecida como prática educacional, e possui duas grandes abordagens: a Simplificação e a Elaboração Textual. Não há muitos trabalhos na literatura de PLN que tratam todas as fases da Adaptação Lexical para implementação de sistemas. Vários trabalhos tratam independentemente as tarefas de Simplificação e Elaboração Lexicais, trazendo contribuições parciais, já que cada uma das tarefas possuem seus próprios desafios. Este trabalho propôs um pipeline para a Adaptação Lexical e apresenta contribuições para três das quatro etapas do pipeline, sendo elas: (i) proposta e avaliação de métodos para a tarefa de Identificação de Palavras Complexas; (ii) análise de córpus para levantamento de padrões de Elaboração Lexical do tipo definição; (iii) disponibilização do córpus SIMPLEX-PB 3.0, contendo em sua nova versão definições curtas extraídas de dicionário que foram revisadas manualmente, anotações de termos técnicos extraídas de dicionário, e métricas linguísticas de complexidade lexical; e (iv) proposta e avaliação de métodos para Simplificação Lexical, estabelecendo um novo SOTA para a tarefa aplicada no Português Brasileiro.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"12 1","pages":"3-27"},"PeriodicalIF":0.6,"publicationDate":"2020-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68367174","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Matilde Gonçalves, Luísa Coheur, J. Baptista, A. Mineiro
Têm sido desenvolvidas várias ferramentas para o processamento da língua portuguesa. No entanto, devido a escolhas variadas na base dos comportamentos destas ferramentas (diferentes opções de pré-processamento, diferentes conjuntos de etiquetas morfossintáticas e de dependências, etc.), torna-se difícil ter uma ideia do desempenho comparativo de cada uma. Neste trabalho, avaliamos um conjunto de ferramentas gratuitas e publicamente disponíveis, que realizam as tarefas de Etiquetação Morfossintática e de Reconhecimento de Entidades Mencionadas, para a língua portuguesa. São tidos em conta doze modelos diferentes para a primeira tarefa e oito para a segunda. Todos os recursos usados nesta avaliação (tabelas de mapeamento de etiquetas, corpora de referência, etc.) são disponibilizados, permitindo replicar/afinar os resultados. Apresentamos ainda um estudo qualitativo de dois analisadores de dependências. Não temos conhecimento de nenhum trabalho similar recente, isto é, que tenha em conta as ferramentas atuais disponíveis, realizado para a língua portuguesa.
{"title":"Avaliação de recursos computacionais para o português","authors":"Matilde Gonçalves, Luísa Coheur, J. Baptista, A. Mineiro","doi":"10.21814/lm.12.2.331","DOIUrl":"https://doi.org/10.21814/lm.12.2.331","url":null,"abstract":"Têm sido desenvolvidas várias ferramentas para o processamento da língua portuguesa. No entanto, devido a escolhas variadas na base dos comportamentos destas ferramentas (diferentes opções de pré-processamento, diferentes conjuntos de etiquetas morfossintáticas e de dependências, etc.), torna-se difícil ter uma ideia do desempenho comparativo de cada uma. Neste trabalho, avaliamos um conjunto de ferramentas gratuitas e publicamente disponíveis, que realizam as tarefas de Etiquetação Morfossintática e de Reconhecimento de Entidades Mencionadas, para a língua portuguesa. São tidos em conta doze modelos diferentes para a primeira tarefa e oito para a segunda. Todos os recursos usados nesta avaliação (tabelas de mapeamento de etiquetas, corpora de referência, etc.) são disponibilizados, permitindo replicar/afinar os resultados. Apresentamos ainda um estudo qualitativo de dois analisadores de dependências. Não temos conhecimento de nenhum trabalho similar recente, isto é, que tenha em conta as ferramentas atuais disponíveis, realizado para a língua portuguesa.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"12 1","pages":"51-68"},"PeriodicalIF":0.6,"publicationDate":"2020-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68367392","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
espanolEl analisis automatico de informacion(textos) sobre el suicidio se ha convertido en un reto para el campo de investigacion en linguistica computacional, cada vez mas, son necesarias herramientas que ayuden a disminuir las tasas de suicidios, por ejemplo, extraer las causas para apoyar en su deteccion temprana. Los aspectos linguisticos en los textos en Espanol, tales como frases clave o partes de la oracion, pueden ayudar en dicha tarea. Por ello, en este articulo se presenta un enfoque computacional para la extraccion y analisis de causas a partir de cabeceras de reportes periodisticos sobre el suicidio en espanol. La tarea de extraccion automatica de causas de suicidio es llevada a cabo mediante marcadores linguisticos basados en verbos, conectores, preposiciones y conjunciones. Por su parte, el analisis de las causas de suicidio es realizado en dos enfoques: a) un analisis centrado en frases verbales y nominales, estudiando la presencia de la negacion; b) un analisis centrado en la frecuencia de los unigramas y bigramas de palabras. Ambos analisis muestran resultados prometedores, los cuales son utiles para conocer los motivos de los suicidios reportados en Mexico en un periodo determinado. Finalmente, se obtiene una coleccion de 581 causas del suicidio. EnglishThe automatic analysis of suicide data(texts) has become a challenge for the computational linguistics research field, increasingly, tools are needed to help reduce suicide rates, for example, by extracting the suicide causes in order to support their early detection. Linguistic aspects in Spanish texts, such as cue phrases or parts of speech, can help in this task. Therefore, this paper presents a computational approach to the extraction and analysis of suicide causes from news reports in Spanish. The automatic extraction of suicide causes is carried out through linguistic markers based on verbs, connectors, prepositions and conjunctions. On the other hand, the analysis of the suicides causes is performed in two approaches: a) an analysis focused on verbal and noun phrases, studying the presence of the negation; b) an analysis on the frequency about unigrams or bigrams of words. Both analyzes show promising and correlated results, which are useful for recognizing the suicide causes reported in Mexico in a given period. Finally, a corpus is obtained with a collection of 581 suicide causes.
关于自杀的信息(文本)的自动分析已经成为计算语言学研究领域的一个挑战,越来越需要帮助降低自杀率的工具,例如,提取原因,以支持其早期检测。在这种情况下,重要的是要记住,在祷告的时候,祷告的内容是非常重要的。因此,本文提出了一种计算方法来提取和分析西班牙语报纸报道的自杀原因。自动提取自杀原因的任务是通过基于动词、连接词、介词和连词的语言标记来完成的。对自杀原因的分析有两种方法:a)以口头和名义短语为中心的分析,研究否认的存在;b)以单词的单字和双字频率为中心的分析。这两种分析都显示出有希望的结果,这有助于了解墨西哥在特定时期报告的自杀原因。最后,收集了581个自杀原因。自杀数据(文本)的自动分析已经成为计算语言学研究领域的一个挑战,越来越需要工具来帮助降低自杀率,例如,提取自杀原因以支持早期检测。= =地理= =根据美国人口普查,这个县的面积为。因此,本文提出了一种从西班牙语新闻报道中提取和分析自杀原因的计算方法。The automatic提取的自杀造成is through linguistic markers based on verbs connectors, prepositions and conjunctions。另一方面,对自杀原因的分析采用两种方法:(a)着重于动词和名词句的分析,研究否定的存在;= =地理= =根据美国人口普查,该镇的土地面积为。这两种分析都显示出有希望和相关的结果,这些结果有助于确认墨西哥某一特定时期报告的自杀原因。最后,要的是取得with a collection of 581自杀造成的。
{"title":"Extracción y análisis de las causas de suicidio a través de marcadores lingüísticos en reportes periodísticos","authors":"J. A. Reyes-Ortíz, M. Tovar","doi":"10.21814/lm.11.2.276","DOIUrl":"https://doi.org/10.21814/lm.11.2.276","url":null,"abstract":"espanolEl analisis automatico de informacion(textos) sobre el suicidio se ha convertido en un reto para el campo de investigacion en linguistica computacional, cada vez mas, son necesarias herramientas que ayuden a disminuir las tasas de suicidios, por ejemplo, extraer las causas para apoyar en su deteccion temprana. Los aspectos linguisticos en los textos en Espanol, tales como frases clave o partes de la oracion, pueden ayudar en dicha tarea. Por ello, en este articulo se presenta un enfoque computacional para la extraccion y analisis de causas a partir de cabeceras de reportes periodisticos sobre el suicidio en espanol. La tarea de extraccion automatica de causas de suicidio es llevada a cabo mediante marcadores linguisticos basados en verbos, conectores, preposiciones y conjunciones. Por su parte, el analisis de las causas de suicidio es realizado en dos enfoques: a) un analisis centrado en frases verbales y nominales, estudiando la presencia de la negacion; b) un analisis centrado en la frecuencia de los unigramas y bigramas de palabras. Ambos analisis muestran resultados prometedores, los cuales son utiles para conocer los motivos de los suicidios reportados en Mexico en un periodo determinado. Finalmente, se obtiene una coleccion de 581 causas del suicidio. EnglishThe automatic analysis of suicide data(texts) has become a challenge for the computational linguistics research field, increasingly, tools are needed to help reduce suicide rates, for example, by extracting the suicide causes in order to support their early detection. Linguistic aspects in Spanish texts, such as cue phrases or parts of speech, can help in this task. Therefore, this paper presents a computational approach to the extraction and analysis of suicide causes from news reports in Spanish. The automatic extraction of suicide causes is carried out through linguistic markers based on verbs, connectors, prepositions and conjunctions. On the other hand, the analysis of the suicides causes is performed in two approaches: a) an analysis focused on verbal and noun phrases, studying the presence of the negation; b) an analysis on the frequency about unigrams or bigrams of words. Both analyzes show promising and correlated results, which are useful for recognizing the suicide causes reported in Mexico in a given period. Finally, a corpus is obtained with a collection of 581 suicide causes.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"11 1","pages":"67-77"},"PeriodicalIF":0.6,"publicationDate":"2020-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68367560","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Fernanda López-Escobedo, Gerardo E Sierra, Julián Solórzano-Soto
La estilometría es la cuantificación del estilo por medio de la búsqueda de rasgos textuales que sean medibles y representativos del estilo de un autor. No existen muchas aplicaciones dirigidas al público en general que permitan realizar estudios de esta naturaleza, y las que existen son relativamente limitadas o no necesariamente amigables al usuario. En este artículo presentamos una aplicación web para análisis estilométrico. La aplicación está respaldada por un gestor de corpus, es de fácil manejo y presenta los resultados de manera intuitiva, sin dejar de lado la visión de ofrecer un catálogo exhaustivo de marcadores estilométricos y métodos de análisis.
{"title":"SAUTEE: un recurso en línea para análisis estilométricos","authors":"Fernanda López-Escobedo, Gerardo E Sierra, Julián Solórzano-Soto","doi":"10.21814/lm.11.1.270","DOIUrl":"https://doi.org/10.21814/lm.11.1.270","url":null,"abstract":"La estilometría es la cuantificación del estilo por medio de la búsqueda de rasgos textuales que sean medibles y representativos del estilo de un autor. No existen muchas aplicaciones dirigidas al público en general que permitan realizar estudios de esta naturaleza, y las que existen son relativamente limitadas o no necesariamente amigables al usuario. En este artículo presentamos una aplicación web para análisis estilométrico. La aplicación está respaldada por un gestor de corpus, es de fácil manejo y presenta los resultados de manera intuitiva, sin dejar de lado la visión de ofrecer un catálogo exhaustivo de marcadores estilométricos y métodos de análisis.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"11 1","pages":"69-81"},"PeriodicalIF":0.6,"publicationDate":"2019-07-20","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"48553529","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}