首页 > 最新文献

Linguamatica最新文献

英文 中文
Formalización de reglas para la detección del plural en castellano en el caso de unidades no diccionarizadas 在非重定向单位的情况下,用西班牙语检测复数的规则的形式化
IF 0.6 Q4 LINGUISTICS Pub Date : 2020-01-04 DOI: 10.21814/lm.11.2.285
Rogelio Nazar, Amparo Galdames
En este artículo ofrecemos una formalización de reglas de pluralización en castellano para ser utilizada concretamente en el procesamiento de términos especializados, ya que con frecuencia estos no se encuentran registrados en los diccionarios de lengua general y, por tanto, no son reconocidos su categoría y lema. Esto tiene consecuencias negativas en tareas como la extracción de terminología, especialmente en el caso de lenguas con riqueza morfológica. Enfrentamos el problema con un diseño en forma de cascada de reglas de sustitución, expresiones regulares y adquisición léxica a partir de corpus de grandes dimensiones. Los resultados experimentales muestran una reducción significativa de la tasa de error de dos etiquetadores ampliamente utilizados: TreeTagger y UDPipe. Ofrecemos una implementación en código abierto que funciona como posproceso del etiquetado.
在这篇文章中,我们提供了西班牙语多元化规则的形式化,专门用于处理专业术语,因为这些术语往往没有在通用语言词典中登记,因此其类别和口号没有得到承认。这对术语提取等任务产生了负面影响,特别是在形态丰富的语言中。我们面临的问题是以级联的形式设计替换规则、正则表达式和从大型语料库中获取词汇。实验结果表明,两种广泛使用的标记器:TreeTagger和UDPipe的错误率显著降低。我们提供一个开源实现,作为标签的后处理。
{"title":"Formalización de reglas para la detección del plural en castellano en el caso de unidades no diccionarizadas","authors":"Rogelio Nazar, Amparo Galdames","doi":"10.21814/lm.11.2.285","DOIUrl":"https://doi.org/10.21814/lm.11.2.285","url":null,"abstract":"En este artículo ofrecemos una formalización de reglas de pluralización en castellano para ser utilizada concretamente en el procesamiento de términos especializados, ya que con frecuencia estos no se encuentran registrados en los diccionarios de lengua general y, por tanto, no son reconocidos su categoría y lema. Esto tiene consecuencias negativas en tareas como la extracción de terminología, especialmente en el caso de lenguas con riqueza morfológica. Enfrentamos el problema con un diseño en forma de cascada de reglas de sustitución, expresiones regulares y adquisición léxica a partir de corpus de grandes dimensiones. Los resultados experimentales muestran una reducción significativa de la tasa de error de dos etiquetadores ampliamente utilizados: TreeTagger y UDPipe. Ofrecemos una implementación en código abierto que funciona como posproceso del etiquetado.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"11 1","pages":"17-32"},"PeriodicalIF":0.6,"publicationDate":"2020-01-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"47339780","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 1
Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica avaliação de métodos de similaridade semântica 基于语义相似度方法的叙事复述测试信息单元自动识别语义相似度方法评价
IF 0.6 Q4 LINGUISTICS Pub Date : 2020-01-04 DOI: 10.21814/lm.11.2.304
L. Santos, Sandra M. Aluísio
Diagnoses of Alzheimer's Disease (AD) and Mild Cognitive Impairment (CCL) are based on the analysis of the patient's cognitive functions by administering cognitive and neuropsychological assessment batteries. The use of retelling narratives is common to help identify and quantify the degree of dementia. In general, one point is awarded for each unit recalled, and the final score represents the number of units recalled. In this paper, we evaluated two clinical tasks: the automatic identification of which elements of a retold narrative were recalled; and the binary classification of the narrative produced by a patient, having the units identified as attributes, aiming at an automatic screening of patients with cognitive impairment. We used two transcribed retelling data sets in which sentences were divided and manually annotated with the information units. These data sets were then made publicly available. They are: the Arizona Battery for Communication and Dementia Disorders (ABCD) that contains narratives of patients with CCL and Healthy Controls and the Avaliacao da Linguagem no Envelhecimento (BALE), which includes narratives of patients with AD and CCLs as well as Healthy Controls. We evaluated two methods based on semantic similarity, referred to here as STS and Chunking, and transformed the multi-label problem of identifying elements of a retold narrative into binary classification problems, finding a cutoff point for the similarity value of each information unit. In this way, we were able to overcome two baselines for the two datasets in the SubsetAccuracy metric, which is the most punitive for the multi-label scenario. In binary classification, however, not all six machine learning methods evaluated performed better than the baselines methods. For ABCD, the best methods were Decision Trees and KNN, and for BALE, SVM with RBF kernel stood out.
阿尔茨海默病(AD)和轻度认知障碍(CCL)的诊断是基于通过使用认知和神经心理评估电池对患者认知功能的分析。复述叙述的使用很常见,有助于识别和量化痴呆症的程度。一般情况下,每召回一个单位得一分,最终分数代表召回的单位数量。在这篇论文中,我们评估了两项临床任务:自动识别重述叙事的哪些元素被回忆起来;以及对患者产生的叙述进行二元分类,将单位确定为属性,旨在自动筛查认知障碍患者。我们使用了两个转录的复述数据集,其中的句子被划分,并用信息单元手动注释。这些数据集随后被公开。它们是:亚利桑那州沟通和痴呆症研究所(ABCD),其中包含CCL患者和健康对照组的叙述,以及Avaliacao da Lingagem no Envelhecimento(BALE),其中包括AD和CCL患者以及健康对照组。我们评估了两种基于语义相似性的方法,这里称为STS和Chunking,并将识别重述叙事元素的多标签问题转化为二元分类问题,为每个信息单元的相似性值找到了一个临界点。通过这种方式,我们能够克服SubsetCuracy度量中两个数据集的两个基线,这对多标签场景来说是最惩罚性的。然而,在二进制分类中,并非所有六种评估的机器学习方法都比基线方法表现得更好。对于ABCD,最好的方法是决策树和KNN,而对于BALE,带有RBF核的SVM尤为突出。
{"title":"Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica avaliação de métodos de similaridade semântica","authors":"L. Santos, Sandra M. Aluísio","doi":"10.21814/lm.11.2.304","DOIUrl":"https://doi.org/10.21814/lm.11.2.304","url":null,"abstract":"Diagnoses of Alzheimer's Disease (AD) and Mild Cognitive Impairment (CCL) are based on the analysis of the patient's cognitive functions by administering cognitive and neuropsychological assessment batteries. The use of retelling narratives is common to help identify and quantify the degree of dementia. In general, one point is awarded for each unit recalled, and the final score represents the number of units recalled. In this paper, we evaluated two clinical tasks: the automatic identification of which elements of a retold narrative were recalled; and the binary classification of the narrative produced by a patient, having the units identified as attributes, aiming at an automatic screening of patients with cognitive impairment. We used two transcribed retelling data sets in which sentences were divided and manually annotated with the information units. These data sets were then made publicly available. They are: the Arizona Battery for Communication and Dementia Disorders (ABCD) that contains narratives of patients with CCL and Healthy Controls and the Avaliacao da Linguagem no Envelhecimento (BALE), which includes narratives of patients with AD and CCLs as well as Healthy Controls. We evaluated two methods based on semantic similarity, referred to here as STS and Chunking, and transformed the multi-label problem of identifying elements of a retold narrative into binary classification problems, finding a cutoff point for the similarity value of each information unit. In this way, we were able to overcome two baselines for the two datasets in the SubsetAccuracy metric, which is the most punitive for the multi-label scenario. In binary classification, however, not all six machine learning methods evaluated performed better than the baselines methods. For ABCD, the best methods were Decision Trees and KNN, and for BALE, SVM with RBF kernel stood out.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"11 1","pages":"47-63"},"PeriodicalIF":0.6,"publicationDate":"2020-01-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"49441155","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 1
Estrategia multidimensional para la selección de candidatos de traducción automática para posedición 为posed选择机器翻译候选人的多维策略
IF 0.6 Q4 LINGUISTICS Pub Date : 2020-01-04 DOI: 10.21814/lm.11.2.277
Nora Aranberri
espanolUna integracion eficiente de un sistema de traduccion automatica (TA) en un flujo de traduccion conlleva la necesidad de distinguir entre oraciones que se benefician de la TA y las que no antes de que pasen a manos del traductor. En este trabajo, cuestionamos el uso por separado de las dimensiones de esfuerzo de posedicion de Krings (2001) para clasificar oraciones en aptas para traducir o poseditar al entrenar modelos de prediccion y abogamos por una estrategia multidimensional. A partir de una tarea de posedicion en un escenario real, se recogen mediciones de los tres parametros de esfuerzo, a saber, tiempo, tasa de palabras poseditadas, y percepcion del esfuerzo, como representativos de las tres dimensiones (temporal, tecnica y cognitiva). Los resultados muestran que, a pesar de que existen correlaciones entre las mediciones, los parametros difieren en la clasificacion de un numero elevado de oraciones. Concluimos que la estrategia multidimensional es necesaria para estimar el esfuerzo real de posedicion. EnglishAn efficient integration of a machine translation (MT) system within a translation flow entails the need to distinguish between sentences that benefit from MT and those that do not before they are presented to the translator. In this work we question the use of Krings' (2001) post-editing effort dimensions separately to classify sentences into suitable for translation or for post-editing when training predictions models and propose a multidimensional strategy instead. We collect measurements of three effort parameters, namely, time, number of post-edited words and perception of effort, as representative of the three dimensions (temporal, technical and cognitive) in a real post-editing task. The results show that, although there are correlations between the measurements, the effort parameters differ in the classification of a considerable number of sentences. We conclude that the multidimensional strategy is necessary to estimate the overall post-editing effort.
将自动翻译(mt)系统有效地集成到翻译流程中,需要区分哪些句子受益于mt,哪些句子在到达译者手中之前没有。在本文中,我们质疑Krings(2001)在训练预测模型时使用波塞冬努力维度来将句子分类为适合翻译或波塞冬,并提倡多维策略。从一个真实场景中的posedicion任务中,收集了三个努力参数的测量值,即时间、被附词率和努力感知,作为三个维度(时间、技术和认知)的代表。结果表明,尽管测量之间存在相关性,但在大量句子的分类上参数不同。我们的结论是,多维策略是必要的,以估计波塞冬的实际努力。在翻译过程中,机器翻译(MT)系统的有效集成使得有必要区分从MT中受益的句子和之前没有呈现给译者的句子。在本文中,我们质疑使用Krings(2001)的后编辑工作维度分别将句子分类为适合翻译或后编辑的训练预测模型,并提出一个多维策略。我们收集三个努力参数的度量,即名称、时间、编辑后词语数量和对努力的感知,作为一个真实的编辑后任务中三个维度(时间、技术和认知)的代表。结果表明,虽然测量之间存在相关性,但在相当多的句子中,努力参数的分类存在差异。我们的结论是,需要多维战略来评估总体编辑后工作。
{"title":"Estrategia multidimensional para la selección de candidatos de traducción automática para posedición","authors":"Nora Aranberri","doi":"10.21814/lm.11.2.277","DOIUrl":"https://doi.org/10.21814/lm.11.2.277","url":null,"abstract":"espanolUna integracion eficiente de un sistema de traduccion automatica (TA) en un flujo de traduccion conlleva la necesidad de distinguir entre oraciones que se benefician de la TA y las que no antes de que pasen a manos del traductor. En este trabajo, cuestionamos el uso por separado de las dimensiones de esfuerzo de posedicion de Krings (2001) para clasificar oraciones en aptas para traducir o poseditar al entrenar modelos de prediccion y abogamos por una estrategia multidimensional. A partir de una tarea de posedicion en un escenario real, se recogen mediciones de los tres parametros de esfuerzo, a saber, tiempo, tasa de palabras poseditadas, y percepcion del esfuerzo, como representativos de las tres dimensiones (temporal, tecnica y cognitiva). Los resultados muestran que, a pesar de que existen correlaciones entre las mediciones, los parametros difieren en la clasificacion de un numero elevado de oraciones. Concluimos que la estrategia multidimensional es necesaria para estimar el esfuerzo real de posedicion. EnglishAn efficient integration of a machine translation (MT) system within a translation flow entails the need to distinguish between sentences that benefit from MT and those that do not before they are presented to the translator. In this work we question the use of Krings' (2001) post-editing effort dimensions separately to classify sentences into suitable for translation or for post-editing when training predictions models and propose a multidimensional strategy instead. We collect measurements of three effort parameters, namely, time, number of post-edited words and perception of effort, as representative of the three dimensions (temporal, technical and cognitive) in a real post-editing task. The results show that, although there are correlations between the measurements, the effort parameters differ in the classification of a considerable number of sentences. We conclude that the multidimensional strategy is necessary to estimate the overall post-editing effort.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"11 1","pages":"3-16"},"PeriodicalIF":0.6,"publicationDate":"2020-01-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"45688131","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 3
O uso da análise de clusters na identificação de padrões de transitividade linguística 聚类分析在语言及物性模式识别中的应用
IF 0.6 Q4 LINGUISTICS Pub Date : 2020-01-04 DOI: 10.21814/lm.11.2.292
Marcus Lepesqueur, I. A. Reis
This paper aims to present a hierarchical clustering technique for the analysis of semantic and syntactic patterns of transitivity at clausal level. From an empirical and usage-based approach, this type of methodology has proved useful for the investigation of linguistic patterns to which speakers are exposed, reaching similar results found in theoretically categories. In a simple sampling procedure without replacement, 690 oral units were selected from a corpus of 23 oral interviews. These sentence units were analyzed in terms of nine transitivity parameters and their clausal syntax. The goal was to identify groups of sentences that share similarities in terms of this set of traits. The groups found reveal a kind of proto-conceptual meaning of the sentences, which includes correlated aspectual and actantial traits. The results show three basic micro-narrative scenarios on which the event expressed in clausal unfolds.
本文提出了一种分层聚类技术,用于小句级及物性的语义和句法模式分析。从经验和基于使用的方法来看,这种方法被证明对研究说话者所接触的语言模式很有用,在理论范畴中也得到了类似的结果。在没有更换的简单抽样程序中,从23个口头访谈语料库中选择了690个口头单位。从9个及物性参数及其子句句法的角度分析了这些句子单元。目标是识别在这组特征上有相似之处的句子组。这些组揭示了句子的一种原概念意义,其中包括相关的方面和实际特征。结果显示了三个基本的微观叙事场景,小句表达的事件在这些场景上展开。
{"title":"O uso da análise de clusters na identificação de padrões de transitividade linguística","authors":"Marcus Lepesqueur, I. A. Reis","doi":"10.21814/lm.11.2.292","DOIUrl":"https://doi.org/10.21814/lm.11.2.292","url":null,"abstract":"This paper aims to present a hierarchical clustering technique for the analysis of semantic and syntactic patterns of transitivity at clausal level. From an empirical and usage-based approach, this type of methodology has proved useful for the investigation of linguistic patterns to which speakers are exposed, reaching similar results found in theoretically categories. In a simple sampling procedure without replacement, 690 oral units were selected from a corpus of 23 oral interviews. These sentence units were analyzed in terms of nine transitivity parameters and their clausal syntax. The goal was to identify groups of sentences that share similarities in terms of this set of traits. The groups found reveal a kind of proto-conceptual meaning of the sentences, which includes correlated aspectual and actantial traits. The results show three basic micro-narrative scenarios on which the event expressed in clausal unfolds.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"11 1","pages":"33-45"},"PeriodicalIF":0.6,"publicationDate":"2020-01-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"43469010","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
Aplicación de WordNet e de word embeddings no desenvolvemento de prototipos para a xeración automática da lingua WordNet和单词嵌入在语言自动生成原型开发中的应用
IF 0.6 Q4 LINGUISTICS Pub Date : 2020-01-01 DOI: 10.21814/lm.12.2.337
María José Domínguez Vázquez
Esta presentación de dous prototipos de xeración automática de lingua natural achega unha visión de conxunto da metodoloxía aplicada na descrición e procesamento dos datos lingüísticos, así como das técnicas e ferramentas xa existentes ou desenvolvidas co fin de garantir o funcionamento dos simuladores en alemán, español e francés.
自然语言自动生成的两个原型的介绍汇集了描述和处理语言数据的方法,以及已经存在或开发的技术和工具,以确保德语、西班牙语和法语模拟器的运行。
{"title":"Aplicación de WordNet e de word embeddings no desenvolvemento de prototipos para a xeración automática da lingua","authors":"María José Domínguez Vázquez","doi":"10.21814/lm.12.2.337","DOIUrl":"https://doi.org/10.21814/lm.12.2.337","url":null,"abstract":"Esta presentación de dous prototipos de xeración automática de lingua natural achega unha visión de conxunto da metodoloxía aplicada na descrición e procesamento dos datos lingüísticos, así como das técnicas e ferramentas xa existentes ou desenvolvidas co fin de garantir o funcionamento dos simuladores en alemán, español e francés.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"12 1","pages":"71-80"},"PeriodicalIF":0.6,"publicationDate":"2020-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68367731","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 2
Avaliando entidades mencionadas na coleção ELTeC-por 评估ELTeC-por集合中提到的实体
IF 0.6 Q4 LINGUISTICS Pub Date : 2020-01-01 DOI: 10.21814/lm.12.2.336
Diana Santos, Eckhard Bick, Marcin Wlodek
Este artigo relata a preparação da anotação da coleção ELTeC-por com entidades mencionadas apropriadas ao género textual "romances e novelas publicadas entre 1840 e 1920", para possibilitar a leitura distante em português. Em primeiro lugar apresentamos a coleção ELTeC-por, compilada no âmbito da ação COST "Distant Reading for European Literary History" para estudar a literatura europeia, e explicamos as diversas restrições e escolhas necessárias, fornecendo uma caracterização inicial segundo vários eixos: a origem e tamanho das obras, o seu (sub)género literário, o género do autor, o local de publicação e a existência ou não de mais edições. Em seguida apresentamos o sistema PALAVRAS-NER, com o qual anotaremos a coleção, explicando detalhadamente o seu funcionamento. Passamos então à descrição da criação de uma subcoleção de oito obras revistas, que servem, por um lado, para avaliar o desempenho do sistema de REM automático, e, por outro, para caracterizar o tipo de população esperada. As obras podem classificar-se segundo dois eixos diferentes: romances históricos vs. romances contemporâneos; e obras com grafia original ou grafia modernizada. Além disso, algumas obras são obviamente canónicas, outras não. Além da descrição quantitativa do resultado de anotação e revisão, apresentamos algumas considerações qualitativas sobre o processo. Também fornecemos uma análise detalhada de algumas categorias, tentando mostrar como os lugares, profissões e gentílicos mais mencionados podem ser indicadores numa leitura distante. Concluímos comparando com o trabalho internacional feito na análise de entidades mencionadas de obras literárias, explicando as diferenças e sugerindo trabalho futuro.
本文报告了ELTeC-por文集注释的准备工作,其中提到了适合于“1840年至1920年间出版的小说和小说”文本类型的实体,以使葡萄牙语远程阅读成为可能。首先我们收集ELTeC -作用下,编译成本”遥远的欧洲文学阅读欧洲历史研究文献及解释的各种限制和必要的选择,提供了一个描述初始根据各种轴:作品的来源和大小,你的(子)文学类型,作者,出版地点的性别和是否存在问题。接下来,我们将介绍palabras -NER系统,我们将用它来注释集合,详细解释它的操作。然后,我们描述了8个修订作品的子集合的创建,这些作品一方面用于评估自动快速眼动(REM)系统的性能,另一方面用于描述预期人群的类型。这些作品可以分为两个不同的轴:历史小说和当代小说;以及具有原始或现代化拼写的作品。此外,有些作品显然是规范的,有些则不是。除了对注释和修订结果的定量描述外,我们还对这一过程提出了一些定性的考虑。我们还提供了一些类别的详细分析,试图展示更多提到的地方、职业和氏族是如何在远处阅读的指标。最后,我们将上述文学作品实体的分析与国际工作进行了比较,解释了它们的差异,并提出了未来的工作建议。
{"title":"Avaliando entidades mencionadas na coleção ELTeC-por","authors":"Diana Santos, Eckhard Bick, Marcin Wlodek","doi":"10.21814/lm.12.2.336","DOIUrl":"https://doi.org/10.21814/lm.12.2.336","url":null,"abstract":"Este artigo relata a preparação da anotação da coleção ELTeC-por com entidades mencionadas apropriadas ao género textual \"romances e novelas publicadas entre 1840 e 1920\", para possibilitar a leitura distante em português. Em primeiro lugar apresentamos a coleção ELTeC-por, compilada no âmbito da ação COST \"Distant Reading for European Literary History\" para estudar a literatura europeia, e explicamos as diversas restrições e escolhas necessárias, fornecendo uma caracterização inicial segundo vários eixos: a origem e tamanho das obras, o seu (sub)género literário, o género do autor, o local de publicação e a existência ou não de mais edições. Em seguida apresentamos o sistema PALAVRAS-NER, com o qual anotaremos a coleção, explicando detalhadamente o seu funcionamento. Passamos então à descrição da criação de uma subcoleção de oito obras revistas, que servem, por um lado, para avaliar o desempenho do sistema de REM automático, e, por outro, para caracterizar o tipo de população esperada. As obras podem classificar-se segundo dois eixos diferentes: romances históricos vs. romances contemporâneos; e obras com grafia original ou grafia modernizada. Além disso, algumas obras são obviamente canónicas, outras não. Além da descrição quantitativa do resultado de anotação e revisão, apresentamos algumas considerações qualitativas sobre o processo. Também fornecemos uma análise detalhada de algumas categorias, tentando mostrar como os lugares, profissões e gentílicos mais mencionados podem ser indicadores numa leitura distante. Concluímos comparando com o trabalho internacional feito na análise de entidades mencionadas de obras literárias, explicando as diferenças e sugerindo trabalho futuro.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"12 1","pages":"29-49"},"PeriodicalIF":0.6,"publicationDate":"2020-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68367478","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 3
Adaptação Lexical Automática em Textos Informativos do Português Brasileiro para o Ensino Fundamental 巴西葡萄牙语小学信息文本的自动词汇适应
IF 0.6 Q4 LINGUISTICS Pub Date : 2020-01-01 DOI: 10.21814/lm.12.2.323
Nathan Siegle Hartmann, Sandra M. Aluísio
A Adaptação Textual é uma grande área de pesquisa do Processamento de Línguas Naturais (PLN), bastante conhecida como prática educacional, e possui duas grandes abordagens: a Simplificação e a Elaboração Textual. Não há muitos trabalhos na literatura de PLN que tratam todas as fases da Adaptação Lexical para implementação de sistemas. Vários trabalhos tratam independentemente as tarefas de Simplificação e Elaboração Lexicais, trazendo contribuições parciais, já que cada uma das tarefas possuem seus próprios desafios. Este trabalho propôs um pipeline para a Adaptação Lexical e apresenta contribuições para três das quatro etapas do pipeline, sendo elas: (i) proposta e avaliação de métodos para a tarefa de Identificação de Palavras Complexas; (ii) análise de córpus para levantamento de padrões de Elaboração Lexical do tipo definição; (iii) disponibilização do córpus SIMPLEX-PB 3.0, contendo em sua nova versão definições curtas extraídas de dicionário que foram revisadas manualmente, anotações de termos técnicos extraídas de dicionário, e métricas linguísticas de complexidade lexical; e (iv) proposta e avaliação de métodos para Simplificação Lexical, estabelecendo um novo SOTA para a tarefa aplicada no Português Brasileiro.
文本适应是自然语言处理(nlp)的一个大研究领域,被称为教育实践,它有两种主要的方法:简化和文本阐述。在nlp文献中,关于系统实现的词汇适应的所有阶段的研究并不多。一些研究独立地处理简化和词汇阐述的任务,带来了部分贡献,因为每个任务都有自己的挑战。本文提出了一个词汇适应的管道,并对管道的四个步骤中的三个步骤作出了贡献:(1)提出和评价复杂词识别任务的方法;(2)对复杂词识别任务的方法进行评价;(3)对复杂词识别任务的方法进行评价(ii)语料库分析,以提高定义类型的词汇阐述模式;(iii) SIMPLEX-PB 3.0语料库的可用性,在其新版本中包含从字典中提取的人工修订的简短定义、从字典中提取的技术术语的注释和词汇复杂性的语言指标;(iv)提出和评价词汇简化的方法,为巴西葡萄牙语的任务建立一个新的SOTA。
{"title":"Adaptação Lexical Automática em Textos Informativos do Português Brasileiro para o Ensino Fundamental","authors":"Nathan Siegle Hartmann, Sandra M. Aluísio","doi":"10.21814/lm.12.2.323","DOIUrl":"https://doi.org/10.21814/lm.12.2.323","url":null,"abstract":"A Adaptação Textual é uma grande área de pesquisa do Processamento de Línguas Naturais (PLN), bastante conhecida como prática educacional, e possui duas grandes abordagens: a Simplificação e a Elaboração Textual. Não há muitos trabalhos na literatura de PLN que tratam todas as fases da Adaptação Lexical para implementação de sistemas. Vários trabalhos tratam independentemente as tarefas de Simplificação e Elaboração Lexicais, trazendo contribuições parciais, já que cada uma das tarefas possuem seus próprios desafios. Este trabalho propôs um pipeline para a Adaptação Lexical e apresenta contribuições para três das quatro etapas do pipeline, sendo elas: (i) proposta e avaliação de métodos para a tarefa de Identificação de Palavras Complexas; (ii) análise de córpus para levantamento de padrões de Elaboração Lexical do tipo definição; (iii) disponibilização do córpus SIMPLEX-PB 3.0, contendo em sua nova versão definições curtas extraídas de dicionário que foram revisadas manualmente, anotações de termos técnicos extraídas de dicionário, e métricas linguísticas de complexidade lexical; e (iv) proposta e avaliação de métodos para Simplificação Lexical, estabelecendo um novo SOTA para a tarefa aplicada no Português Brasileiro.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"12 1","pages":"3-27"},"PeriodicalIF":0.6,"publicationDate":"2020-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68367174","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 7
Avaliação de recursos computacionais para o português 葡萄牙语计算资源评估
IF 0.6 Q4 LINGUISTICS Pub Date : 2020-01-01 DOI: 10.21814/lm.12.2.331
Matilde Gonçalves, Luísa Coheur, J. Baptista, A. Mineiro
Têm sido desenvolvidas várias ferramentas para o processamento da língua portuguesa. No entanto, devido a escolhas variadas na base dos comportamentos destas ferramentas (diferentes opções de pré-processamento, diferentes conjuntos de etiquetas morfossintáticas e de dependências, etc.), torna-se difícil ter uma ideia do desempenho comparativo de cada uma. Neste trabalho, avaliamos um conjunto de ferramentas gratuitas e publicamente disponíveis, que realizam as tarefas de Etiquetação Morfossintática e de Reconhecimento de Entidades Mencionadas, para a língua portuguesa. São tidos em conta doze modelos diferentes para a primeira tarefa e oito para a segunda. Todos os recursos usados nesta avaliação (tabelas de mapeamento de etiquetas, corpora de referência, etc.) são disponibilizados, permitindo replicar/afinar os resultados. Apresentamos ainda um estudo qualitativo de dois analisadores de dependências. Não temos conhecimento de nenhum trabalho similar recente, isto é, que tenha em conta as ferramentas atuais disponíveis, realizado para a língua portuguesa.
已经开发了几种处理葡萄牙语的工具。然而,由于基于这些工具行为的不同选择(不同的预处理选项,不同的形态句法标签集和依赖关系,等等),很难对每个工具的比较性能有一个概念。在这项工作中,我们评估了一套免费和公开可用的工具,用于执行葡萄牙语的形态句法标记和实体识别任务。第一个任务考虑了12个不同的模型,第二个任务考虑了8个不同的模型。评估中使用的所有资源(标签映射表、参考语料库等)都是可用的,允许复制/微调结果。我们还提出了两个依赖分析器的定性研究。我们不知道最近有任何类似的工作,也就是说,考虑到目前可用的工具,为葡萄牙语进行。
{"title":"Avaliação de recursos computacionais para o português","authors":"Matilde Gonçalves, Luísa Coheur, J. Baptista, A. Mineiro","doi":"10.21814/lm.12.2.331","DOIUrl":"https://doi.org/10.21814/lm.12.2.331","url":null,"abstract":"Têm sido desenvolvidas várias ferramentas para o processamento da língua portuguesa. No entanto, devido a escolhas variadas na base dos comportamentos destas ferramentas (diferentes opções de pré-processamento, diferentes conjuntos de etiquetas morfossintáticas e de dependências, etc.), torna-se difícil ter uma ideia do desempenho comparativo de cada uma. Neste trabalho, avaliamos um conjunto de ferramentas gratuitas e publicamente disponíveis, que realizam as tarefas de Etiquetação Morfossintática e de Reconhecimento de Entidades Mencionadas, para a língua portuguesa. São tidos em conta doze modelos diferentes para a primeira tarefa e oito para a segunda. Todos os recursos usados nesta avaliação (tabelas de mapeamento de etiquetas, corpora de referência, etc.) são disponibilizados, permitindo replicar/afinar os resultados. Apresentamos ainda um estudo qualitativo de dois analisadores de dependências. Não temos conhecimento de nenhum trabalho similar recente, isto é, que tenha em conta as ferramentas atuais disponíveis, realizado para a língua portuguesa.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"12 1","pages":"51-68"},"PeriodicalIF":0.6,"publicationDate":"2020-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68367392","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 1
Extracción y análisis de las causas de suicidio a través de marcadores lingüísticos en reportes periodísticos 通过新闻报道中的语言标记提取和分析自杀原因
IF 0.6 Q4 LINGUISTICS Pub Date : 2020-01-01 DOI: 10.21814/lm.11.2.276
J. A. Reyes-Ortíz, M. Tovar
espanolEl analisis automatico de informacion(textos) sobre el suicidio se ha convertido en un reto para el campo de investigacion en linguistica computacional, cada vez mas, son necesarias herramientas que ayuden a disminuir las tasas de suicidios, por ejemplo, extraer las causas para apoyar en su deteccion temprana. Los aspectos linguisticos en los textos en Espanol, tales como frases clave o partes de la oracion, pueden ayudar en dicha tarea. Por ello, en este articulo se presenta un enfoque computacional para la extraccion y analisis de causas a partir de cabeceras de reportes periodisticos sobre el suicidio en espanol. La tarea de extraccion automatica de causas de suicidio es llevada a cabo mediante marcadores linguisticos basados en verbos, conectores, preposiciones y conjunciones. Por su parte, el analisis de las causas de suicidio es realizado en dos enfoques: a) un analisis centrado en frases verbales y nominales, estudiando la presencia de la negacion; b) un analisis centrado en la frecuencia de los unigramas y bigramas de palabras. Ambos analisis muestran resultados prometedores, los cuales son utiles para conocer los motivos de los suicidios reportados en Mexico en un periodo determinado. Finalmente, se obtiene una coleccion de 581 causas del suicidio. EnglishThe automatic analysis of suicide data(texts) has become a challenge for the computational linguistics research field, increasingly, tools are needed to help reduce suicide rates, for example, by extracting the suicide causes in order to support their early detection. Linguistic aspects in Spanish texts, such as cue phrases or parts of speech, can help in this task. Therefore, this paper presents a computational approach to the extraction and analysis of suicide causes from news reports in Spanish. The automatic extraction of suicide causes is carried out through linguistic markers based on verbs, connectors, prepositions and conjunctions. On the other hand, the analysis of the suicides causes is performed in two approaches: a) an analysis focused on verbal and noun phrases, studying the presence of the negation; b) an analysis on the frequency about unigrams or bigrams of words. Both analyzes show promising and correlated results, which are useful for recognizing the suicide causes reported in Mexico in a given period. Finally, a corpus is obtained with a collection of 581 suicide causes.
关于自杀的信息(文本)的自动分析已经成为计算语言学研究领域的一个挑战,越来越需要帮助降低自杀率的工具,例如,提取原因,以支持其早期检测。在这种情况下,重要的是要记住,在祷告的时候,祷告的内容是非常重要的。因此,本文提出了一种计算方法来提取和分析西班牙语报纸报道的自杀原因。自动提取自杀原因的任务是通过基于动词、连接词、介词和连词的语言标记来完成的。对自杀原因的分析有两种方法:a)以口头和名义短语为中心的分析,研究否认的存在;b)以单词的单字和双字频率为中心的分析。这两种分析都显示出有希望的结果,这有助于了解墨西哥在特定时期报告的自杀原因。最后,收集了581个自杀原因。自杀数据(文本)的自动分析已经成为计算语言学研究领域的一个挑战,越来越需要工具来帮助降低自杀率,例如,提取自杀原因以支持早期检测。= =地理= =根据美国人口普查,这个县的面积为。因此,本文提出了一种从西班牙语新闻报道中提取和分析自杀原因的计算方法。The automatic提取的自杀造成is through linguistic markers based on verbs connectors, prepositions and conjunctions。另一方面,对自杀原因的分析采用两种方法:(a)着重于动词和名词句的分析,研究否定的存在;= =地理= =根据美国人口普查,该镇的土地面积为。这两种分析都显示出有希望和相关的结果,这些结果有助于确认墨西哥某一特定时期报告的自杀原因。最后,要的是取得with a collection of 581自杀造成的。
{"title":"Extracción y análisis de las causas de suicidio a través de marcadores lingüísticos en reportes periodísticos","authors":"J. A. Reyes-Ortíz, M. Tovar","doi":"10.21814/lm.11.2.276","DOIUrl":"https://doi.org/10.21814/lm.11.2.276","url":null,"abstract":"espanolEl analisis automatico de informacion(textos) sobre el suicidio se ha convertido en un reto para el campo de investigacion en linguistica computacional, cada vez mas, son necesarias herramientas que ayuden a disminuir las tasas de suicidios, por ejemplo, extraer las causas para apoyar en su deteccion temprana. Los aspectos linguisticos en los textos en Espanol, tales como frases clave o partes de la oracion, pueden ayudar en dicha tarea. Por ello, en este articulo se presenta un enfoque computacional para la extraccion y analisis de causas a partir de cabeceras de reportes periodisticos sobre el suicidio en espanol. La tarea de extraccion automatica de causas de suicidio es llevada a cabo mediante marcadores linguisticos basados en verbos, conectores, preposiciones y conjunciones. Por su parte, el analisis de las causas de suicidio es realizado en dos enfoques: a) un analisis centrado en frases verbales y nominales, estudiando la presencia de la negacion; b) un analisis centrado en la frecuencia de los unigramas y bigramas de palabras. Ambos analisis muestran resultados prometedores, los cuales son utiles para conocer los motivos de los suicidios reportados en Mexico en un periodo determinado. Finalmente, se obtiene una coleccion de 581 causas del suicidio. EnglishThe automatic analysis of suicide data(texts) has become a challenge for the computational linguistics research field, increasingly, tools are needed to help reduce suicide rates, for example, by extracting the suicide causes in order to support their early detection. Linguistic aspects in Spanish texts, such as cue phrases or parts of speech, can help in this task. Therefore, this paper presents a computational approach to the extraction and analysis of suicide causes from news reports in Spanish. The automatic extraction of suicide causes is carried out through linguistic markers based on verbs, connectors, prepositions and conjunctions. On the other hand, the analysis of the suicides causes is performed in two approaches: a) an analysis focused on verbal and noun phrases, studying the presence of the negation; b) an analysis on the frequency about unigrams or bigrams of words. Both analyzes show promising and correlated results, which are useful for recognizing the suicide causes reported in Mexico in a given period. Finally, a corpus is obtained with a collection of 581 suicide causes.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"11 1","pages":"67-77"},"PeriodicalIF":0.6,"publicationDate":"2020-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68367560","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
SAUTEE: un recurso en línea para análisis estilométricos SAUTEE:风格分析的在线资源
IF 0.6 Q4 LINGUISTICS Pub Date : 2019-07-20 DOI: 10.21814/lm.11.1.270
Fernanda López-Escobedo, Gerardo E Sierra, Julián Solórzano-Soto
La estilometría es la cuantificación del estilo por medio de la búsqueda de rasgos textuales que sean medibles y representativos del estilo de un autor. No existen muchas aplicaciones dirigidas al público en general que permitan realizar estudios de esta naturaleza, y las que existen son relativamente limitadas o no necesariamente amigables al usuario. En este artículo presentamos una aplicación web para análisis estilométrico. La aplicación está respaldada por un gestor de corpus, es de fácil manejo y presenta los resultados de manera intuitiva, sin dejar de lado la visión de ofrecer un catálogo exhaustivo de marcadores estilométricos y métodos de análisis.
文体测量法是通过寻找可测量的、能代表作者风格的文本特征来量化风格的方法。目前还没有许多面向公众的应用程序允许进行这种性质的研究,现有的应用程序相对有限或不一定对用户友好。在本文中,我们介绍了一个用于风格分析的web应用程序。该应用程序由语料库管理器支持,易于使用,并以直观的方式显示结果,同时不放弃提供风格标记和分析方法的详尽目录的愿景。
{"title":"SAUTEE: un recurso en línea para análisis estilométricos","authors":"Fernanda López-Escobedo, Gerardo E Sierra, Julián Solórzano-Soto","doi":"10.21814/lm.11.1.270","DOIUrl":"https://doi.org/10.21814/lm.11.1.270","url":null,"abstract":"La estilometría es la cuantificación del estilo por medio de la búsqueda de rasgos textuales que sean medibles y representativos del estilo de un autor. No existen muchas aplicaciones dirigidas al público en general que permitan realizar estudios de esta naturaleza, y las que existen son relativamente limitadas o no necesariamente amigables al usuario. En este artículo presentamos una aplicación web para análisis estilométrico. La aplicación está respaldada por un gestor de corpus, es de fácil manejo y presenta los resultados de manera intuitiva, sin dejar de lado la visión de ofrecer un catálogo exhaustivo de marcadores estilométricos y métodos de análisis.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"11 1","pages":"69-81"},"PeriodicalIF":0.6,"publicationDate":"2019-07-20","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"48553529","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 1
期刊
Linguamatica
全部 Acc. Chem. Res. ACS Applied Bio Materials ACS Appl. Electron. Mater. ACS Appl. Energy Mater. ACS Appl. Mater. Interfaces ACS Appl. Nano Mater. ACS Appl. Polym. Mater. ACS BIOMATER-SCI ENG ACS Catal. ACS Cent. Sci. ACS Chem. Biol. ACS Chemical Health & Safety ACS Chem. Neurosci. ACS Comb. Sci. ACS Earth Space Chem. ACS Energy Lett. ACS Infect. Dis. ACS Macro Lett. ACS Mater. Lett. ACS Med. Chem. Lett. ACS Nano ACS Omega ACS Photonics ACS Sens. ACS Sustainable Chem. Eng. ACS Synth. Biol. Anal. Chem. BIOCHEMISTRY-US Bioconjugate Chem. BIOMACROMOLECULES Chem. Res. Toxicol. Chem. Rev. Chem. Mater. CRYST GROWTH DES ENERG FUEL Environ. Sci. Technol. Environ. Sci. Technol. Lett. Eur. J. Inorg. Chem. IND ENG CHEM RES Inorg. Chem. J. Agric. Food. Chem. J. Chem. Eng. Data J. Chem. Educ. J. Chem. Inf. Model. J. Chem. Theory Comput. J. Med. Chem. J. Nat. Prod. J PROTEOME RES J. Am. Chem. Soc. LANGMUIR MACROMOLECULES Mol. Pharmaceutics Nano Lett. Org. Lett. ORG PROCESS RES DEV ORGANOMETALLICS J. Org. Chem. J. Phys. Chem. J. Phys. Chem. A J. Phys. Chem. B J. Phys. Chem. C J. Phys. Chem. Lett. Analyst Anal. Methods Biomater. Sci. Catal. Sci. Technol. Chem. Commun. Chem. Soc. Rev. CHEM EDUC RES PRACT CRYSTENGCOMM Dalton Trans. Energy Environ. Sci. ENVIRON SCI-NANO ENVIRON SCI-PROC IMP ENVIRON SCI-WAT RES Faraday Discuss. Food Funct. Green Chem. Inorg. Chem. Front. Integr. Biol. J. Anal. At. Spectrom. J. Mater. Chem. A J. Mater. Chem. B J. Mater. Chem. C Lab Chip Mater. Chem. Front. Mater. Horiz. MEDCHEMCOMM Metallomics Mol. Biosyst. Mol. Syst. Des. Eng. Nanoscale Nanoscale Horiz. Nat. Prod. Rep. New J. Chem. Org. Biomol. Chem. Org. Chem. Front. PHOTOCH PHOTOBIO SCI PCCP Polym. Chem.
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1