Extracción automática de unidades terminológicas guiada por Framenet: una aplicación al corpus electrónico CORD-19

IF 0.1 0 LANGUAGE & LINGUISTICS Estudios de Linguistica-Universidad de Alicante-ELUA Pub Date : 2022-07-19 DOI:10.14198/elua.22357
Mario Crespo Miguel
{"title":"Extracción automática de unidades terminológicas guiada por Framenet: una aplicación al corpus electrónico CORD-19","authors":"Mario Crespo Miguel","doi":"10.14198/elua.22357","DOIUrl":null,"url":null,"abstract":"La evolución de la terminología va unida a las nuevas tecnologías y al desarrollo de plataformas de trabajo o interfaces, que permitan crear un glosario técnico de forma semiautomática o incluso automática. Las unidades terminológicas y sus propiedades están conectadas a la expresión del conocimiento de los campos especializados en los que aparecen, por lo que estos enfoques automáticos no solo se enfrentan a la tarea de determinar cuáles son las unidades terminológicas de un campo determinado, sino a expresar cómo se estructura dicha información en esa disciplina. Muchas de las unidades terminológicas que se pueden encontrar en un ámbito científico determinado aparecen en otros campos e, incluso, en el uso general. Los términos suelen estar presentes en el acervo léxico de las lenguas y comparten con las unidades léxicas un complejo conjunto de relaciones. La semántica de marcos es un modelo particularmente atractivo para el trabajo terminológico, interesado en dar cuenta de la conexión entre la estructura conceptual de un campo de conocimiento especializado y los elementos utilizados para transmitir este conocimiento. Esto ha llevado a muchos investigadores a utilizar FrameNet como forma de representar la terminología. FrameNet es un recurso en línea para el inglés basado en la semántica de marcos y respaldado por pruebas de corpus. Un marco se fundamenta en el hecho de que ciertas palabras evocan determinadas situaciones en las que tienen lugar determinados participantes. Estas situaciones o marcos son estructuras estereotipadas que representan áreas de experiencia y conocimiento sociocultural. Presentamos un enfoque estadístico basado en corpus que es capaz de seleccionar los marcos de FrameNet que mejor representan un conjunto de textos electrónicos sobre COVID-19 e indicar cuáles de sus unidades léxicas funcionan como unidades terminológicas de ese corpus. Los resultados muestran cómo esta metodología puede ser un buen apoyo al trabajo terminográfico, ya que no solo permite la extracción de unidades terminológicas, sino el uso del esqueleto formal de FrameNet como medio para estructurar este conocimiento.","PeriodicalId":40982,"journal":{"name":"Estudios de Linguistica-Universidad de Alicante-ELUA","volume":"1 1","pages":""},"PeriodicalIF":0.1000,"publicationDate":"2022-07-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Estudios de Linguistica-Universidad de Alicante-ELUA","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.14198/elua.22357","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"0","JCRName":"LANGUAGE & LINGUISTICS","Score":null,"Total":0}
引用次数: 0

Abstract

La evolución de la terminología va unida a las nuevas tecnologías y al desarrollo de plataformas de trabajo o interfaces, que permitan crear un glosario técnico de forma semiautomática o incluso automática. Las unidades terminológicas y sus propiedades están conectadas a la expresión del conocimiento de los campos especializados en los que aparecen, por lo que estos enfoques automáticos no solo se enfrentan a la tarea de determinar cuáles son las unidades terminológicas de un campo determinado, sino a expresar cómo se estructura dicha información en esa disciplina. Muchas de las unidades terminológicas que se pueden encontrar en un ámbito científico determinado aparecen en otros campos e, incluso, en el uso general. Los términos suelen estar presentes en el acervo léxico de las lenguas y comparten con las unidades léxicas un complejo conjunto de relaciones. La semántica de marcos es un modelo particularmente atractivo para el trabajo terminológico, interesado en dar cuenta de la conexión entre la estructura conceptual de un campo de conocimiento especializado y los elementos utilizados para transmitir este conocimiento. Esto ha llevado a muchos investigadores a utilizar FrameNet como forma de representar la terminología. FrameNet es un recurso en línea para el inglés basado en la semántica de marcos y respaldado por pruebas de corpus. Un marco se fundamenta en el hecho de que ciertas palabras evocan determinadas situaciones en las que tienen lugar determinados participantes. Estas situaciones o marcos son estructuras estereotipadas que representan áreas de experiencia y conocimiento sociocultural. Presentamos un enfoque estadístico basado en corpus que es capaz de seleccionar los marcos de FrameNet que mejor representan un conjunto de textos electrónicos sobre COVID-19 e indicar cuáles de sus unidades léxicas funcionan como unidades terminológicas de ese corpus. Los resultados muestran cómo esta metodología puede ser un buen apoyo al trabajo terminográfico, ya que no solo permite la extracción de unidades terminológicas, sino el uso del esqueleto formal de FrameNet como medio para estructurar este conocimiento.
查看原文
分享 分享
微信好友 朋友圈 QQ好友 复制链接
本刊更多论文
框架网引导下术语单元的自动提取:电子语料库CORD-19的应用
术语的发展与新技术和工作平台或接口的发展有关,这些平台或接口允许以半自动甚至自动的方式创建技术术语表。单位terminológicas及其属性相连的专业领域知识的表达在自动出现,因此这些方法不仅面临的任务是确定哪一个单位terminológicas某一个领域,而是如何表达结构信息在这门学科。在一个特定的科学领域中可以找到的许多术语单位出现在其他领域,甚至在一般用途中。术语通常存在于语言的词汇集合中,并与词汇单位共享一组复杂的关系。框架语义对于术语工作来说是一个特别有吸引力的模型,它对解释专业知识领域的概念结构和用于传递该知识的元素之间的联系感兴趣。这导致许多研究人员使用框架网作为一种表示术语的方式。框架网是一个基于框架语义的在线英语资源,由语料库测试支持。框架是基于这样一个事实:某些词唤起了某些参与者发生的某些情况。这些情况或框架是代表社会文化经验和知识领域的刻板结构。我们提出了一种基于语料库的统计方法,该方法能够选择最能代表一组关于COVID-19的电子文本的框架网框架,并指出哪些词汇单位作为该语料库的术语单位。本研究的目的是分析在西班牙语和葡萄牙语中使用的术语单位,以及在西班牙语和葡萄牙语中使用的术语单位。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 去求助
来源期刊
自引率
0.00%
发文量
37
期刊最新文献
Reseña del libro: Vela Delfa, Cristina y Cantamutto, Lucía (2021). Los emojis en la interacción digital escrita A vueltas con la oposición imperfecto / pretérito perfecto simple. Ventajas descriptivas y pedagógicas de un enfoque temporal-epistémico Riqueza léxica en la producción escrita en español de alumnos chinos: un estudio basado en la teoría de los sistemas dinámicos complejos La dependencia sintáctica y la correlación temporal como valores definitorios de las formas verbales en la enseñanza del español como lengua extranjera. El caso del pretérito perfecto de subjuntivo Los valores del pretérito perfecto compuesto y del simple en las áreas geográficas del español: variación diatópica y tratamiento en ELE
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
已复制链接
已复制链接
快去分享给好友吧!
我知道了
×
扫码分享
扫码分享
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1