基于词汇和使用频率的文档自动主题分类。科学传播文章案例

IF 1 4区 管理学 Q3 INFORMATION SCIENCE & LIBRARY SCIENCE Revista Espanola De Documentacion Cientifica Pub Date : 2023-07-06 DOI:10.3989/redc.2023.3.1996
César González-Pérez, José Ignacio Vidal Liy, Ana María García García, Pablo Calleja Ibáñez
{"title":"基于词汇和使用频率的文档自动主题分类。科学传播文章案例","authors":"César González-Pérez, José Ignacio Vidal Liy, Ana María García García, Pablo Calleja Ibáñez","doi":"10.3989/redc.2023.3.1996","DOIUrl":null,"url":null,"abstract":"A menudo es necesario clasificar documentos asignándoles un tema de entre una serie de opciones predefinidas. Esta labor suele ser realizada manualmente, mediante la lectura del documento por parte de un especialista. Este proceso manual es tedioso, requiere tiempo y recursos, y es propenso a sesgos y preferencias de cada especialista. \nComo alternativa, en este artículo presentamos un sistema de clasificación temática automática, capaz de clasificar cientos de documentos en pocos segundos, altamente parametrizable, y que no requiere de la intervención de especialistas. El sistema se basa en vocabularios temáticos predefinidos y frecuencias de uso de formas léxicas, y asigna a cada documento uno o más temas priorizados. El enfoque sugerido se ha desarrollado y probado en el contexto de artículos de divulgación científica en español. \nUtilizando este enfoque, es posible clasificar temáticamente grandes cantidades de documentos de forma sistemática, usando menos recursos que si se hiciese de forma manual, y evitando sesgos desconocidos. El enfoque ha demostrado una efectividad comparable a la de otras propuestas, pero requiriendo menos recursos computacionales.","PeriodicalId":45937,"journal":{"name":"Revista Espanola De Documentacion Cientifica","volume":null,"pages":null},"PeriodicalIF":1.0000,"publicationDate":"2023-07-06","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"Clasificación temática automática de documentos basada en vocabularios y frecuencias de uso. El caso de artículos de divulgación científica\",\"authors\":\"César González-Pérez, José Ignacio Vidal Liy, Ana María García García, Pablo Calleja Ibáñez\",\"doi\":\"10.3989/redc.2023.3.1996\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"A menudo es necesario clasificar documentos asignándoles un tema de entre una serie de opciones predefinidas. Esta labor suele ser realizada manualmente, mediante la lectura del documento por parte de un especialista. Este proceso manual es tedioso, requiere tiempo y recursos, y es propenso a sesgos y preferencias de cada especialista. \\nComo alternativa, en este artículo presentamos un sistema de clasificación temática automática, capaz de clasificar cientos de documentos en pocos segundos, altamente parametrizable, y que no requiere de la intervención de especialistas. El sistema se basa en vocabularios temáticos predefinidos y frecuencias de uso de formas léxicas, y asigna a cada documento uno o más temas priorizados. El enfoque sugerido se ha desarrollado y probado en el contexto de artículos de divulgación científica en español. \\nUtilizando este enfoque, es posible clasificar temáticamente grandes cantidades de documentos de forma sistemática, usando menos recursos que si se hiciese de forma manual, y evitando sesgos desconocidos. El enfoque ha demostrado una efectividad comparable a la de otras propuestas, pero requiriendo menos recursos computacionales.\",\"PeriodicalId\":45937,\"journal\":{\"name\":\"Revista Espanola De Documentacion Cientifica\",\"volume\":null,\"pages\":null},\"PeriodicalIF\":1.0000,\"publicationDate\":\"2023-07-06\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Revista Espanola De Documentacion Cientifica\",\"FirstCategoryId\":\"91\",\"ListUrlMain\":\"https://doi.org/10.3989/redc.2023.3.1996\",\"RegionNum\":4,\"RegionCategory\":\"管理学\",\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"Q3\",\"JCRName\":\"INFORMATION SCIENCE & LIBRARY SCIENCE\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Revista Espanola De Documentacion Cientifica","FirstCategoryId":"91","ListUrlMain":"https://doi.org/10.3989/redc.2023.3.1996","RegionNum":4,"RegionCategory":"管理学","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q3","JCRName":"INFORMATION SCIENCE & LIBRARY SCIENCE","Score":null,"Total":0}
引用次数: 0

摘要

通常有必要通过从一系列预定义的选项中为文档分配主题来对文档进行分类。这项工作通常是通过专家阅读文件手动完成的。这一手工过程繁琐,需要时间和资源,容易受到每个专家的偏见和偏好的影响。另一种选择是,在这篇文章中,我们提出了一种自动主题分类系统,能够在几秒钟内对数百份文件进行分类,高度参数化,不需要专家的干预。该系统基于预先定义的主题词汇和词汇形式的使用频率,并为每个文档分配一个或多个优先主题。所建议的方法是在西班牙语科学传播文章的背景下开发和测试的。使用这种方法,可以系统地对大量文件进行主题分类,使用的资源比手工制作的资源少,并避免未知的偏见。该方法已被证明具有与其他提案相当的有效性,但需要较少的计算资源。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
查看原文
分享 分享
微信好友 朋友圈 QQ好友 复制链接
本刊更多论文
Clasificación temática automática de documentos basada en vocabularios y frecuencias de uso. El caso de artículos de divulgación científica
A menudo es necesario clasificar documentos asignándoles un tema de entre una serie de opciones predefinidas. Esta labor suele ser realizada manualmente, mediante la lectura del documento por parte de un especialista. Este proceso manual es tedioso, requiere tiempo y recursos, y es propenso a sesgos y preferencias de cada especialista. Como alternativa, en este artículo presentamos un sistema de clasificación temática automática, capaz de clasificar cientos de documentos en pocos segundos, altamente parametrizable, y que no requiere de la intervención de especialistas. El sistema se basa en vocabularios temáticos predefinidos y frecuencias de uso de formas léxicas, y asigna a cada documento uno o más temas priorizados. El enfoque sugerido se ha desarrollado y probado en el contexto de artículos de divulgación científica en español. Utilizando este enfoque, es posible clasificar temáticamente grandes cantidades de documentos de forma sistemática, usando menos recursos que si se hiciese de forma manual, y evitando sesgos desconocidos. El enfoque ha demostrado una efectividad comparable a la de otras propuestas, pero requiriendo menos recursos computacionales.
求助全文
通过发布文献求助,成功后即可免费获取论文全文。 去求助
来源期刊
Revista Espanola De Documentacion Cientifica
Revista Espanola De Documentacion Cientifica INFORMATION SCIENCE & LIBRARY SCIENCE-
CiteScore
2.20
自引率
8.30%
发文量
34
审稿时长
48 weeks
期刊介绍: Revista española de Documentación Científica (REDC) is a journal edited by the Instituto de Estudios Documentales sobre Ciencia y Tecnología (IEDCYT, formerly CINDOC) belonging to the Consejo Superior de Investigaciones Científicas (CSIC). It is published quarterly since 1977. The main objective of this journal is to contribute to the dissemination of knowledge amongst researchers in the field of Library and Information Science and those involved in the use of scientific, technical and strategic information for science policy and decision making. REDC includes research papers dealing with experimental and theoretical topics. The articles published in REDC include titles, abstracts and key-words in English in order to facilitate its international visibility.
期刊最新文献
Herramienta para la identificación y análisis de revistas depredadoras en ciencias biomédicas Alfabetización informacional y empoderamiento de las mujeres: enlaces teóricos para la promoción de la justicia social GeoAcademy: web platform and algorithm for automatic detection and location of geographic coordinates and toponyms in scientific articles Análisis de género de la producción científica española en psicología clínica (1971-2020) Análisis estratégico de la producción científica española por campos: Ciencias Naturales, Médicas y de la Vida
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
已复制链接
已复制链接
快去分享给好友吧!
我知道了
×
扫码分享
扫码分享
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1