César González-Pérez, José Ignacio Vidal Liy, Ana María García García, Pablo Calleja Ibáñez
{"title":"Clasificación temática automática de documentos basada en vocabularios y frecuencias de uso. El caso de artículos de divulgación científica","authors":"César González-Pérez, José Ignacio Vidal Liy, Ana María García García, Pablo Calleja Ibáñez","doi":"10.3989/redc.2023.3.1996","DOIUrl":null,"url":null,"abstract":"A menudo es necesario clasificar documentos asignándoles un tema de entre una serie de opciones predefinidas. Esta labor suele ser realizada manualmente, mediante la lectura del documento por parte de un especialista. Este proceso manual es tedioso, requiere tiempo y recursos, y es propenso a sesgos y preferencias de cada especialista. \nComo alternativa, en este artículo presentamos un sistema de clasificación temática automática, capaz de clasificar cientos de documentos en pocos segundos, altamente parametrizable, y que no requiere de la intervención de especialistas. El sistema se basa en vocabularios temáticos predefinidos y frecuencias de uso de formas léxicas, y asigna a cada documento uno o más temas priorizados. El enfoque sugerido se ha desarrollado y probado en el contexto de artículos de divulgación científica en español. \nUtilizando este enfoque, es posible clasificar temáticamente grandes cantidades de documentos de forma sistemática, usando menos recursos que si se hiciese de forma manual, y evitando sesgos desconocidos. El enfoque ha demostrado una efectividad comparable a la de otras propuestas, pero requiriendo menos recursos computacionales.","PeriodicalId":45937,"journal":{"name":"Revista Espanola De Documentacion Cientifica","volume":"1 1","pages":""},"PeriodicalIF":1.0000,"publicationDate":"2023-07-06","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Revista Espanola De Documentacion Cientifica","FirstCategoryId":"91","ListUrlMain":"https://doi.org/10.3989/redc.2023.3.1996","RegionNum":4,"RegionCategory":"管理学","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q3","JCRName":"INFORMATION SCIENCE & LIBRARY SCIENCE","Score":null,"Total":0}
引用次数: 0
Abstract
A menudo es necesario clasificar documentos asignándoles un tema de entre una serie de opciones predefinidas. Esta labor suele ser realizada manualmente, mediante la lectura del documento por parte de un especialista. Este proceso manual es tedioso, requiere tiempo y recursos, y es propenso a sesgos y preferencias de cada especialista.
Como alternativa, en este artículo presentamos un sistema de clasificación temática automática, capaz de clasificar cientos de documentos en pocos segundos, altamente parametrizable, y que no requiere de la intervención de especialistas. El sistema se basa en vocabularios temáticos predefinidos y frecuencias de uso de formas léxicas, y asigna a cada documento uno o más temas priorizados. El enfoque sugerido se ha desarrollado y probado en el contexto de artículos de divulgación científica en español.
Utilizando este enfoque, es posible clasificar temáticamente grandes cantidades de documentos de forma sistemática, usando menos recursos que si se hiciese de forma manual, y evitando sesgos desconocidos. El enfoque ha demostrado una efectividad comparable a la de otras propuestas, pero requiriendo menos recursos computacionales.
期刊介绍:
Revista española de Documentación Científica (REDC) is a journal edited by the Instituto de Estudios Documentales sobre Ciencia y Tecnología (IEDCYT, formerly CINDOC) belonging to the Consejo Superior de Investigaciones Científicas (CSIC). It is published quarterly since 1977. The main objective of this journal is to contribute to the dissemination of knowledge amongst researchers in the field of Library and Information Science and those involved in the use of scientific, technical and strategic information for science policy and decision making. REDC includes research papers dealing with experimental and theoretical topics. The articles published in REDC include titles, abstracts and key-words in English in order to facilitate its international visibility.