Новый метод автоматической классификации текстовых документов

Научно-техническая информация. Серия 2: Информационные процессы и системы Pub Date : 2021-01-01 DOI:10.36535/0548-0027-2021-06-5

В. А. Яцко, V. Yatsko

{"title":"Новый метод автоматической классификации текстовых документов","authors":"В. А. Яцко, V. Yatsko","doi":"10.36535/0548-0027-2021-06-5","DOIUrl":null,"url":null,"abstract":"Описываются процедуры и особенности применения нового метода автоматической классификации документов, основанного на вычислении отклонений распределения стоп-слов от коэффициента Ципфа. С целью нейтрализации разниц в размерах текстов применена и описана методика их выравнивания по нижнему пределу. Введено понятие итеративного порогового уровня, позволяющее сократить размер текста до нескольких десятков терминов. Разработаны показатели дискриминирующей и симилирующей силы и вычисляемый на их основе обобщённый показатель. Проведено 14 тестов, включая сопоставление с косинусной мерой близости документов, которые показали высокую эффективность предлагаемого метода при решении задач авторской атрибуции художественных и кластеризации политических текстов.","PeriodicalId":24076,"journal":{"name":"Научно-техническая информация. Серия 2: Информационные процессы и системы","volume":"6 1","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2021-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"1","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Научно-техническая информация. Серия 2: Информационные процессы и системы","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.36535/0548-0027-2021-06-5","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}

引用次数: 1

Abstract

Описываются процедуры и особенности применения нового метода автоматической классификации документов, основанного на вычислении отклонений распределения стоп-слов от коэффициента Ципфа. С целью нейтрализации разниц в размерах текстов применена и описана методика их выравнивания по нижнему пределу. Введено понятие итеративного порогового уровня, позволяющее сократить размер текста до нескольких десятков терминов. Разработаны показатели дискриминирующей и симилирующей силы и вычисляемый на их основе обобщённый показатель. Проведено 14 тестов, включая сопоставление с косинусной мерой близости документов, которые показали высокую эффективность предлагаемого метода при решении задач авторской атрибуции художественных и кластеризации политических текстов.

查看原文

微信好友朋友圈 QQ好友复制链接

本刊更多论文

文本文档自动分类的新方法

它描述了一种新的自动文件分类方法的程序和特性，它基于计算停止字的分布偏离齐普夫系数。为了消除文本大小的差异，使用并描述了它们在较低层次上对齐的方法。一个迭代阈值的概念被引入，使文本的大小减少到几十个术语。歧视和共和力量的指标已经被开发出来，并在其基础上被计算出来。进行了14项测试，其中包括将近似性措施与文件进行比较，这些测试显示了在解决政治文本的艺术属性和集群问题上拟议的方法的高效率。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文去求助

来源期刊

Научно-техническая информация. Серия 2: Информационные процессы и системы

自引率

0.00%

发文量