首页 > 最新文献

Научно-техническая информация. Серия 2: Информационные процессы и системы最新文献

英文 中文
Проблемы и методы автоматической классификации текстовых документов
В. А. Яцко, V. Yatsko
Представлен обзор основных проблем и методов автоматической классификации текстов. Рассматриваются такие темы, как: выбор исходного лингвистического материала; нейтрализация разницы в размерах текстов; применение дистантного и словарного подходов к классификации; уменьшение размерности текстов; создание словарей; адекватное взвешивание терминов; обучение и функционирование программы-классификатора. В доступной форме описываются процедуры выравнивания текстов по нижнему пределу и логарифмического выравнивания, алгоритмы вычисления косинусной меры близости, Z-коэффициента. Показаны особенности применения теоремы Байеса с целью частеречной классификации и фильтрации спама.
这是对文本自动分类的主要问题和方法的概述。讨论的主题包括:原始语言材料的选择;消除文本大小差异;使用远距离和词汇方法来分类;文本的尺寸减少;建立字典;适当称重术语;分级程序的培训和功能。可用的形式描述了下限和对数对齐的文本对齐程序、余弦亲密度计算算法、Z系数。贝叶斯定理的应用是为了广泛分类和过滤垃圾邮件。
{"title":"Проблемы и методы автоматической классификации текстовых документов","authors":"В. А. Яцко, V. Yatsko","doi":"10.36535/0548-0027-2021-11-4","DOIUrl":"https://doi.org/10.36535/0548-0027-2021-11-4","url":null,"abstract":"Представлен обзор основных проблем и методов автоматической классификации текстов. Рассматриваются такие темы, как: выбор исходного лингвистического материала; нейтрализация разницы в размерах текстов; применение дистантного и словарного подходов к классификации; уменьшение размерности текстов; создание словарей; адекватное взвешивание терминов; обучение и функционирование программы-классификатора. В доступной форме описываются процедуры выравнивания текстов по нижнему пределу и логарифмического выравнивания, алгоритмы вычисления косинусной меры близости, Z-коэффициента. Показаны особенности применения теоремы Байеса с целью частеречной классификации и фильтрации спама.","PeriodicalId":24076,"journal":{"name":"Научно-техническая информация. Серия 2: Информационные процессы и системы","volume":null,"pages":null},"PeriodicalIF":0.0,"publicationDate":"2021-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"88089569","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
Обоснование показателей для управления научными достижениями 科学成就管理指标的论证
П.А. Калачихин, P. Kalachikhin
Рассматривается проблема обоснования оптимального состава показателей, предназначенных для оценки достигнутых и прогнозирования новых научных достижений. Систематизируются типы показателей, которые обычно используются в управлении научными достижениями. Предлагается дифференцированный подход к выбору таких показателей в зависимости от разделов знания, к которым они относятся. Помимо наукометрических параметров разделов знания, перечисляются факторы, оказывающие влияние на формирование наборов показателей. Представлена разработка количественной модели соотношения типов показателей в составе их наборов на основе мер множеств и бинарных отношений порядка над числами. В рамках этой модели дается объяснение превалированию экспертных показателей. Решение о составе наборов показателей принимается на основании эвристических правил. Дается пример поиска оптимального соотношения типов показателей для прогнозирования достижений естественных наук и оценки достигнутых результатов гуманитарных наук.
正在考虑为评估所取得的成就和预测新的科学成就而制定的最佳指标组成的问题。通常用于管理科学成就的指标类型被系统化。根据知识的不同部分,对这些指标的选择采取了不同的方法。除了知识分区的科学参数外,还列出了影响指标集形成的因素。根据集合的度量和顺序对数字的二进制关系,拟订了一组指标类型的定量模型。这种模式解释了专家指标的盛行。关于指标集的组成的决定是基于启发式规则。为预测自然科学的成就和评估人文科学的成果提供了一个例子。
{"title":"Обоснование показателей для управления научными достижениями","authors":"П.А. Калачихин, P. Kalachikhin","doi":"10.36535/0548-0027-2021-03-2","DOIUrl":"https://doi.org/10.36535/0548-0027-2021-03-2","url":null,"abstract":"Рассматривается проблема обоснования оптимального состава показателей, предназначенных для оценки достигнутых и прогнозирования новых научных достижений. Систематизируются типы показателей, которые обычно используются в управлении научными достижениями. Предлагается дифференцированный подход к выбору таких показателей в зависимости от разделов знания, к которым они относятся. Помимо наукометрических параметров разделов знания, перечисляются факторы, оказывающие влияние на формирование наборов показателей. Представлена разработка количественной модели соотношения типов показателей в составе их наборов на основе мер множеств и бинарных отношений порядка над числами. В рамках этой модели дается объяснение превалированию экспертных показателей. Решение о составе наборов показателей принимается на основании эвристических правил. Дается пример поиска оптимального соотношения типов показателей для прогнозирования достижений естественных наук и оценки достигнутых результатов гуманитарных наук.","PeriodicalId":24076,"journal":{"name":"Научно-техническая информация. Серия 2: Информационные процессы и системы","volume":null,"pages":null},"PeriodicalIF":0.0,"publicationDate":"2021-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"82721471","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
Молекулярно-генетические алгоритмы кластеризации данных
И. В. Степанян, I. V. Stepanyan
Проводятся два обобщения представленных ранее авторских алгоритмов, основанных на принципах кодирования информации в молекулярной генетике. Первое позволяет учитывать частотные характеристики суб-алфавитных представлений полинуклеотидов, второе - производить обработку произвольных данных, представленных в четверичном коде. Оба обобщения свидетельствуют о значении предлагаемых алгоритмов, которые автор назвал молекулярно-генетическими или ДНКалгоритмами, подчеркивая их различие с известными генетическими алгоритмами Холландского типа. Приведен пример отображения результатов работы ДНКалгоритмов в частотной области с визуализацией кластерной структуры информации, что дает возможность проследить достаточно распространенную для ДНК структуру, состоящую из основного кластера и нескольких кластеров-сателлитов. Проанализированы тексты на естественном языке (морфологический и фонетический анализ) с обработкой ДНК-алгоритмами в структурной и частотной областях.
在分子遗传学中,之前提交的作者算法的两个概括是基于信息编码原则。第一个允许考虑亚字母表示的频率特征,第二个允许在四元代码中处理任意数据。这两种概括都表明了拟议算法的重要性,作者将其称为分子遗传学或dna,强调它们与已知的荷兰遗传算法的区别。这是一个dncalgoritm在频谱领域工作的例子,它显示了集群信息结构的可视化,从而能够追踪到由主集群和多个卫星集群组成的足够广泛的dna结构。对自然语言文本(形态和语音分析)进行分析,在结构和频率领域处理dna算法。
{"title":"Молекулярно-генетические алгоритмы кластеризации данных","authors":"И. В. Степанян, I. V. Stepanyan","doi":"10.36535/0548-0027-2021-01-1","DOIUrl":"https://doi.org/10.36535/0548-0027-2021-01-1","url":null,"abstract":"Проводятся два обобщения представленных ранее авторских алгоритмов, основанных на принципах кодирования информации в молекулярной генетике. Первое позволяет учитывать частотные характеристики суб-алфавитных представлений полинуклеотидов, второе - производить обработку произвольных данных, представленных в четверичном коде. Оба обобщения свидетельствуют о значении предлагаемых алгоритмов, которые автор назвал молекулярно-генетическими или ДНКалгоритмами, подчеркивая их различие с известными генетическими алгоритмами Холландского типа. Приведен пример отображения результатов работы ДНКалгоритмов в частотной области с визуализацией кластерной структуры информации, что дает возможность проследить достаточно распространенную для ДНК структуру, состоящую из основного кластера и нескольких кластеров-сателлитов. Проанализированы тексты на естественном языке (морфологический и фонетический анализ) с обработкой ДНК-алгоритмами в структурной и частотной областях.","PeriodicalId":24076,"journal":{"name":"Научно-техническая информация. Серия 2: Информационные процессы и системы","volume":null,"pages":null},"PeriodicalIF":0.0,"publicationDate":"2021-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"88790972","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
Модель эффективного управления при формировании производственного портфеля
Л А Мыльников, L.А. Mylnikov
Рассматриваются вопросы, связанные с генерацией и оценкой эффективности альтернативных решений при управлении портфелями проектов производственных систем (ПрС), а также алгоритмы генерации альтернативных портфелей проектов в условиях инвариантности их производства, комплектующих и материалов, построения и ранжирования траекторий развития ПрС с учётом состава портфеля проектов и требований по ресурсам и скорости развития этих систем. Предлагается система обозначений для описания процедурной модели управления портфелем проектов, которая может быть реализована алгоритмическими средствами.
审议有关生成和评估有效替代产能决策项目组合管理系统(ppa)、以及生成算法替代项目组合条件不变他们生产、零部件及材料建造和发展轨迹ppa排名为项目组合和资源要求和速度发展体系。提供了一个标识系统来描述项目组合管理的过程模型,可以用算法实现。
{"title":"Модель эффективного управления при формировании производственного портфеля","authors":"Л А Мыльников, L.А. Mylnikov","doi":"10.36535/0548-0027-2021-09-2","DOIUrl":"https://doi.org/10.36535/0548-0027-2021-09-2","url":null,"abstract":"Рассматриваются вопросы, связанные с генерацией и оценкой эффективности альтернативных решений при управлении портфелями проектов производственных систем (ПрС), а также алгоритмы генерации альтернативных портфелей проектов в условиях инвариантности их производства, комплектующих и материалов, построения и ранжирования траекторий развития ПрС с учётом состава портфеля проектов и требований по ресурсам и скорости развития этих систем. Предлагается система обозначений для описания процедурной модели управления портфелем проектов, которая может быть реализована алгоритмическими средствами.","PeriodicalId":24076,"journal":{"name":"Научно-техническая информация. Серия 2: Информационные процессы и системы","volume":null,"pages":null},"PeriodicalIF":0.0,"publicationDate":"2021-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"87834737","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
Цифровые лингвистические информационные ресурсы. Определение объекта и каталогизация 数字语言信息资源目标定义和编目
Александр Борисович Антопольский, А.B. Antopolsky
Обсуждается типология лингвистических информационных ресурсов (ЛИР), ставших важным инструментом прикладной лингвистики и информатики. Предлагается аналитический обзор международных организаций и проектов, специализирующихся в области ЛИР. Приводятся перечни зарубежных и российских каталогов, архивов и репозиториев ЛИР. Для развития ЛИР подчеркивается перспективность платформы связанных лингвистических открытых данных.
语言信息资源(里拉)的拓扑被讨论,成为应用语言学和信息学的重要工具。建议对国际组织和专门从事李尔河领域的项目进行分析。列有外国和俄罗斯目录、档案和李尔王藏品的清单。对于李尔国的发展,强调了连接语言开放数据平台的前景。
{"title":"Цифровые лингвистические информационные ресурсы. Определение объекта и каталогизация","authors":"Александр Борисович Антопольский, А.B. Antopolsky","doi":"10.36535/0548-0027-2021-03-4","DOIUrl":"https://doi.org/10.36535/0548-0027-2021-03-4","url":null,"abstract":"Обсуждается типология лингвистических информационных ресурсов (ЛИР), ставших важным инструментом прикладной лингвистики и информатики. Предлагается аналитический обзор международных организаций и проектов, специализирующихся в области ЛИР. Приводятся перечни зарубежных и российских каталогов, архивов и репозиториев ЛИР. Для развития ЛИР подчеркивается перспективность платформы связанных лингвистических открытых данных.","PeriodicalId":24076,"journal":{"name":"Научно-техническая информация. Серия 2: Информационные процессы и системы","volume":null,"pages":null},"PeriodicalIF":0.0,"publicationDate":"2021-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"80460421","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
Информационный анализ представленности женщин в советах директоров банков (по данным Scopus) 关于妇女在银行董事会中的代表性的信息分析(Scopus数据)
А. В. Михайленко, А.V. Mikhailenko, Н.В. Шрейдер, N.V. Shreider, В. А. Ермолаев, V. Ermolaev, Дмитрий Александрович Рубан, D. Ruban
Международные исследования, посвященные представленности женщин в советах директоров банков, быстро развиваются, и рассмотрение существенной выборки публикаций позволяет обобщить их результаты. Информационный анализ содержания 104 статей, опубликованных в международных научных журналах, выявляет их тематическое разнообразие и позволяет установить тематические и географические пробелы в исследуемой теме.
关于女性在银行董事会中的代表性的国际研究正在迅速发展,对重要出版物样本的审查使其成果得以概括。国际科学期刊上发表的104篇文章的信息分析显示了它们的主题多样性,并允许在研究主题中确定主题和地理差距。
{"title":"Информационный анализ представленности женщин в советах директоров банков (по данным Scopus)","authors":"А. В. Михайленко, А.V. Mikhailenko, Н.В. Шрейдер, N.V. Shreider, В. А. Ермолаев, V. Ermolaev, Дмитрий Александрович Рубан, D. Ruban","doi":"10.36535/0548-0027-2021-12-3","DOIUrl":"https://doi.org/10.36535/0548-0027-2021-12-3","url":null,"abstract":"Международные исследования, посвященные представленности женщин в советах директоров банков, быстро развиваются, и рассмотрение существенной выборки публикаций позволяет обобщить их результаты. Информационный анализ содержания 104 статей, опубликованных в международных научных журналах, выявляет их тематическое разнообразие и позволяет установить тематические и географические пробелы в исследуемой теме.","PeriodicalId":24076,"journal":{"name":"Научно-техническая информация. Серия 2: Информационные процессы и системы","volume":null,"pages":null},"PeriodicalIF":0.0,"publicationDate":"2021-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"78363355","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
Формализованная эвристика типологизации социума
Светлана Гавриловна Климова, S. G. Klimova, М.А. Михеенкова, М.А. Mikheyenkova, В.В. Руссович, V.V. Russovich
Рассматриваются проблемы формализации исследовательских эвристик, используемых в процессе эмпирической типологизации социальных объектов или явлений. Для решения этих проблем используются средства ДСМ-метода автоматизированной поддержки исследований. Представлены результаты изучения помогающего поведения, в том числе различных форм корпоративного и индивидуального волонтёрства. Выявлены значимые различия в некоторых детерминирующих факторах помогающего поведения. Предложены рекомендации для социальной политики компаний в отношении волонтёрской деятельности сотрудников.
研究启发者的正式化问题正在被考虑,这些问题是在实证社会对象或现象的数字化过程中使用的。为了解决这些问题,使用了自动支持研究的dcm方法。研究帮助行为的结果,包括各种形式的公司和个人志愿者。在一些帮助行为的决定性因素中发现了显著的差异。关于员工志愿者活动,公司的社会政策提出了建议。
{"title":"Формализованная эвристика типологизации социума","authors":"Светлана Гавриловна Климова, S. G. Klimova, М.А. Михеенкова, М.А. Mikheyenkova, В.В. Руссович, V.V. Russovich","doi":"10.36535/0548-0027-2021-12-2","DOIUrl":"https://doi.org/10.36535/0548-0027-2021-12-2","url":null,"abstract":"Рассматриваются проблемы формализации исследовательских эвристик, используемых в процессе эмпирической типологизации социальных объектов или явлений. Для решения этих проблем используются средства ДСМ-метода автоматизированной поддержки исследований. Представлены результаты изучения помогающего поведения, в том числе различных форм корпоративного и индивидуального волонтёрства. Выявлены значимые различия в некоторых детерминирующих факторах помогающего поведения. Предложены рекомендации для социальной политики компаний в отношении волонтёрской деятельности сотрудников.","PeriodicalId":24076,"journal":{"name":"Научно-техническая информация. Серия 2: Информационные процессы и системы","volume":null,"pages":null},"PeriodicalIF":0.0,"publicationDate":"2021-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"84267087","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
Об одном подходе к выделению имён сущностей и связей в задаче построения семантического поискового образа 在构建语义搜索图像的任务中识别实体名和连接的一种方法
Ольга Леонидовна Голицына, О.L. Golitsina, А.С. Гаврилкина, А.S. Gavrilkina
Представлены методы и средства выделения имён сущностей и связей на основе лексико-синтаксических шаблонов в рамках задачи семантического индексирования текстов документов. Содержание текста рассматривается как совокупность отражаемых триплетами элементарных фактов, включающих имена сущностей и отношений (имманентных, ситуативных и структурно-лингвистических). Для типизации ситуативных отношений используется таксономия отношений, в которой классы включают лингвистические конструкции; имманентные отношения формируются на основе сети понятий (тезауруса). Для идентификации свойств сущностей используется таксономия свойств и единиц измерения. Предложенный подход позволяет использовать в качестве поискового запроса имена сущностей, имена отношений, а также элементарные факты и составленные из них завершённые смысловые конструкции.
在语义文件文本索引的任务中,提供了基于词汇语法模板的实体和连接名称的方法和方法。文本内容被认为是三个基本事实的综合,包括实体和关系(语义、情境和结构)。语言学类包括语言学结构的关系分类,用来描述情境关系;关系是由概念网络(同义词典)形成的。实体的属性被用来识别属性和测量单位的分类。拟议的方法允许使用实体名称、关系名称以及基本事实及其构成的完整意义。
{"title":"Об одном подходе к выделению имён сущностей и связей в задаче построения семантического поискового образа","authors":"Ольга Леонидовна Голицына, О.L. Golitsina, А.С. Гаврилкина, А.S. Gavrilkina","doi":"10.36535/0548-0027-2021-03-3","DOIUrl":"https://doi.org/10.36535/0548-0027-2021-03-3","url":null,"abstract":"Представлены методы и средства выделения имён сущностей и связей на основе лексико-синтаксических шаблонов в рамках задачи семантического индексирования текстов документов. Содержание текста рассматривается как совокупность отражаемых триплетами элементарных фактов, включающих имена сущностей и отношений (имманентных, ситуативных и структурно-лингвистических). Для типизации ситуативных отношений используется таксономия отношений, в которой классы включают лингвистические конструкции; имманентные отношения формируются на основе сети понятий (тезауруса). Для идентификации свойств сущностей используется таксономия свойств и единиц измерения. Предложенный подход позволяет использовать в качестве поискового запроса имена сущностей, имена отношений, а также элементарные факты и составленные из них завершённые смысловые конструкции.","PeriodicalId":24076,"journal":{"name":"Научно-техническая информация. Серия 2: Информационные процессы и системы","volume":null,"pages":null},"PeriodicalIF":0.0,"publicationDate":"2021-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"91505550","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
Применение теории линейной фильтрации для обработки данных (на примере определения осадки морского судна) 线性数据过滤理论的应用(根据海船降水的定义)
Сергей Григорьевич Черный, S. G. Chernyĭ, Алексей Николаевич Ивановский, А.N. Ivanovskii
Представлен общий алгоритм решения задачи синтеза оптимального линейного фильтра, а также его программная реализация на языке Python для нахождения конечного значения осадки судна в морской практике, учитывая значение осадки величиной постоянной, а различного рода возмущения - шумом.
这是一种综合算法,用来解决最佳线性滤波器的合成问题,并在Python语言中进行软件实现,以确定船的最终降水值,考虑到常数的降水值和各种扰动值。
{"title":"Применение теории линейной фильтрации для обработки данных (на примере определения осадки морского судна)","authors":"Сергей Григорьевич Черный, S. G. Chernyĭ, Алексей Николаевич Ивановский, А.N. Ivanovskii","doi":"10.36535/0548-0027-2021-11-3","DOIUrl":"https://doi.org/10.36535/0548-0027-2021-11-3","url":null,"abstract":"Представлен общий алгоритм решения задачи синтеза оптимального линейного фильтра, а также его программная реализация на языке Python для нахождения конечного значения осадки судна в морской практике, учитывая значение осадки величиной постоянной, а различного рода возмущения - шумом.","PeriodicalId":24076,"journal":{"name":"Научно-техническая информация. Серия 2: Информационные процессы и системы","volume":null,"pages":null},"PeriodicalIF":0.0,"publicationDate":"2021-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"87406465","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 1
Новый метод автоматической классификации текстовых документов 文本文档自动分类的新方法
В. А. Яцко, V. Yatsko
Описываются процедуры и особенности применения нового метода автоматической классификации документов, основанного на вычислении отклонений распределения стоп-слов от коэффициента Ципфа. С целью нейтрализации разниц в размерах текстов применена и описана методика их выравнивания по нижнему пределу. Введено понятие итеративного порогового уровня, позволяющее сократить размер текста до нескольких десятков терминов. Разработаны показатели дискриминирующей и симилирующей силы и вычисляемый на их основе обобщённый показатель. Проведено 14 тестов, включая сопоставление с косинусной мерой близости документов, которые показали высокую эффективность предлагаемого метода при решении задач авторской атрибуции художественных и кластеризации политических текстов.
它描述了一种新的自动文件分类方法的程序和特性,它基于计算停止字的分布偏离齐普夫系数。为了消除文本大小的差异,使用并描述了它们在较低层次上对齐的方法。一个迭代阈值的概念被引入,使文本的大小减少到几十个术语。歧视和共和力量的指标已经被开发出来,并在其基础上被计算出来。进行了14项测试,其中包括将近似性措施与文件进行比较,这些测试显示了在解决政治文本的艺术属性和集群问题上拟议的方法的高效率。
{"title":"Новый метод автоматической классификации текстовых документов","authors":"В. А. Яцко, V. Yatsko","doi":"10.36535/0548-0027-2021-06-5","DOIUrl":"https://doi.org/10.36535/0548-0027-2021-06-5","url":null,"abstract":"Описываются процедуры и особенности применения нового метода автоматической классификации документов, основанного на вычислении отклонений распределения стоп-слов от коэффициента Ципфа. С целью нейтрализации разниц в размерах текстов применена и описана методика их выравнивания по нижнему пределу. Введено понятие итеративного порогового уровня, позволяющее сократить размер текста до нескольких десятков терминов. Разработаны показатели дискриминирующей и симилирующей силы и вычисляемый на их основе обобщённый показатель. Проведено 14 тестов, включая сопоставление с косинусной мерой близости документов, которые показали высокую эффективность предлагаемого метода при решении задач авторской атрибуции художественных и кластеризации политических текстов.","PeriodicalId":24076,"journal":{"name":"Научно-техническая информация. Серия 2: Информационные процессы и системы","volume":null,"pages":null},"PeriodicalIF":0.0,"publicationDate":"2021-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"78594574","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 1
期刊
Научно-техническая информация. Серия 2: Информационные процессы и системы
全部 Acc. Chem. Res. ACS Applied Bio Materials ACS Appl. Electron. Mater. ACS Appl. Energy Mater. ACS Appl. Mater. Interfaces ACS Appl. Nano Mater. ACS Appl. Polym. Mater. ACS BIOMATER-SCI ENG ACS Catal. ACS Cent. Sci. ACS Chem. Biol. ACS Chemical Health & Safety ACS Chem. Neurosci. ACS Comb. Sci. ACS Earth Space Chem. ACS Energy Lett. ACS Infect. Dis. ACS Macro Lett. ACS Mater. Lett. ACS Med. Chem. Lett. ACS Nano ACS Omega ACS Photonics ACS Sens. ACS Sustainable Chem. Eng. ACS Synth. Biol. Anal. Chem. BIOCHEMISTRY-US Bioconjugate Chem. BIOMACROMOLECULES Chem. Res. Toxicol. Chem. Rev. Chem. Mater. CRYST GROWTH DES ENERG FUEL Environ. Sci. Technol. Environ. Sci. Technol. Lett. Eur. J. Inorg. Chem. IND ENG CHEM RES Inorg. Chem. J. Agric. Food. Chem. J. Chem. Eng. Data J. Chem. Educ. J. Chem. Inf. Model. J. Chem. Theory Comput. J. Med. Chem. J. Nat. Prod. J PROTEOME RES J. Am. Chem. Soc. LANGMUIR MACROMOLECULES Mol. Pharmaceutics Nano Lett. Org. Lett. ORG PROCESS RES DEV ORGANOMETALLICS J. Org. Chem. J. Phys. Chem. J. Phys. Chem. A J. Phys. Chem. B J. Phys. Chem. C J. Phys. Chem. Lett. Analyst Anal. Methods Biomater. Sci. Catal. Sci. Technol. Chem. Commun. Chem. Soc. Rev. CHEM EDUC RES PRACT CRYSTENGCOMM Dalton Trans. Energy Environ. Sci. ENVIRON SCI-NANO ENVIRON SCI-PROC IMP ENVIRON SCI-WAT RES Faraday Discuss. Food Funct. Green Chem. Inorg. Chem. Front. Integr. Biol. J. Anal. At. Spectrom. J. Mater. Chem. A J. Mater. Chem. B J. Mater. Chem. C Lab Chip Mater. Chem. Front. Mater. Horiz. MEDCHEMCOMM Metallomics Mol. Biosyst. Mol. Syst. Des. Eng. Nanoscale Nanoscale Horiz. Nat. Prod. Rep. New J. Chem. Org. Biomol. Chem. Org. Chem. Front. PHOTOCH PHOTOBIO SCI PCCP Polym. Chem.
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1