СИСТЕМА КЛАСИФІКАЦІЇ ТЕКСТОВИХ ДОКУМЕНТІВ ІЗ ВИКОРИСТАННЯМ ТЕХНОЛОГІЙ BIG DATA

Борис МОРОЗ, Леонід КАБАК, Нонна ВАРЕХ, Дмитро МОРОЗ
{"title":"СИСТЕМА КЛАСИФІКАЦІЇ ТЕКСТОВИХ ДОКУМЕНТІВ ІЗ ВИКОРИСТАННЯМ ТЕХНОЛОГІЙ BIG DATA","authors":"Борис МОРОЗ, Леонід КАБАК, Нонна ВАРЕХ, Дмитро МОРОЗ","doi":"10.32782/it/2023-2-4","DOIUrl":null,"url":null,"abstract":"У роботі було розглянуто модель системи класифікації документів з використанням технології Big Data. При використанні технології Big Data на сервері накопичується великий масив документів, які потрібно попередньо обробити та завантажити у базу даних. В документах потрібно визначити ключові слова за допомогою яких їх потрібно віднести до однієї або декількох тематичних розділів. Крім того розроблена система повинна працювати швидко та передбачати автоматичне навчання. Отже розробка моделей та методів класифікації текстових документів на дійсний час є актуальним завданням. Дуже інтенсивний розвиток цих методів спостерігається в останній час при стрімкому розвитку обчислювальної техніки, та при переході багатьох організацій на електронний документообіг. В результаті дослідження було розроблено метод та модель системи; запропоновано комбінацію підходів для навчання моделі; визначено найбільш продуктивну модель для навчання системи. Метою роботи є проведення аналізу існуючих методів класифікації текстових документів та розробити модель та метод класифікації текстових документів з використанням технології MapRaduce. Методологія вирішення поставленого завдання полягає в проведенні порівняльного аналізу показників продуктивності різних конфігурацій системи, які запроваджені з урахуванням попередніх досліджень моделей систем класифікації документів, які використовують технологію Big Data. Наукова новизна. У роботі запропоноване нове рішення для виконання точної байєсовської класифікації на основі Spark. Цей класифікатор використовує велику кількість операції в пам’яті сервера, щоб класифікувати велику кількість текстових документів на основі великого навчального набору даних з використанням MapReduce. Фаза карти обчислює кількість входжень ключових слів у різних розподілах даних навчання. Після цього кілька редукторів обчислюють вірогідність віднесення документу до певних класів, на підставі обчислень отриманих на етапі карти. Ключовий момент цієї пропозиції полягає в управлінні набором текстових документів, зберігаючи їх в пам’яті, коли це можливо. Висновки. Результати даної роботи можуть бути використані для реалізації ефективної системи класифікації текстової документації, яка використовує точний байєсовської класифікатор, з використання мови програмування Python в поєднанні з сервісом Hadoop Big Data .","PeriodicalId":486523,"journal":{"name":"Information Technology Computer Science Software Engineering and Cyber Security","volume":"45 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2023-09-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Information Technology Computer Science Software Engineering and Cyber Security","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.32782/it/2023-2-4","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

Abstract

У роботі було розглянуто модель системи класифікації документів з використанням технології Big Data. При використанні технології Big Data на сервері накопичується великий масив документів, які потрібно попередньо обробити та завантажити у базу даних. В документах потрібно визначити ключові слова за допомогою яких їх потрібно віднести до однієї або декількох тематичних розділів. Крім того розроблена система повинна працювати швидко та передбачати автоматичне навчання. Отже розробка моделей та методів класифікації текстових документів на дійсний час є актуальним завданням. Дуже інтенсивний розвиток цих методів спостерігається в останній час при стрімкому розвитку обчислювальної техніки, та при переході багатьох організацій на електронний документообіг. В результаті дослідження було розроблено метод та модель системи; запропоновано комбінацію підходів для навчання моделі; визначено найбільш продуктивну модель для навчання системи. Метою роботи є проведення аналізу існуючих методів класифікації текстових документів та розробити модель та метод класифікації текстових документів з використанням технології MapRaduce. Методологія вирішення поставленого завдання полягає в проведенні порівняльного аналізу показників продуктивності різних конфігурацій системи, які запроваджені з урахуванням попередніх досліджень моделей систем класифікації документів, які використовують технологію Big Data. Наукова новизна. У роботі запропоноване нове рішення для виконання точної байєсовської класифікації на основі Spark. Цей класифікатор використовує велику кількість операції в пам’яті сервера, щоб класифікувати велику кількість текстових документів на основі великого навчального набору даних з використанням MapReduce. Фаза карти обчислює кількість входжень ключових слів у різних розподілах даних навчання. Після цього кілька редукторів обчислюють вірогідність віднесення документу до певних класів, на підставі обчислень отриманих на етапі карти. Ключовий момент цієї пропозиції полягає в управлінні набором текстових документів, зберігаючи їх в пам’яті, коли це можливо. Висновки. Результати даної роботи можуть бути використані для реалізації ефективної системи класифікації текстової документації, яка використовує точний байєсовської класифікатор, з використання мови програмування Python в поєднанні з сервісом Hadoop Big Data .
查看原文
分享 分享
微信好友 朋友圈 QQ好友 复制链接
本刊更多论文
利用大数据技术对文本文件进行分类的系统
本文探讨了使用大数据技术的文档分类系统模型。使用大数据技术时,服务器上会积累大量文件,这些文件必须经过预处理并上传到数据库。需要用关键字来识别这些文件,以便将它们归入一个或多个主题部分。此外,所开发的系统应能快速运行并提供自动学习功能。因此,开发文本文档分类模型和方法是当前的一项紧迫任务。最近,随着计算机技术的快速发展和许多机构向电子文档管理的过渡,这些方法得到了迅猛发展。作为研究的成果,开发了一种方法和一个系统模型;提出了训练该模型的组合方法;确定了训练该系统的最有效模型。本研究的目的是分析现有的文本文档分类方法,并利用 MapRaduce 技术开发文本文档分类模型和方法。解决这一任务的方法是对不同系统配置的性能指标进行比较分析,在实施过程中考虑到了以往对使用大数据技术的文档分类系统模型的研究。科学新颖性。本文提出了一种基于 Spark 进行准确贝叶斯分类的新解决方案。该分类器使用大量服务器内存操作,在使用 MapReduce 的大型训练数据集的基础上对大量文本文档进行分类。映射阶段计算关键字在训练数据不同分布中的出现次数。之后,几个还原器根据映射阶段的计算结果计算文档属于某些类别的概率。该建议的关键点在于尽可能将一组文本文档存储在内存中进行管理。结论。这项工作的成果可用于实施一个有效的文本文档分类系统,该系统使用准确的贝叶斯分类器,使用 Python 编程语言并结合 Hadoop 大数据服务。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 去求助
来源期刊
自引率
0.00%
发文量
0
期刊最新文献
ЗАДАЧА ПОШУКУ НАЙКОРОТШОГО ШЛЯХУ: ПОРІВНЯЛЬНИЙ АНАЛІЗ ОСНОВНИХ АЛГОРИТМІВ РЕЗУЛЬТАТИ ДОСЛІДЖЕННЯ ТА ВПРОВАДЖЕННЯ В НАВЧАЛЬНИЙ ПРОЦЕС МОДЕЛІ-СИМУЛЯТОРА АВТОМАТИЗОВАНОЇ ФАБРИКИ SOCIAL ENGINEERING IN MODERN MESSENGERS: APPLICATIONS FOR OFFENSIVE SECURITY ІНТЕРФЕЙС ТЕХНІЧНОГО СУПРОВОДЖЕННЯ СКЛАДНИХ ІНФОРМАЦІЙНО-КЕРУЮЧИХ СИСТЕМ АВТОМАТИЗАЦІЇ МЕТОД ФОРМУВАННЯ ПАРАМЕТРІВ ФУНКЦІОНАЛЬНИХ ОБОВ’ЯЗКІВ ДЛЯ ОЦІНКИ ЗАГРОЗ В СОЦІОТЕХНІЧНИХ СИСТЕМАХ
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
已复制链接
已复制链接
快去分享给好友吧!
我知道了
×
扫码分享
扫码分享
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1