A Software Implementation and Research of Homogeneous Ensemble Algorithms for Solving the Data Classification Problem of Agricultural Indicators

Н.А. Зеленчук, О.К. Альсова
{"title":"A Software Implementation and Research of Homogeneous Ensemble Algorithms for Solving the Data Classification Problem of Agricultural Indicators","authors":"Н.А. Зеленчук, О.К. Альсова","doi":"10.25699/sssb.2023.49.3.026","DOIUrl":null,"url":null,"abstract":"К настоящему времени разработано и изучено множество алгоритмов для решения задач классификации, однако остается актуальной проблема повышения качества (точности, устойчивости) результатов классификации при решении прикладных задач в разных отраслях экономики, в том числе в сельском хозяйстве. Вариантом решения этой проблемы является разработка алгоритмов и методики классификации, основанных на ансамблевом подходе. В данной работе представлен разработанный многоэтапный алгоритм для решения задачи классификации сельскохозяйственных показателей, объединяющий комплекс методов интеллектуального анализа данных и машинного обучения, основанный на применении ансамблевых моделей. Укрупненно алгоритм заключается в последовательном выполнении следующих основных этапов: первичный анализ и обработка данных; устранение несбалансированности классов на основе методов семплирования; классификация с помощью одиночных и ансамблевых моделей машинного обучения с автоматическим подбором параметров; оценка качества классификационного решения. Предложенный алгоритм реализован в интерактивном веб-приложении, объединяющем ядро статистических вычислений на языке R и графический пользовательский интерфейс, созданном с использованием связки современных технологий: фреймворк Shiny, JavaScript, CSS, HTML. Выполнено исследование алгоритма на реальных сельскохозяйственных данных по уровню засоренности с/х участка (выделено четыре уровня засоренности). В статьеподробно описан этап алгоритма, связанный с построением и сравнительным анализом разных вариантов одиночных и ансамблевых моделей классификации и выбором наилучшего варианта. Результаты вычислительных экспериментов показали преимущества использования ансамблевых алгоритмов по сравнению с одиночными классификаторами (повышение точности классификации) при исследовании уровня засоренности с/х участка. Наиболее эффективным по точности классификации оказался алгоритм градиентного бустинга. Значение меры AUC составило на тестовой выборке 0.8918, F-меры — 0.6246, МСС (коэффициент Мэттьюса) — 0.6260, ВА (сбалансированная точность) — 0.7951, что говорит о сравнительно высокой точности построенного классификатора. Для прогнозирования уровней засоренности с/х участков наиболее важными являются классы (уровни) «высокий» и «средний», так как эти уровни могут негативно влиять на урожайность культурных растений. Использование однородных ансамблей позволило повысить доли правильных ответов на уровне «средний» (в среднем на 15%) и на уровне «высокий» (в среднем на 24%).\n By now, numerous algorithms have been developed and studied to solve classification problems, but the issue of improving the quality (accuracy and stability) of classification results in various economic sectors, including agriculture, remains relevant. One solution to this problem is the development of algorithms and classification methodologies based on the ensemble approach. This study presents a developed multi-stage algorithm for solving the classification problem of agricultural indicators, which combines a set of intelligent data analysis and machine learning methods based on the application of ensemble models. In summary, the algorithm consists of the following main stages: initial data analysis and processing; addressing class imbalance using sampling methods; classification using single and ensemble machine learning models with automatic parameter tuning; evaluation of the classification solution's quality. The proposed algorithm has been implemented in an interactive web application that combines the core of statistical computations in the R language with a graphical user interface created using a combination of modern technologies: the Shiny framework, JavaScript, CSS, and HTML. The algorithm was tested on real agricultural data related to the levels of weediness of agricultural plots (four levels of site weediness). The article provides a detailed description of the algorithm stage associated with the construction and comparative analysis of different options for single and ensemble classification models, leading to the selection of the best-performing variant. The results of computational experiments demonstrated the advantages of using ensemble algorithms compared to single classifiers, resulting in improved classification accuracy when investigating the level of weediness of agricultural plots. The gradient boosting algorithm proved to be the most effective in terms of classification accuracy. The AUC measure achieved a value of 0.8918 on the test dataset, with an F-measure of 0.6246, Matthews correlation coefficient (MCC) of 0.6260, and balanced accuracy (BA) of 0.7951, indicating a relatively high accuracy of the constructed classifier. For predicting the level of weediness of an agricultural plot, the most important classes (levels) were “high” and “medium”, as these levels can negatively affect crop yields. Using homogeneous ensembles significantly increased the proportion of correct answers for the \"medium\" level (on average by 15%) and for the “high” level (on average by 24%).","PeriodicalId":133432,"journal":{"name":"Южно-Сибирский научный вестник","volume":"20 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2023-06-30","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Южно-Сибирский научный вестник","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.25699/sssb.2023.49.3.026","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

Abstract

К настоящему времени разработано и изучено множество алгоритмов для решения задач классификации, однако остается актуальной проблема повышения качества (точности, устойчивости) результатов классификации при решении прикладных задач в разных отраслях экономики, в том числе в сельском хозяйстве. Вариантом решения этой проблемы является разработка алгоритмов и методики классификации, основанных на ансамблевом подходе. В данной работе представлен разработанный многоэтапный алгоритм для решения задачи классификации сельскохозяйственных показателей, объединяющий комплекс методов интеллектуального анализа данных и машинного обучения, основанный на применении ансамблевых моделей. Укрупненно алгоритм заключается в последовательном выполнении следующих основных этапов: первичный анализ и обработка данных; устранение несбалансированности классов на основе методов семплирования; классификация с помощью одиночных и ансамблевых моделей машинного обучения с автоматическим подбором параметров; оценка качества классификационного решения. Предложенный алгоритм реализован в интерактивном веб-приложении, объединяющем ядро статистических вычислений на языке R и графический пользовательский интерфейс, созданном с использованием связки современных технологий: фреймворк Shiny, JavaScript, CSS, HTML. Выполнено исследование алгоритма на реальных сельскохозяйственных данных по уровню засоренности с/х участка (выделено четыре уровня засоренности). В статьеподробно описан этап алгоритма, связанный с построением и сравнительным анализом разных вариантов одиночных и ансамблевых моделей классификации и выбором наилучшего варианта. Результаты вычислительных экспериментов показали преимущества использования ансамблевых алгоритмов по сравнению с одиночными классификаторами (повышение точности классификации) при исследовании уровня засоренности с/х участка. Наиболее эффективным по точности классификации оказался алгоритм градиентного бустинга. Значение меры AUC составило на тестовой выборке 0.8918, F-меры — 0.6246, МСС (коэффициент Мэттьюса) — 0.6260, ВА (сбалансированная точность) — 0.7951, что говорит о сравнительно высокой точности построенного классификатора. Для прогнозирования уровней засоренности с/х участков наиболее важными являются классы (уровни) «высокий» и «средний», так как эти уровни могут негативно влиять на урожайность культурных растений. Использование однородных ансамблей позволило повысить доли правильных ответов на уровне «средний» (в среднем на 15%) и на уровне «высокий» (в среднем на 24%). By now, numerous algorithms have been developed and studied to solve classification problems, but the issue of improving the quality (accuracy and stability) of classification results in various economic sectors, including agriculture, remains relevant. One solution to this problem is the development of algorithms and classification methodologies based on the ensemble approach. This study presents a developed multi-stage algorithm for solving the classification problem of agricultural indicators, which combines a set of intelligent data analysis and machine learning methods based on the application of ensemble models. In summary, the algorithm consists of the following main stages: initial data analysis and processing; addressing class imbalance using sampling methods; classification using single and ensemble machine learning models with automatic parameter tuning; evaluation of the classification solution's quality. The proposed algorithm has been implemented in an interactive web application that combines the core of statistical computations in the R language with a graphical user interface created using a combination of modern technologies: the Shiny framework, JavaScript, CSS, and HTML. The algorithm was tested on real agricultural data related to the levels of weediness of agricultural plots (four levels of site weediness). The article provides a detailed description of the algorithm stage associated with the construction and comparative analysis of different options for single and ensemble classification models, leading to the selection of the best-performing variant. The results of computational experiments demonstrated the advantages of using ensemble algorithms compared to single classifiers, resulting in improved classification accuracy when investigating the level of weediness of agricultural plots. The gradient boosting algorithm proved to be the most effective in terms of classification accuracy. The AUC measure achieved a value of 0.8918 on the test dataset, with an F-measure of 0.6246, Matthews correlation coefficient (MCC) of 0.6260, and balanced accuracy (BA) of 0.7951, indicating a relatively high accuracy of the constructed classifier. For predicting the level of weediness of an agricultural plot, the most important classes (levels) were “high” and “medium”, as these levels can negatively affect crop yields. Using homogeneous ensembles significantly increased the proportion of correct answers for the "medium" level (on average by 15%) and for the “high” level (on average by 24%).
查看原文
分享 分享
微信好友 朋友圈 QQ好友 复制链接
本刊更多论文
解决农业指标数据分类问题的同构集成算法的软件实现与研究
到目前为止,已经开发和研究了许多算法来解决分类问题,但在解决包括农业在内的各个行业的应用问题时,提高分类结果(准确性、可持续性)仍然是一个紧迫的问题。解决这个问题的一种方法是开发基于合奏方法的算法和分类方法。该工作提供了一种多步算法来解决农业指标分类问题,结合了基于合成器模型的智能分析和机器学习方法。更大的算法是遵循以下基本步骤:原始分析和数据处理;根据采样方法消除类不平衡;单个和全套机器学习模型,自动选择参数;评估分类解决方案的质量。拟议中的算法是在一个交互式web应用程序中实现的,它结合了使用现代技术创建的R统计计算核心和图形用户界面:框架Shiny、JavaScript、CSS、HTML。在实际农业数据中,对实际农业数据的研究已经完成(指定了四层堵塞)。本文详细描述了算法的阶段,与构建和比较单个和组模型的不同变体和最佳选择有关。计算实验的结果显示,使用合成器算法比单个分级器(提高分级准确性)更好地研究与/ x区域的堵塞程度。最有效的分类方法是梯度boosting算法。AUC的测试结果为0.8918,F- 6246, mss(马修斯系数)- 0.6260,va(平衡精度)- 0.7951,表明建造精度相对较高。对于预测从/ x区域的堵塞程度,最重要的是“高”和“中等”的类别,因为这些水平可能对作物产量产生负面影响。使用同一支乐队使正确答案的比例提高了“平均”(平均15%)和“高”(平均24%)。直到现在,numerous algorithms已经开发并开发了一个独立的经典问题,但是在不同的经济sectors中引入了经典反应,这个问题的一个解决方案是建立在ensemble应用程序上的经典媒介。这是一种解构多功能多功能功能问题,这是一种基于智能数据分析和基于ensemble模型的机器。在summary,编年史的algorithm会议:initial数据分析和说明;求爱类的求爱类,求爱类的求爱类;经典的单声道和ensemble模型与自动调谐调谐器调谐;这是对经典的演绎。在R语言中,有一个图形用户界面技术组合:Shiny框架,JavaScript, CSS和HTML。algorithm是对现实生活中的虚拟现实的测试,它是对现实生活中的虚拟现实的测试。这是一段与“设计”和“设计”的合作阶段,以达到最佳表现的选择。“电脑实验”被“模拟模拟”“模拟模拟”所取代,“模拟模拟模拟模拟”被“模拟模拟场景”所取代。gradient boogorithm被选为经典作品中最重要的作品。在最重要的测试中,有0.6246的测试值,有0.6246的测试值,有0.7951的测试值。“最受欢迎的名人”,“最受欢迎的名人”,“最受欢迎的名人”,“最受欢迎的名人”。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 去求助
来源期刊
自引率
0.00%
发文量
0
期刊最新文献
SELF-PROPROPAGING HIGH-TEMPERATURE SYNTHESIS of almgb14 ceramic ANALYSIS OF METHODS FOR CONTROL OF OIL AND PETROLEUM PRODUCTS CONTENT IN SOIL SOFTWARE AND INFORMATION SUPPORT FOR INFORMATION AND MEASURING SYSTEM FOR BENCH TESTING OF SPECIAL CHEMICAL PRODUCTS DEVELOPMENT OF EXPERIMENTAL RESEARCH UNIT "DEFORM-RPN" FOR STUDY OF DEFORMATION OF FIRE HOSE WALLS UNDER INTERNAL PRESSURE PROMISING ROCKET FUEL COMPONENTS. II. FUEL ADDITIVES (REVIEW)
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
已复制链接
已复制链接
快去分享给好友吧!
我知道了
×
扫码分享
扫码分享
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1