Sintesis Fitur Density Based Feature Selection (DBFS) dan AdaBoots dengan XGBoost Untuk Meningkatkan Performa Model Prediksi

Slamet Sudaryanto Nusrhendratno
{"title":"Sintesis Fitur Density Based Feature Selection (DBFS) dan AdaBoots dengan XGBoost Untuk Meningkatkan Performa Model Prediksi","authors":"Slamet Sudaryanto Nusrhendratno","doi":"10.36499/psnst.v12i1.6997","DOIUrl":null,"url":null,"abstract":"Abstrak Ketidakseimbangan kelas (Class Imbalance) merupakan masalah yang krusial pada performa berbagai algoritma klasifikasi di bidang machine learning. Kelompok kelas dengan banyak data disebut kelas mayoritas, sebaliknya disebut kelas minoritas. Perbandingan antara kelas minoritas dan kelas mayoritas disebut rasio ketidakseimbangan (IR). Semakin besar perbedaan antara kelas minoritas dan kelas mayoritas nilai rasio ketidakseimbangan (IR) semakin besar. Ketidakseimbangan kelas memberikan dampak yang buruk pada hasil klasifikasi dimana kelas minoritas sering disalah klasifikasikan sebagai kelas mayoritas. Ketidak seimbangan kelas akan menghasilkan akurasi prediksi yang baik pada kelas mayoritas tetapi menjadi tidak konduktif dalam memprediksi kelas minoritas, sehingga nilai hasil akurasi pengklasifikasian (classifier) menjadi tidak optimal. Masalah ketidakseimbangan kelas tersebut secara umum dapat ditangani dengan dua pendekatan, yaitu level data dan level algoritma. Pendekatan level data ditujukan untuk memperbaiki keseimbangan kelas, sedangkan pendekatan level algoritma ditujukan untuk memperbaiki algoritma atau menggabungkan (ensemble) pengklasifikasi agar lebih konduktif terhadap kelas minoritas. Beberapa metode telah diusulkan para peneliti untuk memecahkan masalah tersebut seperti metode smote, sampling, cost-sensitive learning, bagging dan boosting. Kebanyakan metode yang dikembangkan hanya pada salah satu level data atau pada level algoritma saja. Maka pada penelitian ini, akan dilakukan kombinasi ensemble baik pada level data maupun pada level algoritma. Pada level data akan menggabungkan metode seleksi fitur (yaitu algoritma Adaptive Boosting (Adaboost) dan metode Density Based Feature Selection (DBFS). Sedangkan pada level algoritma menggunakan salah satu model ensemble klasifikasi XGBoost. Model kombinasi ensemble baik dari level data maupun pada level algoritma tersebut digunakan untuk menagani ketidak seimbangan kelas agar didapatkan performa model prediksi. Penerapan algoritma adaboost dalam seleksi fitur dilakukan untuk memberi bobot pada setiap fitur yang direkomendasikan, sehingga ditemukan fitur yang merupakan classifier yang kuat. Algoritma DBFS berfokus dalam mengidentifikasi kelas minoritas dan mengevaluasi dampak dari sebuah fitur yang bermanfaat berdasarkan rangking fitur. Hasil dari penggabungan (ensemble) kedua algoritma tersebut adalah dataset yang seimbang untuk selanjutnya disintesiskan dengan algoritma XGBoost dalam melakukan perhitungan model prediksi. Hasil prediksi akan di evaluasi dengan confusion matrix dan AUC-ROC. Kata kunci: Ensemble, DBFS, AdaBoost, XGBoost, Confusion Matrix, AUC-ROC","PeriodicalId":103642,"journal":{"name":"Prosiding Sains Nasional dan Teknologi","volume":"148 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2022-11-28","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"1","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Prosiding Sains Nasional dan Teknologi","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.36499/psnst.v12i1.6997","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 1

Abstract

Abstrak Ketidakseimbangan kelas (Class Imbalance) merupakan masalah yang krusial pada performa berbagai algoritma klasifikasi di bidang machine learning. Kelompok kelas dengan banyak data disebut kelas mayoritas, sebaliknya disebut kelas minoritas. Perbandingan antara kelas minoritas dan kelas mayoritas disebut rasio ketidakseimbangan (IR). Semakin besar perbedaan antara kelas minoritas dan kelas mayoritas nilai rasio ketidakseimbangan (IR) semakin besar. Ketidakseimbangan kelas memberikan dampak yang buruk pada hasil klasifikasi dimana kelas minoritas sering disalah klasifikasikan sebagai kelas mayoritas. Ketidak seimbangan kelas akan menghasilkan akurasi prediksi yang baik pada kelas mayoritas tetapi menjadi tidak konduktif dalam memprediksi kelas minoritas, sehingga nilai hasil akurasi pengklasifikasian (classifier) menjadi tidak optimal. Masalah ketidakseimbangan kelas tersebut secara umum dapat ditangani dengan dua pendekatan, yaitu level data dan level algoritma. Pendekatan level data ditujukan untuk memperbaiki keseimbangan kelas, sedangkan pendekatan level algoritma ditujukan untuk memperbaiki algoritma atau menggabungkan (ensemble) pengklasifikasi agar lebih konduktif terhadap kelas minoritas. Beberapa metode telah diusulkan para peneliti untuk memecahkan masalah tersebut seperti metode smote, sampling, cost-sensitive learning, bagging dan boosting. Kebanyakan metode yang dikembangkan hanya pada salah satu level data atau pada level algoritma saja. Maka pada penelitian ini, akan dilakukan kombinasi ensemble baik pada level data maupun pada level algoritma. Pada level data akan menggabungkan metode seleksi fitur (yaitu algoritma Adaptive Boosting (Adaboost) dan metode Density Based Feature Selection (DBFS). Sedangkan pada level algoritma menggunakan salah satu model ensemble klasifikasi XGBoost. Model kombinasi ensemble baik dari level data maupun pada level algoritma tersebut digunakan untuk menagani ketidak seimbangan kelas agar didapatkan performa model prediksi. Penerapan algoritma adaboost dalam seleksi fitur dilakukan untuk memberi bobot pada setiap fitur yang direkomendasikan, sehingga ditemukan fitur yang merupakan classifier yang kuat. Algoritma DBFS berfokus dalam mengidentifikasi kelas minoritas dan mengevaluasi dampak dari sebuah fitur yang bermanfaat berdasarkan rangking fitur. Hasil dari penggabungan (ensemble) kedua algoritma tersebut adalah dataset yang seimbang untuk selanjutnya disintesiskan dengan algoritma XGBoost dalam melakukan perhitungan model prediksi. Hasil prediksi akan di evaluasi dengan confusion matrix dan AUC-ROC. Kata kunci: Ensemble, DBFS, AdaBoost, XGBoost, Confusion Matrix, AUC-ROC
查看原文
分享 分享
微信好友 朋友圈 QQ好友 复制链接
本刊更多论文
抽象的课堂不平衡是不同学习机器分类算法表现的关键问题。拥有大量数据的班级被称为多数阶级,而不是少数阶级。少数阶级与多数阶级之间的比较被称为失衡比。少数阶级和多数多数阶级的不平衡比之间的差异越大。课堂不平衡对少数阶级阶级往往被视为多数阶级的分类产生了不良影响。类不平衡将导致对多数类别的良好预测准确性,但在预测少数类别方面没有指挥指挥,因此分类准确性的值将不理想。一般来说,类不平衡问题可以通过两种方法来解决,即数据水平和算法水平。数据级别的方法是为了提高课堂平衡,而算法级的方法是为了提高算法或组合分类,使它对少数群体具有更强的导电性。一些研究人员已经提出了解决这些问题的方法,如烟、抽样、成本灵敏性学习、提包和助推。大多数方法只在数据的一层或算法的一层中开发。在这项研究中,将在数据水平和算法级别进行组合组合。在数据水平上,将集成功能选择方法(即已启动的算法)和基于增强功能的密度(DBFS)。而在算法层面上使用XGBoost分类的一种组合模型。组合模型的数据级和算法级都用于抵消类的平衡,以获得预测模型的性能。采用了adaboost算法在特性选择中的应用,以使推荐的每个特性具有权重,从而发现了一个强大的经典特征。DBFS算法侧重于识别少数阶级,并根据特性排名来评估有用特性的影响。这两种算法合并的结果是一个平衡的数据集,用于进一步与XGBoost算法进行预测模型计算。预测结果将与孔子矩阵和中华民国进行评估。关键词:合并,DBFS, AdaBoost, XGBoost,混乱矩阵,AUC-ROC
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 去求助
来源期刊
自引率
0.00%
发文量
0
期刊最新文献
Analisa Arus Hubung Singkat untuk Over Current Relay (OCR) pada Jaringan Distribusi 20 kV di Gardu Induk Kambang Perancangan Sistem Informasi CV. Kalam Art Menggunakan Metode Agile Scrum Pemanfaatan Satelit Lapan-A3 untuk Pemantauan Bencana Alam Sistem Manajemen Santri Berbasis Web pada Pondok Pesantren Luhur Wahid Hasyim Semarang Evaluasi Efektivitas dan Efisiensi BRT Trans Semarang Koridor IV pada Trayek Semarang – Boja
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
已复制链接
已复制链接
快去分享给好友吧!
我知道了
×
扫码分享
扫码分享
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1