LightGBM和XGBoost处理不平衡的数据的方法比较

Putri Septiana Rizky, Ristu Haiban Hirzi, Umam Hidayaturrohman
{"title":"LightGBM和XGBoost处理不平衡的数据的方法比较","authors":"Putri Septiana Rizky, Ristu Haiban Hirzi, Umam Hidayaturrohman","doi":"10.36456/jstat.vol15.no2.a5548","DOIUrl":null,"url":null,"abstract":"Masalah ketidakseimbangan kelas telah menjadi salah satu tantangan dalam kinerja banyak algoritma klasifikasi. Kelas tidak seimbang merupakan suatu kondisi dimana terdapat dataset yang jumlah kelasnya terdapat perbedaan yang signifikan terhadap masing-masing jumlah kelas. Dalam kumpulan data yang terdiri dari dua kelas, ukuran sampel kategori mayoritas (lebih besar) mendominasi sampel kategori minoritas (lebih kecil) dengan rasio sebesar 1:100, 1:1.000 atau 1:10.000. Dampak ketidakseimbangan ini menyebabkan klasifikasi menjadi buruk dan tidak optimal. Sebagian besar algoritma klasifikasi standar cenderung mengklasifikasikan kelas mayoritas dengan tingkat akurasi tinggi dan kelas minoritas dengan tingkat akurasi rendah, sehingga mengakibatkan terjadinya bias. Dalam banyak aplikasi, lebih penting untuk mengidentifikasi kelas minoritas dari pada kelas mayoritas. Pada penelitian ini diusulkan pendekatan berbasis ensemble dengan pengklasifikasi yang digunakan adalah LightGBM dan XGBoost, kedua metode ini merupakan metode gradien efisien yang beberapa tahun terakhir telah disarankan berdasarkan pohon keputusan sehingga mampu menangani masalah data dengan skala besar. Data yang digunakan diperoleh dari UCI Repository dengan 5 data, 3 diantaranya memiliki tingkat ketidakseimbangan tinggi dan sisanya dengan tingkat ketidakseimbangan rendah. Jumlah kelas yang digunakan pada penelitian adalah dua kelas. Hasil penelitian menunjukkan bahwa kinerja metode XGBoost dalam akurasi dan sensitivitas lebih baik dibandingkan LightGBM di hampir seluruh data. Sedangkan kemampuan dalam menebak kelas minoritas (spesifisitas), metode LightGBM lebih baik dibandingkan XGBoost dengan nilai keseluruhan rata-rata sebesar 80,41% : 74,64%.","PeriodicalId":118320,"journal":{"name":"J Statistika: Jurnal Ilmiah Teori dan Aplikasi Statistika","volume":"1 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2022-12-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"3","resultStr":"{\"title\":\"Perbandingan Metode LightGBM dan XGBoost dalam Menangani Data dengan Kelas Tidak Seimbang\",\"authors\":\"Putri Septiana Rizky, Ristu Haiban Hirzi, Umam Hidayaturrohman\",\"doi\":\"10.36456/jstat.vol15.no2.a5548\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Masalah ketidakseimbangan kelas telah menjadi salah satu tantangan dalam kinerja banyak algoritma klasifikasi. Kelas tidak seimbang merupakan suatu kondisi dimana terdapat dataset yang jumlah kelasnya terdapat perbedaan yang signifikan terhadap masing-masing jumlah kelas. Dalam kumpulan data yang terdiri dari dua kelas, ukuran sampel kategori mayoritas (lebih besar) mendominasi sampel kategori minoritas (lebih kecil) dengan rasio sebesar 1:100, 1:1.000 atau 1:10.000. Dampak ketidakseimbangan ini menyebabkan klasifikasi menjadi buruk dan tidak optimal. Sebagian besar algoritma klasifikasi standar cenderung mengklasifikasikan kelas mayoritas dengan tingkat akurasi tinggi dan kelas minoritas dengan tingkat akurasi rendah, sehingga mengakibatkan terjadinya bias. Dalam banyak aplikasi, lebih penting untuk mengidentifikasi kelas minoritas dari pada kelas mayoritas. Pada penelitian ini diusulkan pendekatan berbasis ensemble dengan pengklasifikasi yang digunakan adalah LightGBM dan XGBoost, kedua metode ini merupakan metode gradien efisien yang beberapa tahun terakhir telah disarankan berdasarkan pohon keputusan sehingga mampu menangani masalah data dengan skala besar. Data yang digunakan diperoleh dari UCI Repository dengan 5 data, 3 diantaranya memiliki tingkat ketidakseimbangan tinggi dan sisanya dengan tingkat ketidakseimbangan rendah. Jumlah kelas yang digunakan pada penelitian adalah dua kelas. Hasil penelitian menunjukkan bahwa kinerja metode XGBoost dalam akurasi dan sensitivitas lebih baik dibandingkan LightGBM di hampir seluruh data. Sedangkan kemampuan dalam menebak kelas minoritas (spesifisitas), metode LightGBM lebih baik dibandingkan XGBoost dengan nilai keseluruhan rata-rata sebesar 80,41% : 74,64%.\",\"PeriodicalId\":118320,\"journal\":{\"name\":\"J Statistika: Jurnal Ilmiah Teori dan Aplikasi Statistika\",\"volume\":\"1 1\",\"pages\":\"0\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2022-12-31\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"3\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"J Statistika: Jurnal Ilmiah Teori dan Aplikasi Statistika\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.36456/jstat.vol15.no2.a5548\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"J Statistika: Jurnal Ilmiah Teori dan Aplikasi Statistika","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.36456/jstat.vol15.no2.a5548","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 3

摘要

课堂失衡问题已成为许多分类算法工作中的挑战之一。不平衡的类是一个数据集,其类的数量与每个类的数量有显著差异。在一个由两个类组成的数据集中,占多数的样本大小(较大)支配了少数类别样本(较小),其比例为1:100、1:1万或1:10万。这种不平衡的影响导致分类变得丑陋和不最佳。大多数标准分类算法倾向于将多数类别的精确度高,少数类别的精确率低,从而产生偏见。在许多应用程序中,确定少数阶级比多数阶级更重要。在这项研究中,提出了一种基于凝聚的方法,使用的分类方法是LightGBM和XGBoost,这两种方法都是一种有效的梯级方法,在过去几年里,这两种方法都是建立在决策树的基础上的,因此能够在很大程度上处理数据问题。使用的数据来自UCI存储库中有5个,其中3个处于高不平衡状态,其余的处于低不平衡状态。用于研究的类的数量是两个类。研究结果表明,XGBoost方法的准确性和敏感度比几乎所有数据中的光bm表现更好。对于少数族裔的猜测能力来说,LightGBM方法比XGBoost好,总平均值为80,41%:74.64%。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
查看原文
分享 分享
微信好友 朋友圈 QQ好友 复制链接
本刊更多论文
Perbandingan Metode LightGBM dan XGBoost dalam Menangani Data dengan Kelas Tidak Seimbang
Masalah ketidakseimbangan kelas telah menjadi salah satu tantangan dalam kinerja banyak algoritma klasifikasi. Kelas tidak seimbang merupakan suatu kondisi dimana terdapat dataset yang jumlah kelasnya terdapat perbedaan yang signifikan terhadap masing-masing jumlah kelas. Dalam kumpulan data yang terdiri dari dua kelas, ukuran sampel kategori mayoritas (lebih besar) mendominasi sampel kategori minoritas (lebih kecil) dengan rasio sebesar 1:100, 1:1.000 atau 1:10.000. Dampak ketidakseimbangan ini menyebabkan klasifikasi menjadi buruk dan tidak optimal. Sebagian besar algoritma klasifikasi standar cenderung mengklasifikasikan kelas mayoritas dengan tingkat akurasi tinggi dan kelas minoritas dengan tingkat akurasi rendah, sehingga mengakibatkan terjadinya bias. Dalam banyak aplikasi, lebih penting untuk mengidentifikasi kelas minoritas dari pada kelas mayoritas. Pada penelitian ini diusulkan pendekatan berbasis ensemble dengan pengklasifikasi yang digunakan adalah LightGBM dan XGBoost, kedua metode ini merupakan metode gradien efisien yang beberapa tahun terakhir telah disarankan berdasarkan pohon keputusan sehingga mampu menangani masalah data dengan skala besar. Data yang digunakan diperoleh dari UCI Repository dengan 5 data, 3 diantaranya memiliki tingkat ketidakseimbangan tinggi dan sisanya dengan tingkat ketidakseimbangan rendah. Jumlah kelas yang digunakan pada penelitian adalah dua kelas. Hasil penelitian menunjukkan bahwa kinerja metode XGBoost dalam akurasi dan sensitivitas lebih baik dibandingkan LightGBM di hampir seluruh data. Sedangkan kemampuan dalam menebak kelas minoritas (spesifisitas), metode LightGBM lebih baik dibandingkan XGBoost dengan nilai keseluruhan rata-rata sebesar 80,41% : 74,64%.
求助全文
通过发布文献求助,成功后即可免费获取论文全文。 去求助
来源期刊
自引率
0.00%
发文量
0
期刊最新文献
Analisis Partial Least Square Structural Equation Model (PLS-SEM) untuk Pemodelan Penerimaan Sistem Jaringan Informasi Bersama Antar Sekolah (JIBAS) Faktor – Faktor yang Memengaruhi Permasalahan Stunting di Jawa Barat Menggunakan Regresi Logistik Biner Pemodelan Pertumbuhan Ekonomi di Jawa Barat Menggunakan Metode Geographically Weighted Panel Regression Penerapan Metode Clustering SOM dan DBSCAN dalam Mengelompokkan Unmet Need Keluarga Berencana di Nusa Tenggara Barat Teknik Oversampling Pada Regresi Logistik Ordinal Dalam Menduga Faktor Yang Memengaruhi Risiko Penyebaran Zona Covid-19 di Kabupaten Garut
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
已复制链接
已复制链接
快去分享给好友吧!
我知道了
×
扫码分享
扫码分享
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1