{"title":"ANALISA PERBANDINGAN TEKNIK OVERSAMPLING SMOTE PADA IMBALANCED DATA","authors":"Cosmas Haryawan, Yosef Muria Kusuma Ardhana","doi":"10.36595/jire.v6i1.834","DOIUrl":null,"url":null,"abstract":"Data tidak seimbang atau lebih sering disebut imbalanced data, adalah kondisi pada saat data memiliki rasio yang tidak seimbang antara satu kelas dengan kelas yang lain, sehingga terdapat kelas mayoritas dan kelas minoritas. Sulit untuk membuat prediksi pada dataset yang tidak seimbang karena pengklasifikasi cenderung mendeteksi kelas mayoritas daripada kelas minoritas. Teknik resampling menjadi salah satu yang paling efektif dalam menyelesaikan permasalahan imbalanced data ini. Salah satu kategori dari teknik resampling adalah oversampling. Metode oversampling diantaranya adalah SMOTE dan K-Means SMOTE. Penggunaan oversampling akan meningkatkan hasil measurement klasifikasi. Penelitian ini menggunakan data wine yang memiliki 11 fitur serta 1 atribut target dan bertujuan untuk membandingkan hasil measurement antara penggunaan data sintetis hasil SMOTE dan K-Means SMOTE dengan hasil measurement penggunaan data nyata dalam kondisi data seimbang. Pembuatan data imbalance dilakukan dengan menghapus secara random salah satu kelas dengan ambang 25%, 50%, 60% dan 75%. Hasil penelitian menunjukkan bahwa dibandingkan penggunaan data nyata, penggunaan K-Means SMOTE cenderung menghasilkan nilai lebih tinggi untuk akurasi, sensitivitas dan spesifisitas sedangkan SMOTE meskipun memperoleh nilai yang lebih baik dibandingkan K-Means SMOTE tetapi juga terdapat beberapa kondisi imbalance yang memiliki nilai lebih tinggi dibandingkan penggunaan data nyata.","PeriodicalId":367275,"journal":{"name":"Jurnal Informatika dan Rekayasa Elektronik","volume":"81 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2023-04-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Jurnal Informatika dan Rekayasa Elektronik","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.36595/jire.v6i1.834","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0
Abstract
Data tidak seimbang atau lebih sering disebut imbalanced data, adalah kondisi pada saat data memiliki rasio yang tidak seimbang antara satu kelas dengan kelas yang lain, sehingga terdapat kelas mayoritas dan kelas minoritas. Sulit untuk membuat prediksi pada dataset yang tidak seimbang karena pengklasifikasi cenderung mendeteksi kelas mayoritas daripada kelas minoritas. Teknik resampling menjadi salah satu yang paling efektif dalam menyelesaikan permasalahan imbalanced data ini. Salah satu kategori dari teknik resampling adalah oversampling. Metode oversampling diantaranya adalah SMOTE dan K-Means SMOTE. Penggunaan oversampling akan meningkatkan hasil measurement klasifikasi. Penelitian ini menggunakan data wine yang memiliki 11 fitur serta 1 atribut target dan bertujuan untuk membandingkan hasil measurement antara penggunaan data sintetis hasil SMOTE dan K-Means SMOTE dengan hasil measurement penggunaan data nyata dalam kondisi data seimbang. Pembuatan data imbalance dilakukan dengan menghapus secara random salah satu kelas dengan ambang 25%, 50%, 60% dan 75%. Hasil penelitian menunjukkan bahwa dibandingkan penggunaan data nyata, penggunaan K-Means SMOTE cenderung menghasilkan nilai lebih tinggi untuk akurasi, sensitivitas dan spesifisitas sedangkan SMOTE meskipun memperoleh nilai yang lebih baik dibandingkan K-Means SMOTE tetapi juga terdapat beberapa kondisi imbalance yang memiliki nilai lebih tinggi dibandingkan penggunaan data nyata.