Komparasi Optimasi Chi-Square, CFS, Information Gain dan ANOVA dalam Evaluasi Peningkatan Akurasi Algoritma Klasifikasi Data Performa Akademik Mahasiswa
{"title":"Komparasi Optimasi Chi-Square, CFS, Information Gain dan ANOVA dalam Evaluasi Peningkatan Akurasi Algoritma Klasifikasi Data Performa Akademik Mahasiswa","authors":"Taghfirul Azhima Yoga Siswa","doi":"10.30872/jim.v18i1.11330","DOIUrl":null,"url":null,"abstract":"Telah banyak penelitian implementasi data mining pada perfoma akademik mahasiswa yang dilakukan untuk mencari kinerja terbaik dari algoritma klasifikasi, namun penelitian yang menguji hubungan atribut-atribut dengan dimensi data yang tinggi pada pemodelan terhadap label data yang digunakan masih rendah. Penelitian ini bertujuan untuk mengkomparasi peningkatan akurasi algoritma klasifikasi yakni Naive Bayes, C4.5, Random Forest, dan Logistic Regression yang telah dioptimasi dengan beberapa algoritma seleksi fitur seperti Chi-Square, CFS, Information Gain dan ANOVA. Dataset yang digunakan berjumlah 2663 record, dengan membagi data menggunakan metode 5-fold cross validation kemudian dilakukan evaluasi kinerja algoritma menggunakan confusion matrix. Hasil penelitian yang diperoleh adalah optimasi Chi-square memiliki nilai tertinggi dalam meningkatkan akurasi pemodelan algoritma klasifikasi, dengan rata-rata peningkatan akurasi sebesar 2.45%. Sementara, hasil perbandingan algoritma klasifikasi dalam menangani data prediksi performa mahasiswa menghasilkan algoritma Random Forest sebagai algoritma klasifikasi tertinggi dengan persentase accuracy sebesar 94.5%, precision 95%, recall 94, f1-score 94%.","PeriodicalId":149284,"journal":{"name":"Informatika Mulawarman : Jurnal Ilmiah Ilmu Komputer","volume":"51 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2023-02-20","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Informatika Mulawarman : Jurnal Ilmiah Ilmu Komputer","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.30872/jim.v18i1.11330","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0
Abstract
Telah banyak penelitian implementasi data mining pada perfoma akademik mahasiswa yang dilakukan untuk mencari kinerja terbaik dari algoritma klasifikasi, namun penelitian yang menguji hubungan atribut-atribut dengan dimensi data yang tinggi pada pemodelan terhadap label data yang digunakan masih rendah. Penelitian ini bertujuan untuk mengkomparasi peningkatan akurasi algoritma klasifikasi yakni Naive Bayes, C4.5, Random Forest, dan Logistic Regression yang telah dioptimasi dengan beberapa algoritma seleksi fitur seperti Chi-Square, CFS, Information Gain dan ANOVA. Dataset yang digunakan berjumlah 2663 record, dengan membagi data menggunakan metode 5-fold cross validation kemudian dilakukan evaluasi kinerja algoritma menggunakan confusion matrix. Hasil penelitian yang diperoleh adalah optimasi Chi-square memiliki nilai tertinggi dalam meningkatkan akurasi pemodelan algoritma klasifikasi, dengan rata-rata peningkatan akurasi sebesar 2.45%. Sementara, hasil perbandingan algoritma klasifikasi dalam menangani data prediksi performa mahasiswa menghasilkan algoritma Random Forest sebagai algoritma klasifikasi tertinggi dengan persentase accuracy sebesar 94.5%, precision 95%, recall 94, f1-score 94%.