{"title":"Analisis Sentimen Isu Vaksinasi Covid-19 pada Twitter dengan Metode Naive Bayes dan Pembobotan TF-IDF Tokenisasi 1-2 Gram","authors":"Yashmine Hapsari, Syamsul Mujahidin, N. Fadhliana","doi":"10.35718/specta.v7i2.812","DOIUrl":null,"url":null,"abstract":"Vaksinasi COVID-19 telah diberlakukan untuk mengurangi penyebaran virus corona dalam masyarakat, namun status vaksin yang masih dalam tahap pengembangan menjadi salah satu faktor keraguan masyarakat untuk melakukan vaksinasi. Oleh karena itu, dilakukan analisis sentimen terhadap isu vaksinasi COVID-19 dengan proses dan parameter yang dapat meningkatkan akurasi model. Pada penelitian ini, pengklasifikasian sentimen dilakukan dengan menggunakan metode Naive Bayes dan dataset berupa 5000 tweet terkait vaksinasi COVID-19. Tahap pembobotan dilakukan dengan metode TF-IDF dimana dilakukan perbandingan terhadap pengaruh penggunaan tokenisasi unigram, bigram dan 1-2 gram terhadap akurasi model. Hasil dari salah satu percobaan dengan pengklasifikasi Gaussian dan perbandingan train:test yaitu 7:3, didapatkan akurasi model 67.4% untuk parameter unigram, 65.5% untuk parameter bigram, dan 70% untuk parameter 1-2 gram, dimana model dengan token gabungan yaitu 1-2 gram memiliki akurasi yang lebih tinggi jika dibandingkan dengan penggunaan 1 jenis token saja. Berdasarkan hasil tersebut, dapat disimpulkan bahwa penggabungan jenis tokenisasi unigram dan bigram dapat memberikan nilai tambah terhadap model untuk mengklasifikasikan data, sehingga dapat meningkatkan akurasi dalam analisis terkait sentimen publik.","PeriodicalId":33910,"journal":{"name":"Specta","volume":" ","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2023-08-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Specta","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.35718/specta.v7i2.812","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0
Abstract
Vaksinasi COVID-19 telah diberlakukan untuk mengurangi penyebaran virus corona dalam masyarakat, namun status vaksin yang masih dalam tahap pengembangan menjadi salah satu faktor keraguan masyarakat untuk melakukan vaksinasi. Oleh karena itu, dilakukan analisis sentimen terhadap isu vaksinasi COVID-19 dengan proses dan parameter yang dapat meningkatkan akurasi model. Pada penelitian ini, pengklasifikasian sentimen dilakukan dengan menggunakan metode Naive Bayes dan dataset berupa 5000 tweet terkait vaksinasi COVID-19. Tahap pembobotan dilakukan dengan metode TF-IDF dimana dilakukan perbandingan terhadap pengaruh penggunaan tokenisasi unigram, bigram dan 1-2 gram terhadap akurasi model. Hasil dari salah satu percobaan dengan pengklasifikasi Gaussian dan perbandingan train:test yaitu 7:3, didapatkan akurasi model 67.4% untuk parameter unigram, 65.5% untuk parameter bigram, dan 70% untuk parameter 1-2 gram, dimana model dengan token gabungan yaitu 1-2 gram memiliki akurasi yang lebih tinggi jika dibandingkan dengan penggunaan 1 jenis token saja. Berdasarkan hasil tersebut, dapat disimpulkan bahwa penggabungan jenis tokenisasi unigram dan bigram dapat memberikan nilai tambah terhadap model untuk mengklasifikasikan data, sehingga dapat meningkatkan akurasi dalam analisis terkait sentimen publik.