{"title":"Implementasi Clustering Data Kasus Covid 19 Di Indonesia Menggunakan Algoritma K-Means","authors":"Nofita Sari, H. Handayani, Amril Mutoi Siregar","doi":"10.31294/bi.v11i1.14762","DOIUrl":null,"url":null,"abstract":"Covid19 adalah virus pertama kali terdeteksi di Wuhan, Cina pada akhir Desember 2019. Kasus Covid-19 masuk di Indonesia pada Maret 2020, tercatat mencapai 1.511.712 dengan jumlah kematian 40,858 dan sembuh 1.348.330 kasus. Di Indonesia terdapat 34 provinsi yang menjadi persebaran kasus Covid19. Penelitian ini bertujuan untuk mengelompokkan setiap provinsi di Indonesia ke dalam beberapa cluster tertentu agar mengetahui daerah dengan jumlah kasus yang tergolong tinggi, sedang, rendah. Mengelompokan data kasus Covid19 di provinsi Indonesia menggunakan teknik clustering dengan menggunakan algoritma K-means. Data yang digunakan sebanyak 7098 data dari tanggal 1 Maret hingga 11 Oktober 2020. Dataset yang digunakan dari website AtapData (atapdata.ai). Mengolah data tersebut menggunakan Google Collaboratory dengan bahasa pemrograman python. Pada penelitian dilakukan optimasi menggunakan metode elbow yang menghasilkan jumlah cluster sebanyak 3 cluster. Pengujian dilakukan untuk mendapatkan nilai K yang optimal. Melakukan evaluasi menggunakan Sum of Square Error (SSE). Dari hasil evaluasi memiliki jumlah optimal K: 3 yaitu 228913736548657.56.Kata Kunci : Covid19, algoritma K means, Clustering, Metode ElbowCovid19 is a virus that was first detected in Wuhan, China at the end of December 2019. Covid-19 cases entered Indonesia in March 2020, it was recorded that it had reached 1,511,712 with 40,858 deaths and 1,348,330 cases of recovery. In Indonesia there are 34 provinces where the spread of Covid19 cases. This study aims to classify each province in Indonesia into certain clusters in order to identify areas with high, medium, low number of cases. The grouping of Covid19 case data in the Indonesian province uses a clustering technique using the K-means algorithm. The data used is 7098 data from March 1 to October 11 2020. The dataset used is from the AtapData website (atapdata.ai). Processing the data using Google Collaboratory with the python programming language. In this research, optimization was carried out using the elbow method which resulted in a total of 3 clusters. Tests are carried out to obtain optimal K values. Evaluation using Sum of Square Error (SSE). From the evaluation results, it has an optimal number of K: 3, namely 228913736548657.56.Keywords: Covid19, K mean algorithm, Clustering, Elbow Method","PeriodicalId":178404,"journal":{"name":"Bianglala Informatika","volume":"23 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2023-03-24","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Bianglala Informatika","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.31294/bi.v11i1.14762","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0
摘要
Covid19是2019年12月底在中国武汉首次发现的病毒。2020年3月,印度尼西亚的Covid-19病例共记录为1,511712人,死亡人数为40,858人,康复人数为1,348,330人。印度尼西亚有34个省是Covid19案件的发生地。本研究旨在将印度尼西亚的每个省组织成特定的集群,以了解发病率高、中、低的地区。在印度尼西亚省,Covid19案例数据组使用了一种使用k -总共算法的clustering技术。2020年3月1日至10月11日使用的数据多达7098份。来自AtapData网站的数据集。用谷歌collab atory与python编程语言编写数据。在研究中,采用弯曲方法进行优化,从而产生3个集群。测试是为了得到最佳的K值。使用Sum of Square误差进行评估。从评估结果具有最佳K数量:3即228913736548657 56。关键词:Covid19 ElbowCovid19 K意味着算法、聚类方法是第一detected in a病毒,那是中国武汉,at the end of 2019年12月。今年3月,印尼的coviat -19 cases被记录为它在1.511.712处,有40.858人死亡,1.348.330例康复cases。在印度尼西亚有34个省,Covid19 cases的分布。这个研究可以渗透到印尼的每一个省,以确定高、中、低标签的面积。线索:使用数据为7098年3月1日至10月11日。数据来自AtapData网站。使用谷歌合作软件处理数据。在这项研究中,乐观研究采用的方法总共有三种。测试显示出最佳的K值。使用数字概数(SSE)进行评估。从评估结果来看,它有最优K数:3,namely 228913736548657。密码:Covid19, K平均算法,Clustering, Elbow Method
Implementasi Clustering Data Kasus Covid 19 Di Indonesia Menggunakan Algoritma K-Means
Covid19 adalah virus pertama kali terdeteksi di Wuhan, Cina pada akhir Desember 2019. Kasus Covid-19 masuk di Indonesia pada Maret 2020, tercatat mencapai 1.511.712 dengan jumlah kematian 40,858 dan sembuh 1.348.330 kasus. Di Indonesia terdapat 34 provinsi yang menjadi persebaran kasus Covid19. Penelitian ini bertujuan untuk mengelompokkan setiap provinsi di Indonesia ke dalam beberapa cluster tertentu agar mengetahui daerah dengan jumlah kasus yang tergolong tinggi, sedang, rendah. Mengelompokan data kasus Covid19 di provinsi Indonesia menggunakan teknik clustering dengan menggunakan algoritma K-means. Data yang digunakan sebanyak 7098 data dari tanggal 1 Maret hingga 11 Oktober 2020. Dataset yang digunakan dari website AtapData (atapdata.ai). Mengolah data tersebut menggunakan Google Collaboratory dengan bahasa pemrograman python. Pada penelitian dilakukan optimasi menggunakan metode elbow yang menghasilkan jumlah cluster sebanyak 3 cluster. Pengujian dilakukan untuk mendapatkan nilai K yang optimal. Melakukan evaluasi menggunakan Sum of Square Error (SSE). Dari hasil evaluasi memiliki jumlah optimal K: 3 yaitu 228913736548657.56.Kata Kunci : Covid19, algoritma K means, Clustering, Metode ElbowCovid19 is a virus that was first detected in Wuhan, China at the end of December 2019. Covid-19 cases entered Indonesia in March 2020, it was recorded that it had reached 1,511,712 with 40,858 deaths and 1,348,330 cases of recovery. In Indonesia there are 34 provinces where the spread of Covid19 cases. This study aims to classify each province in Indonesia into certain clusters in order to identify areas with high, medium, low number of cases. The grouping of Covid19 case data in the Indonesian province uses a clustering technique using the K-means algorithm. The data used is 7098 data from March 1 to October 11 2020. The dataset used is from the AtapData website (atapdata.ai). Processing the data using Google Collaboratory with the python programming language. In this research, optimization was carried out using the elbow method which resulted in a total of 3 clusters. Tests are carried out to obtain optimal K values. Evaluation using Sum of Square Error (SSE). From the evaluation results, it has an optimal number of K: 3, namely 228913736548657.56.Keywords: Covid19, K mean algorithm, Clustering, Elbow Method