I. Widaningrum, D. Mustikasari, R. Arifin, Erika Dyah Cahyani
{"title":"分析K-Gram在字符、单词和句子中的用法,以检测文档的相似性","authors":"I. Widaningrum, D. Mustikasari, R. Arifin, Erika Dyah Cahyani","doi":"10.22236/teknoka.v5i.333","DOIUrl":null,"url":null,"abstract":"Pemanfaatan teknologi digital menjadi sebuah kebutuhan saat ini, salah satu komponennya berupa dokumen. Pendeteksian kesamaan bisa menggunakan berbagi macam cara, diantaranya adalah metode fingerprinting. Fingerprint memiliki prinsip kerja menggunakan teknik hashing dan K-gram. Penelitian ini difokuskan pada model deteksi menggunakan K-gram dengan menggunakan algoritma winnowing dan python sebagai bahasa pemrograman. Pengujian parsing k-gram menggunakan 5 buah k yaitu k=2 k=3 k=4 k=5 k=6. Hasilnya, parsing karakter mendapatkan presentase lebih besar dari presentase manual karakter. Presentase parsing kata, memiliki presentase yang paling mendekati dari presentase manual. Sedangkan pada kalimat, presentasenya paling rendah dari presentase manual","PeriodicalId":118779,"journal":{"name":"Prosiding Seminar Nasional Teknoka","volume":"91 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2020-12-20","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"Analisa Penggunaan K-Gram pada Karakter, Kata dan Kalimat untuk Mendeteksi Kesamaan Dokumen\",\"authors\":\"I. Widaningrum, D. Mustikasari, R. Arifin, Erika Dyah Cahyani\",\"doi\":\"10.22236/teknoka.v5i.333\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Pemanfaatan teknologi digital menjadi sebuah kebutuhan saat ini, salah satu komponennya berupa dokumen. Pendeteksian kesamaan bisa menggunakan berbagi macam cara, diantaranya adalah metode fingerprinting. Fingerprint memiliki prinsip kerja menggunakan teknik hashing dan K-gram. Penelitian ini difokuskan pada model deteksi menggunakan K-gram dengan menggunakan algoritma winnowing dan python sebagai bahasa pemrograman. Pengujian parsing k-gram menggunakan 5 buah k yaitu k=2 k=3 k=4 k=5 k=6. Hasilnya, parsing karakter mendapatkan presentase lebih besar dari presentase manual karakter. Presentase parsing kata, memiliki presentase yang paling mendekati dari presentase manual. Sedangkan pada kalimat, presentasenya paling rendah dari presentase manual\",\"PeriodicalId\":118779,\"journal\":{\"name\":\"Prosiding Seminar Nasional Teknoka\",\"volume\":\"91 1\",\"pages\":\"0\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2020-12-20\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Prosiding Seminar Nasional Teknoka\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.22236/teknoka.v5i.333\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Prosiding Seminar Nasional Teknoka","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.22236/teknoka.v5i.333","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
Analisa Penggunaan K-Gram pada Karakter, Kata dan Kalimat untuk Mendeteksi Kesamaan Dokumen
Pemanfaatan teknologi digital menjadi sebuah kebutuhan saat ini, salah satu komponennya berupa dokumen. Pendeteksian kesamaan bisa menggunakan berbagi macam cara, diantaranya adalah metode fingerprinting. Fingerprint memiliki prinsip kerja menggunakan teknik hashing dan K-gram. Penelitian ini difokuskan pada model deteksi menggunakan K-gram dengan menggunakan algoritma winnowing dan python sebagai bahasa pemrograman. Pengujian parsing k-gram menggunakan 5 buah k yaitu k=2 k=3 k=4 k=5 k=6. Hasilnya, parsing karakter mendapatkan presentase lebih besar dari presentase manual karakter. Presentase parsing kata, memiliki presentase yang paling mendekati dari presentase manual. Sedangkan pada kalimat, presentasenya paling rendah dari presentase manual