{"title":"KOMPRESI MULTILEVEL PADA METAHEURISTIC FOCUSED WEB CRAWLER","authors":"Dian Septiani Santoso, R. V. H. Ginardi","doi":"10.12962/J24068535.V17I1.A785","DOIUrl":null,"url":null,"abstract":"Focused Web Crawler merupakan metode pencarian website yang sesuai dengan pencarian yang diinginkan oleh user. Untuk mendapatkan kecocokan yang baik, waktu yang dibutuhkan metode Focused Web Crawler lebih lama dibandingkan dengan metode pencarian web crawler pada umumnya yaitu algoritma Depth First Search (DFS) maupun Breadth First Search (BFS). Untuk mengatasi hal tersebut maka muncul sebuah ide yakni teknik pencarian Focused Web Crawler dengan menggunakan metode metaheuristic pencarian cuckoo yang dipadukan dengan pencarian pada data history pencarian yang disimpan. Namun dengan adanya penyimpanan data pada setiap kali pencarian link maka data akan semakin bertambah. Oleh karena itu diperlukan sebuah cara untuk mengurangi kebutuhan ruang penyimpanan. Cara yang dilakukan untuk mengurangi ruang penyimpanan dan tidak mengurangi nilai informasi dari data penyimpanan sebelumnya adalah dengan melakukan kompresi data. Dalam penelitian ini diusulkan metode kompresi data dengan melakukan kompresi multilevel menggunakan dua metode kompresi yaitu pengurangan prefix dan postfix kata dan kompresi string berbasis kamus dengan melakukan pembuatan indeks kamus kata. Hasil kompresi string kamus kata berupa data encode. Untuk menguji hasil dari kompresi data yaitu dengan melakukan perbandingan hasil pencarian link menggunakan metode Knutt Morris Pratt (KMP) dari data yang belum terkompresi dengan data yang telah terkompresi. Hasilnya didapatkan bahwa maksimum presisi dengan nilai 1 dan recall sebesar 0,73. Dari hasil percobaan metode, didapatkan bahwa rasio kompresi file rata-rata adalah sebesar 36,4%.","PeriodicalId":31796,"journal":{"name":"JUTI Jurnal Ilmiah Teknologi Informasi","volume":" ","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2019-03-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"JUTI Jurnal Ilmiah Teknologi Informasi","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.12962/J24068535.V17I1.A785","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0
Abstract
Focused Web Crawler merupakan metode pencarian website yang sesuai dengan pencarian yang diinginkan oleh user. Untuk mendapatkan kecocokan yang baik, waktu yang dibutuhkan metode Focused Web Crawler lebih lama dibandingkan dengan metode pencarian web crawler pada umumnya yaitu algoritma Depth First Search (DFS) maupun Breadth First Search (BFS). Untuk mengatasi hal tersebut maka muncul sebuah ide yakni teknik pencarian Focused Web Crawler dengan menggunakan metode metaheuristic pencarian cuckoo yang dipadukan dengan pencarian pada data history pencarian yang disimpan. Namun dengan adanya penyimpanan data pada setiap kali pencarian link maka data akan semakin bertambah. Oleh karena itu diperlukan sebuah cara untuk mengurangi kebutuhan ruang penyimpanan. Cara yang dilakukan untuk mengurangi ruang penyimpanan dan tidak mengurangi nilai informasi dari data penyimpanan sebelumnya adalah dengan melakukan kompresi data. Dalam penelitian ini diusulkan metode kompresi data dengan melakukan kompresi multilevel menggunakan dua metode kompresi yaitu pengurangan prefix dan postfix kata dan kompresi string berbasis kamus dengan melakukan pembuatan indeks kamus kata. Hasil kompresi string kamus kata berupa data encode. Untuk menguji hasil dari kompresi data yaitu dengan melakukan perbandingan hasil pencarian link menggunakan metode Knutt Morris Pratt (KMP) dari data yang belum terkompresi dengan data yang telah terkompresi. Hasilnya didapatkan bahwa maksimum presisi dengan nilai 1 dan recall sebesar 0,73. Dari hasil percobaan metode, didapatkan bahwa rasio kompresi file rata-rata adalah sebesar 36,4%.
Focused Web Crawler是一种与用户想要的搜索相匹配的Web搜索方法。为了实现良好的匹配,Focused Web Crawler方法比网络爬虫搜索方法耗时更长。通常情况下,搜索方法是深度优先搜索(DFS)算法或广度优先搜索(BFS)。为了克服这一点,出现了一个想法,即使用杜鹃搜索的元启发式方法与存储的搜索历史数据的搜索相结合的Focused Web Crawler搜索技术。但随着每次搜索链接时都存储数据,数据就会增加。因此,它需要一种方法来减少对存储空间的需求。减少存储空间而不减少来自先前存储数据的信息值的方法是压缩数据。在这项研究中,它提出了一种通过使用两种压缩方法进行多级压缩来压缩数据的方法,即前缀和后缀词的减少和通过创建单词索引来压缩基于字符串的字典。字符串压缩结果是经过编码的数据。通过比较使用Knutt Morris Pratt(KMP)方法从未压缩的数据与压缩数据进行链接搜索的结果来测试数据压缩的结果。结果是,最大精度值为1,召回率为0.73。从测试方法中发现,平均文件压缩率为36.4%。