KOMPRESI MULTILEVEL PADA METAHEURISTIC FOCUSED WEB CRAWLER

Dian Septiani Santoso, R. V. H. Ginardi
{"title":"KOMPRESI MULTILEVEL PADA METAHEURISTIC FOCUSED WEB CRAWLER","authors":"Dian Septiani Santoso, R. V. H. Ginardi","doi":"10.12962/J24068535.V17I1.A785","DOIUrl":null,"url":null,"abstract":"Focused Web Crawler merupakan metode pencarian website yang sesuai dengan pencarian yang diinginkan oleh user. Untuk mendapatkan kecocokan yang baik, waktu yang dibutuhkan metode Focused Web Crawler lebih lama dibandingkan dengan metode pencarian web crawler pada umumnya yaitu algoritma Depth First Search (DFS) maupun Breadth First Search (BFS). Untuk mengatasi hal tersebut maka muncul sebuah ide yakni teknik pencarian Focused Web Crawler dengan menggunakan metode metaheuristic pencarian cuckoo yang dipadukan dengan pencarian pada data history pencarian yang disimpan. Namun dengan adanya penyimpanan data pada setiap kali pencarian link maka data akan semakin bertambah. Oleh karena itu diperlukan sebuah cara untuk mengurangi kebutuhan ruang penyimpanan. Cara yang dilakukan untuk mengurangi ruang penyimpanan dan tidak mengurangi nilai informasi dari data penyimpanan sebelumnya adalah dengan melakukan kompresi data. Dalam penelitian ini diusulkan metode kompresi data dengan melakukan kompresi multilevel menggunakan dua metode kompresi yaitu pengurangan prefix dan postfix kata dan kompresi string berbasis kamus dengan melakukan pembuatan indeks kamus kata. Hasil kompresi string kamus kata berupa data encode. Untuk menguji hasil dari kompresi data yaitu dengan melakukan perbandingan hasil pencarian link menggunakan metode Knutt Morris Pratt (KMP) dari data yang belum terkompresi dengan data yang telah terkompresi. Hasilnya didapatkan bahwa maksimum presisi dengan nilai 1 dan recall sebesar 0,73. Dari hasil percobaan metode, didapatkan bahwa rasio kompresi file rata-rata adalah sebesar 36,4%.","PeriodicalId":31796,"journal":{"name":"JUTI Jurnal Ilmiah Teknologi Informasi","volume":" ","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2019-03-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"JUTI Jurnal Ilmiah Teknologi Informasi","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.12962/J24068535.V17I1.A785","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

Abstract

Focused Web Crawler merupakan metode pencarian website yang sesuai dengan pencarian yang diinginkan oleh user. Untuk mendapatkan kecocokan yang baik, waktu yang dibutuhkan metode Focused Web Crawler lebih lama dibandingkan dengan metode pencarian web crawler pada umumnya yaitu algoritma Depth First Search (DFS) maupun Breadth First Search (BFS). Untuk mengatasi hal tersebut maka muncul sebuah ide yakni teknik pencarian Focused Web Crawler dengan menggunakan metode metaheuristic pencarian cuckoo yang dipadukan dengan pencarian pada data history pencarian yang disimpan. Namun dengan adanya penyimpanan data pada setiap kali pencarian link maka data akan semakin bertambah. Oleh karena itu diperlukan sebuah cara untuk mengurangi kebutuhan ruang penyimpanan. Cara yang dilakukan untuk mengurangi ruang penyimpanan dan tidak mengurangi nilai informasi dari data penyimpanan sebelumnya adalah dengan melakukan kompresi data. Dalam penelitian ini diusulkan metode kompresi data dengan melakukan kompresi multilevel menggunakan dua metode kompresi yaitu pengurangan prefix dan postfix kata dan kompresi string berbasis kamus dengan melakukan pembuatan indeks kamus kata. Hasil kompresi string kamus kata berupa data encode. Untuk menguji hasil dari kompresi data yaitu dengan melakukan perbandingan hasil pencarian link menggunakan metode Knutt Morris Pratt (KMP) dari data yang belum terkompresi dengan data yang telah terkompresi. Hasilnya didapatkan bahwa maksimum presisi dengan nilai 1 dan recall sebesar 0,73. Dari hasil percobaan metode, didapatkan bahwa rasio kompresi file rata-rata adalah sebesar 36,4%.
查看原文
分享 分享
微信好友 朋友圈 QQ好友 复制链接
本刊更多论文
Kompresi多层文本元启发式聚焦网络爬虫
Focused Web Crawler是一种与用户想要的搜索相匹配的Web搜索方法。为了实现良好的匹配,Focused Web Crawler方法比网络爬虫搜索方法耗时更长。通常情况下,搜索方法是深度优先搜索(DFS)算法或广度优先搜索(BFS)。为了克服这一点,出现了一个想法,即使用杜鹃搜索的元启发式方法与存储的搜索历史数据的搜索相结合的Focused Web Crawler搜索技术。但随着每次搜索链接时都存储数据,数据就会增加。因此,它需要一种方法来减少对存储空间的需求。减少存储空间而不减少来自先前存储数据的信息值的方法是压缩数据。在这项研究中,它提出了一种通过使用两种压缩方法进行多级压缩来压缩数据的方法,即前缀和后缀词的减少和通过创建单词索引来压缩基于字符串的字典。字符串压缩结果是经过编码的数据。通过比较使用Knutt Morris Pratt(KMP)方法从未压缩的数据与压缩数据进行链接搜索的结果来测试数据压缩的结果。结果是,最大精度值为1,召回率为0.73。从测试方法中发现,平均文件压缩率为36.4%。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 去求助
来源期刊
自引率
0.00%
发文量
0
审稿时长
12 weeks
期刊最新文献
Rancang Bangun Sistem Presensi Mahasiswa Berbasis Web Dengan Pendekatan PIECES IMPLEMENTASI METODE PROTOTYPE UNTUK PERANCANGAN SISTEM INFORMASI PENYEDIA JASA MONTIR SISTEM PENDUKUNG KEPUTUSAN MENENTUKAN SISWA PENERIMA BEASISWA DENGAN METODE SIMPLE ADDITIVE WEIGHTING BERBASIS PAAS CLOUD COMPUTING Sistem Informasi Helpdesk Dalam Tata Kelola Teknologi Informasi Pada Diskominfo dan SP Analisis Faktor Kesuksesan Aplikasi HRIS Mobile Menggunakan Model Delone And Mclean
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
已复制链接
已复制链接
快去分享给好友吧!
我知道了
×
扫码分享
扫码分享
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1