具有n克和Jaro-Winkler远距离的信息部文本的拼写校正应用

Herry Sujaini, H. Muhardi, J. H. Simanjuntak
{"title":"具有n克和Jaro-Winkler远距离的信息部文本的拼写校正应用","authors":"Herry Sujaini, H. Muhardi, J. H. Simanjuntak","doi":"10.26418/jp.v8i2.48092","DOIUrl":null,"url":null,"abstract":"Kesalahan penulisan atau typographical error adalah hal yang biasa terjadi dalam penulisan suatu dokumen. Namun dalam penulisan dokumen karya ilmiah seperti jurnal penelitian, hal tersebut harus dihindari karena dapat membuat informasi yang disampaikan menjadi tidak jelas ataupun bias. Untuk mengatasi permasalan tersebut dibutuhkan sebuah aplikasi spelling corrector yang mampu mendeteksi typographical error dan dapat memberikan rekomendasi kata yang sesuai. Terdapat banyak metode yang bisa diimplementasikan dalam membangun sebuah aplikasi spelling corrector, diantaranya ialah N-Gram dan Jaro-Winkler Distance. Jaro-Winkler Distance berperan untuk menghitung nilai kemiripan antara kata yang mengalami typographical error terhadap kata pada korpus untuk mencari daftar kata yang paling mendekati. Korpus yang digunakan disusun dari naskah jurnal bidang informatika serta kosa kata KBBI. Kemudian N-Gram digunakan untuk mencari nilai probabilitas kata dengan memperhatikan satu kata sebelum dan satu kata sesudahnya atau yang disebut nilai bigram. Metode-metode tersebut diterapkan pada sebuah aplikasi spelling corrector berbasis web yang dapat mendeteksi kesalahan penulisan dan memberikan rekomendasi perbaikan pada dokumen Microsoft Word (.docx), khususnya dokumen jurnal bidang informatika. Pengujian aplikasi dilakukan dengan 9 jenis kesalahan penulisan. Jumlah kalimat yang diujikan adalah 180 kalimat dan pada tiap kalimat terdapat satu kata yang salah. Pengujian memperoleh hasil yang menyatakan bahwa aplikasi ini memberikan tingkat kesesuaian atau presisi 71,348% dan tingkat kesuksesan 98,449% untuk memberikan satu saran perbaikan kata yang sesuai untuk satu kata yang salah dalam suatu kalimat. Metode-metode tersebut dapat diterapkan untuk memperbaiki typographical error akan tetapi kualitas dan kuantitas korpus sangat berpengaruh pada hasil yang diberikan, sehingga masih sangat dibutuhkan korpus yang lebih baik lagi.","PeriodicalId":31793,"journal":{"name":"JEPIN Jurnal Edukasi dan Penelitian Informatika","volume":"20 1","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2022-08-11","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"Aplikasi Pengoreksi Ejaan (Spelling Correction) pada Naskah Jurnal Bidang Informatika dengan N-Gram dan Jaro-Winkler Distance\",\"authors\":\"Herry Sujaini, H. Muhardi, J. H. Simanjuntak\",\"doi\":\"10.26418/jp.v8i2.48092\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Kesalahan penulisan atau typographical error adalah hal yang biasa terjadi dalam penulisan suatu dokumen. Namun dalam penulisan dokumen karya ilmiah seperti jurnal penelitian, hal tersebut harus dihindari karena dapat membuat informasi yang disampaikan menjadi tidak jelas ataupun bias. Untuk mengatasi permasalan tersebut dibutuhkan sebuah aplikasi spelling corrector yang mampu mendeteksi typographical error dan dapat memberikan rekomendasi kata yang sesuai. Terdapat banyak metode yang bisa diimplementasikan dalam membangun sebuah aplikasi spelling corrector, diantaranya ialah N-Gram dan Jaro-Winkler Distance. Jaro-Winkler Distance berperan untuk menghitung nilai kemiripan antara kata yang mengalami typographical error terhadap kata pada korpus untuk mencari daftar kata yang paling mendekati. Korpus yang digunakan disusun dari naskah jurnal bidang informatika serta kosa kata KBBI. Kemudian N-Gram digunakan untuk mencari nilai probabilitas kata dengan memperhatikan satu kata sebelum dan satu kata sesudahnya atau yang disebut nilai bigram. Metode-metode tersebut diterapkan pada sebuah aplikasi spelling corrector berbasis web yang dapat mendeteksi kesalahan penulisan dan memberikan rekomendasi perbaikan pada dokumen Microsoft Word (.docx), khususnya dokumen jurnal bidang informatika. Pengujian aplikasi dilakukan dengan 9 jenis kesalahan penulisan. Jumlah kalimat yang diujikan adalah 180 kalimat dan pada tiap kalimat terdapat satu kata yang salah. Pengujian memperoleh hasil yang menyatakan bahwa aplikasi ini memberikan tingkat kesesuaian atau presisi 71,348% dan tingkat kesuksesan 98,449% untuk memberikan satu saran perbaikan kata yang sesuai untuk satu kata yang salah dalam suatu kalimat. Metode-metode tersebut dapat diterapkan untuk memperbaiki typographical error akan tetapi kualitas dan kuantitas korpus sangat berpengaruh pada hasil yang diberikan, sehingga masih sangat dibutuhkan korpus yang lebih baik lagi.\",\"PeriodicalId\":31793,\"journal\":{\"name\":\"JEPIN Jurnal Edukasi dan Penelitian Informatika\",\"volume\":\"20 1\",\"pages\":\"\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2022-08-11\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"JEPIN Jurnal Edukasi dan Penelitian Informatika\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.26418/jp.v8i2.48092\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"JEPIN Jurnal Edukasi dan Penelitian Informatika","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.26418/jp.v8i2.48092","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

摘要

书写错误或typographical错误在写文档时很常见。但是,在撰写科学论文(如研究期刊)等著作中,这是必须避免的,因为它们会使所传递的信息变得模糊或有偏见。为了解决这个问题,需要一个拼写校正应用程序,能够检测typo图形错误,并提供适当的文字推荐。可以应用的方法有很多,比如n克和距离Jaro-Winkler应用。Jaro-Winkler dissection的作用是计算corpus上出现typographical error之间的相似性值,以查找最接近的单词列表。使用的狼牙棒是根据KBBI的信息量和词汇编纂而成的。然后N-Gram通过在单词前面看一个单词,然后在单词后面看一个单词或所谓的bigram值来搜索单词的概率值。这些方法适用于基于web的拼写错误检测应用程序,并对Microsoft Word (.docx)文件(特别是信息学日志文件)提供改进建议。应用程序测试涉及九种类型的书写错误。考数是180个句子,每个句子有一个错误的单词。测试结果表明,该应用程序提供了与71.348%的一致性或精确度,成功率98.449%,为一个句子中的一个错误单词提供一个适当的纠正建议。这些方法可以应用于纠正打字错误,但朝鲜半岛的质量和数量对所产生的影响很大,因此仍然非常需要更好的胭脂虫。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
查看原文
分享 分享
微信好友 朋友圈 QQ好友 复制链接
本刊更多论文
Aplikasi Pengoreksi Ejaan (Spelling Correction) pada Naskah Jurnal Bidang Informatika dengan N-Gram dan Jaro-Winkler Distance
Kesalahan penulisan atau typographical error adalah hal yang biasa terjadi dalam penulisan suatu dokumen. Namun dalam penulisan dokumen karya ilmiah seperti jurnal penelitian, hal tersebut harus dihindari karena dapat membuat informasi yang disampaikan menjadi tidak jelas ataupun bias. Untuk mengatasi permasalan tersebut dibutuhkan sebuah aplikasi spelling corrector yang mampu mendeteksi typographical error dan dapat memberikan rekomendasi kata yang sesuai. Terdapat banyak metode yang bisa diimplementasikan dalam membangun sebuah aplikasi spelling corrector, diantaranya ialah N-Gram dan Jaro-Winkler Distance. Jaro-Winkler Distance berperan untuk menghitung nilai kemiripan antara kata yang mengalami typographical error terhadap kata pada korpus untuk mencari daftar kata yang paling mendekati. Korpus yang digunakan disusun dari naskah jurnal bidang informatika serta kosa kata KBBI. Kemudian N-Gram digunakan untuk mencari nilai probabilitas kata dengan memperhatikan satu kata sebelum dan satu kata sesudahnya atau yang disebut nilai bigram. Metode-metode tersebut diterapkan pada sebuah aplikasi spelling corrector berbasis web yang dapat mendeteksi kesalahan penulisan dan memberikan rekomendasi perbaikan pada dokumen Microsoft Word (.docx), khususnya dokumen jurnal bidang informatika. Pengujian aplikasi dilakukan dengan 9 jenis kesalahan penulisan. Jumlah kalimat yang diujikan adalah 180 kalimat dan pada tiap kalimat terdapat satu kata yang salah. Pengujian memperoleh hasil yang menyatakan bahwa aplikasi ini memberikan tingkat kesesuaian atau presisi 71,348% dan tingkat kesuksesan 98,449% untuk memberikan satu saran perbaikan kata yang sesuai untuk satu kata yang salah dalam suatu kalimat. Metode-metode tersebut dapat diterapkan untuk memperbaiki typographical error akan tetapi kualitas dan kuantitas korpus sangat berpengaruh pada hasil yang diberikan, sehingga masih sangat dibutuhkan korpus yang lebih baik lagi.
求助全文
通过发布文献求助,成功后即可免费获取论文全文。 去求助
来源期刊
自引率
0.00%
发文量
1
审稿时长
10 weeks
期刊最新文献
Optimasi Hyperparameter pada Neural Network (Studi Kasus: Identifikasi Komentar Cyberbullying Instagram) Algoritma Penanganan Constraint pada Persoalan Penjadwalan Perkuliahan Universitas di Lingkungan Pendidikan Tinggi Keagamaan Islam (PTKI) Sistem Penilaian Jawaban Singkat Otomatis pada Ujian Online Berbasis Komputer Menggunakan Algoritma Cosine Similarity Penerapan Seleksi Fitur Particle Swarm Optimization pada Klasifikasi Teks (Studi Kasus: Komentar Cyberbullying Instagram) Sistem Rekomendasi Topik Skripsi Program Studi Informatika
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
已复制链接
已复制链接
快去分享给好友吧!
我知道了
×
扫码分享
扫码分享
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1