提高语料库质量提高统计翻译机质量(以印尼语转Java克拉玛语为例)

Muhammad Gerdy Asparilla, Herry Sujaini, Rudy Dwi Nyoto
{"title":"提高语料库质量提高统计翻译机质量(以印尼语转Java克拉玛语为例)","authors":"Muhammad Gerdy Asparilla, Herry Sujaini, Rudy Dwi Nyoto","doi":"10.26418/JLK.V1I2.12","DOIUrl":null,"url":null,"abstract":"Bahasa merupakan alat komunikasi yang dijadikan sarana untuk berinteraksi dengan masyarakat sekitar.Kemampuan akan penguasaan banyak bahasa tentunya akan mempermudah untuk berinteraksi dengan orang lain dari berbagai daerah yang berbeda. Oleh karena itu, diperlukan penerjemah untuk menambah pengetahuan akan berbagai bahasa yang ada. Mesin Penerjemah Statistik (Statistical Machine Translation) merupakan sebuah pendekatan mesin penerjemah dengan hasil terjemahan yang dihasilkan atas dasar model statistik yang parameter-parameternya diambil dari hasil analisis korpus paralel. Korpus paralel adalah pasangan korpus yang berisi kalimat-kalimat dalam suatu bahasa dan terjemahannya. Salah satu fitur yang digunakan untuk meningkatkan kualitas hasil terjemahan adalah dengan optimasi korpus. Tujuan yang ingin dicapai dalam penelitian ini adalah melakukan untuk melihat pengaruh kualitas korpus dengan memfilter pasangan kalimat-kalimat dengan terjemahan berkualitas. Filter yang digunakan adalah nilai minimal setiap kalimat yang di uji dengan metode Bilingual Evaluation Understudy (BLEU). Pengujian dilakukan dengan membandingkan nilai akurasi hasil terjemahan sebelum dan setelah optimasi korpus. Dari hasil penelitian, penggunaan optimasi korpus dapat meningkatkan kualitas terjemahan untuk mesin penerjemah bahasa Indonesia ke bahasa Jawa krama. Hal itu terlihat dari hasil pengujian dengan menambahkan optimasi korpus pada 15 kalimat uji diluar korpus terdapat peningkatan rata - rata nilai BLEU sebesar 10.53% dan dengan menggunakan 100 kalimat uji yang berasal dari korpus optimasi terdapat peningkatan rata-rata nilai BLEU sebesar 11.63%  pada pengujian otomatis serta 0.03% pada pengujian oleh ahli bahasa. Berdasarkan hal tersebut, mesin penerjemah statistik bahasa Indonesia ke bahasa Jawa krama dengan penggunaan fitur optimasi korpus dapat meningkatkan nilai akurasi hasil terjemahan.","PeriodicalId":418646,"journal":{"name":"Jurnal Linguistik Komputasional (JLK)","volume":"1 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2018-09-28","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"1","resultStr":"{\"title\":\"Corpus Quality Improvement to Improve the Quality of Statistical Translator Machines (Case Study of Indonesian Language to Java Krama)\",\"authors\":\"Muhammad Gerdy Asparilla, Herry Sujaini, Rudy Dwi Nyoto\",\"doi\":\"10.26418/JLK.V1I2.12\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Bahasa merupakan alat komunikasi yang dijadikan sarana untuk berinteraksi dengan masyarakat sekitar.Kemampuan akan penguasaan banyak bahasa tentunya akan mempermudah untuk berinteraksi dengan orang lain dari berbagai daerah yang berbeda. Oleh karena itu, diperlukan penerjemah untuk menambah pengetahuan akan berbagai bahasa yang ada. Mesin Penerjemah Statistik (Statistical Machine Translation) merupakan sebuah pendekatan mesin penerjemah dengan hasil terjemahan yang dihasilkan atas dasar model statistik yang parameter-parameternya diambil dari hasil analisis korpus paralel. Korpus paralel adalah pasangan korpus yang berisi kalimat-kalimat dalam suatu bahasa dan terjemahannya. Salah satu fitur yang digunakan untuk meningkatkan kualitas hasil terjemahan adalah dengan optimasi korpus. Tujuan yang ingin dicapai dalam penelitian ini adalah melakukan untuk melihat pengaruh kualitas korpus dengan memfilter pasangan kalimat-kalimat dengan terjemahan berkualitas. Filter yang digunakan adalah nilai minimal setiap kalimat yang di uji dengan metode Bilingual Evaluation Understudy (BLEU). Pengujian dilakukan dengan membandingkan nilai akurasi hasil terjemahan sebelum dan setelah optimasi korpus. Dari hasil penelitian, penggunaan optimasi korpus dapat meningkatkan kualitas terjemahan untuk mesin penerjemah bahasa Indonesia ke bahasa Jawa krama. Hal itu terlihat dari hasil pengujian dengan menambahkan optimasi korpus pada 15 kalimat uji diluar korpus terdapat peningkatan rata - rata nilai BLEU sebesar 10.53% dan dengan menggunakan 100 kalimat uji yang berasal dari korpus optimasi terdapat peningkatan rata-rata nilai BLEU sebesar 11.63%  pada pengujian otomatis serta 0.03% pada pengujian oleh ahli bahasa. Berdasarkan hal tersebut, mesin penerjemah statistik bahasa Indonesia ke bahasa Jawa krama dengan penggunaan fitur optimasi korpus dapat meningkatkan nilai akurasi hasil terjemahan.\",\"PeriodicalId\":418646,\"journal\":{\"name\":\"Jurnal Linguistik Komputasional (JLK)\",\"volume\":\"1 1\",\"pages\":\"0\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2018-09-28\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"1\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Jurnal Linguistik Komputasional (JLK)\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.26418/JLK.V1I2.12\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Jurnal Linguistik Komputasional (JLK)","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.26418/JLK.V1I2.12","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 1

摘要

语言是一种交流工具,是一种与周围社区互动的工具。掌握多种语言的能力当然会使我们更容易与来自不同地区的人交流。因此,需要翻译来增加现有语言的知识。统计机器(统计机器翻译)是一种翻译机器的方法,其翻译结果是基于对并行语系分析结果进行参数测量的统计模型。并联的Korpus是一对以一种语言和翻译为媒介的corpus。提高翻译质量的一个特点是优化语料库。本研究的目标是通过对高质量翻译进行筛选,来检验语料库质量的影响。使用的过滤器是用双语分析方法测试的每个句子的最小值。测试是通过比较翻译在语料库优化之前和之后的准确性值来完成的。根据研究结果,使用语料库优化可以提高印尼语翻译机的翻译质量。它从加入优化测试结果看起来korpus korpus外测试句子有15日平均价值增加蓝10 . 53%和句子用100万的测试来自korpus优化有蓝价值平均11 . 63%的增加自动测试以及测试上的0。03%的语言学家。在此基础上,使用corpus光学特性对印尼语的解释器可以增加翻译准确性。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
查看原文
分享 分享
微信好友 朋友圈 QQ好友 复制链接
本刊更多论文
Corpus Quality Improvement to Improve the Quality of Statistical Translator Machines (Case Study of Indonesian Language to Java Krama)
Bahasa merupakan alat komunikasi yang dijadikan sarana untuk berinteraksi dengan masyarakat sekitar.Kemampuan akan penguasaan banyak bahasa tentunya akan mempermudah untuk berinteraksi dengan orang lain dari berbagai daerah yang berbeda. Oleh karena itu, diperlukan penerjemah untuk menambah pengetahuan akan berbagai bahasa yang ada. Mesin Penerjemah Statistik (Statistical Machine Translation) merupakan sebuah pendekatan mesin penerjemah dengan hasil terjemahan yang dihasilkan atas dasar model statistik yang parameter-parameternya diambil dari hasil analisis korpus paralel. Korpus paralel adalah pasangan korpus yang berisi kalimat-kalimat dalam suatu bahasa dan terjemahannya. Salah satu fitur yang digunakan untuk meningkatkan kualitas hasil terjemahan adalah dengan optimasi korpus. Tujuan yang ingin dicapai dalam penelitian ini adalah melakukan untuk melihat pengaruh kualitas korpus dengan memfilter pasangan kalimat-kalimat dengan terjemahan berkualitas. Filter yang digunakan adalah nilai minimal setiap kalimat yang di uji dengan metode Bilingual Evaluation Understudy (BLEU). Pengujian dilakukan dengan membandingkan nilai akurasi hasil terjemahan sebelum dan setelah optimasi korpus. Dari hasil penelitian, penggunaan optimasi korpus dapat meningkatkan kualitas terjemahan untuk mesin penerjemah bahasa Indonesia ke bahasa Jawa krama. Hal itu terlihat dari hasil pengujian dengan menambahkan optimasi korpus pada 15 kalimat uji diluar korpus terdapat peningkatan rata - rata nilai BLEU sebesar 10.53% dan dengan menggunakan 100 kalimat uji yang berasal dari korpus optimasi terdapat peningkatan rata-rata nilai BLEU sebesar 11.63%  pada pengujian otomatis serta 0.03% pada pengujian oleh ahli bahasa. Berdasarkan hal tersebut, mesin penerjemah statistik bahasa Indonesia ke bahasa Jawa krama dengan penggunaan fitur optimasi korpus dapat meningkatkan nilai akurasi hasil terjemahan.
求助全文
通过发布文献求助,成功后即可免费获取论文全文。 去求助
来源期刊
自引率
0.00%
发文量
0
期刊最新文献
Studi Ekstraksi Fitur Data Teks Rencana Pelaksanaan Pembelajaran Memanfaatkan Model Word2Vec Bagaimana Masyarakat Menyikapi Pembelajaran Tatap Muka: Analisis Komentar Masyarakat pada Media Sosial Youtube Menggunakan Algoritma Deep Learning Sekuensial dan LDA Sentiment Analysis of Stocktwits Data With Word Vector and Gated Recurrent Unit Indonesian Question Answering System for Factoid Questions using Face Beauty Products Knowledge Graph Sentiment Analysis Terhadap Tweet Bernada Sarkasme Berbahasa Indonesia
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
已复制链接
已复制链接
快去分享给好友吧!
我知道了
×
扫码分享
扫码分享
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1