首页 > 最新文献

Jurnal Linguistik Komputasional (JLK)最新文献

英文 中文
Analisis Morfologi untuk Menangani Out-of-Vocabulary Words pada Part-of-Speech Tagger Bahasa Indonesia Menggunakan Hidden Markov Model 印尼语词性标注器的词性分析。蒙古纳坎隐马尔科夫模型
Pub Date : 2019-03-25 DOI: 10.26418/JLK.V2I1.13
Febyana Ramadhanti, Yudi Wibisono, R. Sukamto
Part-of-speech (PoS) tagger merupakan salah satu task dalam bidang natural language processing (NLP) sebagai proses penandaan kategori kata (part-of-speech) untuk setiap kata pada teks kalimat masukan. Hidden markov model (HMM) merupakan algoritma PoS tagger berbasis probabilistik, sehingga sangat tergantung pada train corpus. Terbatasnya komponen dalam train corpus dan luasnya kata dalam bahasa Indonesia menimbulkan masalah yang disebut out-of-vocabulary (OOV) words. Penelitian ini membandingkan PoS tagger yang menggunakan HMM+AM (analisis morfologi) dan PoS tagger HMM tanpa AM, dengan menggunakan train corpus dan testing corpus yang sama. Testing corpus mengandung 30% tingkat OOV dari 6.676 token atau 740 kalimat masukan. Hasil yang diperoleh dari sistem HMM saja memiliki akurasi 97.54%, sedangkan sistem HMM dengan metode analisis morfologi memiliki akurasi tertinggi 99.14%. 
tagger是自然语言处理(NLP)领域的一个任务,为输入句文本中的每个单词进行标记类别。隐藏马可夫模型是一个基于概率的邮政编码算法,这在很大程度上取决于语料库。语料库中组件的有限和单词的广度导致了一种叫做vocabulary的问题。该研究比较了一个使用mm +AM(形态分析)的tagger和一个嗯不使用AM的tagger,使用相同的火车语料库和测试语料库。验证语料库包含6676个令牌或740个输入句中的30%的OOV水平。从mm系统中获得的分数仅为97% .54%,而具有形态分析方法的HMM系统的准确率最高为99.14%。
{"title":"Analisis Morfologi untuk Menangani Out-of-Vocabulary Words pada Part-of-Speech Tagger Bahasa Indonesia Menggunakan Hidden Markov Model","authors":"Febyana Ramadhanti, Yudi Wibisono, R. Sukamto","doi":"10.26418/JLK.V2I1.13","DOIUrl":"https://doi.org/10.26418/JLK.V2I1.13","url":null,"abstract":"Part-of-speech (PoS) tagger merupakan salah satu task dalam bidang natural language processing (NLP) sebagai proses penandaan kategori kata (part-of-speech) untuk setiap kata pada teks kalimat masukan. Hidden markov model (HMM) merupakan algoritma PoS tagger berbasis probabilistik, sehingga sangat tergantung pada train corpus. Terbatasnya komponen dalam train corpus dan luasnya kata dalam bahasa Indonesia menimbulkan masalah yang disebut out-of-vocabulary (OOV) words. Penelitian ini membandingkan PoS tagger yang menggunakan HMM+AM (analisis morfologi) dan PoS tagger HMM tanpa AM, dengan menggunakan train corpus dan testing corpus yang sama. Testing corpus mengandung 30% tingkat OOV dari 6.676 token atau 740 kalimat masukan. Hasil yang diperoleh dari sistem HMM saja memiliki akurasi 97.54%, sedangkan sistem HMM dengan metode analisis morfologi memiliki akurasi tertinggi 99.14%. ","PeriodicalId":418646,"journal":{"name":"Jurnal Linguistik Komputasional (JLK)","volume":"12 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-03-25","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"123663968","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 6
Corpus Quality Improvement to Improve the Quality of Statistical Translator Machines (Case Study of Indonesian Language to Java Krama) 提高语料库质量提高统计翻译机质量(以印尼语转Java克拉玛语为例)
Pub Date : 2018-09-28 DOI: 10.26418/JLK.V1I2.12
Muhammad Gerdy Asparilla, Herry Sujaini, Rudy Dwi Nyoto
Bahasa merupakan alat komunikasi yang dijadikan sarana untuk berinteraksi dengan masyarakat sekitar.Kemampuan akan penguasaan banyak bahasa tentunya akan mempermudah untuk berinteraksi dengan orang lain dari berbagai daerah yang berbeda. Oleh karena itu, diperlukan penerjemah untuk menambah pengetahuan akan berbagai bahasa yang ada. Mesin Penerjemah Statistik (Statistical Machine Translation) merupakan sebuah pendekatan mesin penerjemah dengan hasil terjemahan yang dihasilkan atas dasar model statistik yang parameter-parameternya diambil dari hasil analisis korpus paralel. Korpus paralel adalah pasangan korpus yang berisi kalimat-kalimat dalam suatu bahasa dan terjemahannya. Salah satu fitur yang digunakan untuk meningkatkan kualitas hasil terjemahan adalah dengan optimasi korpus. Tujuan yang ingin dicapai dalam penelitian ini adalah melakukan untuk melihat pengaruh kualitas korpus dengan memfilter pasangan kalimat-kalimat dengan terjemahan berkualitas. Filter yang digunakan adalah nilai minimal setiap kalimat yang di uji dengan metode Bilingual Evaluation Understudy (BLEU). Pengujian dilakukan dengan membandingkan nilai akurasi hasil terjemahan sebelum dan setelah optimasi korpus. Dari hasil penelitian, penggunaan optimasi korpus dapat meningkatkan kualitas terjemahan untuk mesin penerjemah bahasa Indonesia ke bahasa Jawa krama. Hal itu terlihat dari hasil pengujian dengan menambahkan optimasi korpus pada 15 kalimat uji diluar korpus terdapat peningkatan rata - rata nilai BLEU sebesar 10.53% dan dengan menggunakan 100 kalimat uji yang berasal dari korpus optimasi terdapat peningkatan rata-rata nilai BLEU sebesar 11.63%  pada pengujian otomatis serta 0.03% pada pengujian oleh ahli bahasa. Berdasarkan hal tersebut, mesin penerjemah statistik bahasa Indonesia ke bahasa Jawa krama dengan penggunaan fitur optimasi korpus dapat meningkatkan nilai akurasi hasil terjemahan.
语言是一种交流工具,是一种与周围社区互动的工具。掌握多种语言的能力当然会使我们更容易与来自不同地区的人交流。因此,需要翻译来增加现有语言的知识。统计机器(统计机器翻译)是一种翻译机器的方法,其翻译结果是基于对并行语系分析结果进行参数测量的统计模型。并联的Korpus是一对以一种语言和翻译为媒介的corpus。提高翻译质量的一个特点是优化语料库。本研究的目标是通过对高质量翻译进行筛选,来检验语料库质量的影响。使用的过滤器是用双语分析方法测试的每个句子的最小值。测试是通过比较翻译在语料库优化之前和之后的准确性值来完成的。根据研究结果,使用语料库优化可以提高印尼语翻译机的翻译质量。它从加入优化测试结果看起来korpus korpus外测试句子有15日平均价值增加蓝10 . 53%和句子用100万的测试来自korpus优化有蓝价值平均11 . 63%的增加自动测试以及测试上的0。03%的语言学家。在此基础上,使用corpus光学特性对印尼语的解释器可以增加翻译准确性。
{"title":"Corpus Quality Improvement to Improve the Quality of Statistical Translator Machines (Case Study of Indonesian Language to Java Krama)","authors":"Muhammad Gerdy Asparilla, Herry Sujaini, Rudy Dwi Nyoto","doi":"10.26418/JLK.V1I2.12","DOIUrl":"https://doi.org/10.26418/JLK.V1I2.12","url":null,"abstract":"Bahasa merupakan alat komunikasi yang dijadikan sarana untuk berinteraksi dengan masyarakat sekitar.Kemampuan akan penguasaan banyak bahasa tentunya akan mempermudah untuk berinteraksi dengan orang lain dari berbagai daerah yang berbeda. Oleh karena itu, diperlukan penerjemah untuk menambah pengetahuan akan berbagai bahasa yang ada. Mesin Penerjemah Statistik (Statistical Machine Translation) merupakan sebuah pendekatan mesin penerjemah dengan hasil terjemahan yang dihasilkan atas dasar model statistik yang parameter-parameternya diambil dari hasil analisis korpus paralel. Korpus paralel adalah pasangan korpus yang berisi kalimat-kalimat dalam suatu bahasa dan terjemahannya. Salah satu fitur yang digunakan untuk meningkatkan kualitas hasil terjemahan adalah dengan optimasi korpus. Tujuan yang ingin dicapai dalam penelitian ini adalah melakukan untuk melihat pengaruh kualitas korpus dengan memfilter pasangan kalimat-kalimat dengan terjemahan berkualitas. Filter yang digunakan adalah nilai minimal setiap kalimat yang di uji dengan metode Bilingual Evaluation Understudy (BLEU). Pengujian dilakukan dengan membandingkan nilai akurasi hasil terjemahan sebelum dan setelah optimasi korpus. Dari hasil penelitian, penggunaan optimasi korpus dapat meningkatkan kualitas terjemahan untuk mesin penerjemah bahasa Indonesia ke bahasa Jawa krama. Hal itu terlihat dari hasil pengujian dengan menambahkan optimasi korpus pada 15 kalimat uji diluar korpus terdapat peningkatan rata - rata nilai BLEU sebesar 10.53% dan dengan menggunakan 100 kalimat uji yang berasal dari korpus optimasi terdapat peningkatan rata-rata nilai BLEU sebesar 11.63%  pada pengujian otomatis serta 0.03% pada pengujian oleh ahli bahasa. Berdasarkan hal tersebut, mesin penerjemah statistik bahasa Indonesia ke bahasa Jawa krama dengan penggunaan fitur optimasi korpus dapat meningkatkan nilai akurasi hasil terjemahan.","PeriodicalId":418646,"journal":{"name":"Jurnal Linguistik Komputasional (JLK)","volume":"1 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2018-09-28","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"130659370","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 1
Pembangunan Monolingual Word Alignment Pada Terjemahan Al-Quran Berbahasa Indonesia
Pub Date : 2018-09-24 DOI: 10.26418/JLK.V1I2.11
Galih Rizky Prabowo
Telah berabad-abad Al-Qur’an hadir di tengah-tengah peradaban dan pergaulan umat manusia yang terdiri dari 6236 ayat. Untuk mengukur kesamaan semantik antar terjemahan ayat Al-Quran yang bertujuan untuk memahami lebih dalam terhadap makna yang terkait pada ayat Al-Quran dibutuhkan suatu metode salah satunya dengan monolingual word alignment. Monolingual alignment adalah metode penyejajaran kata yang mengidentifikasi kesamaan antar kata dalam pasangan kalimat yang ada. Selain penggunaan metode monolingual alignment dalam pengukuran kesamaan kata yang ada, dibutuhkan pula sebuah dataset yang di align yang berfungsi sebagai kumpulan dari objek yang isinya adalah hubungan semantik antar sets yang ada. Namun dataset monolingual word alignment untuk bahasa Indonesia berformat MSR masih sangat terbatas volumenya. Dalam penelitian ini, diaplikasikan beberapa fitur dalam metode monolingual alignment dalam pembangunan dataset monolingual word alignment bahasa Indonesia berformat MSR yaitu align identical words, align PFA dan align word sequences dengan menghasilkan nilai F1 86.94 %. Untuk hasil F1 terbaik dihasilkan dari beberapa gabungan fitur alignment yaitu dengan fitur align identical words dan align PFA dengan hasil F1 sebesar 88.83 %. Kata kunci— Al-Quran, Monolingual Alignment, MSR
几个世纪以来,古兰经一直存在于人类文明和协会之中,其中包括6236节。为了测量《古兰经》文本中表达的语义翻译之间的相似性,为了更深入地理解《古兰经》文本的相关含义,需要一种方法,其中一种方法与单语单词alignment相协调。单语系是一种排列单词的方法,这种方法可以识别句子对之间的相似性。除了使用单语言调谐方法来衡量单词之间的相似性外,还需要在alignment中使用一个调谐工具,以收集现有语义关系的对象。然而,带有MSR格式的单语单词alignal的数据音量仍然非常有限。在这项研究中,在构建单语语言字符串单词alignment的过程中,使用了几种特征。对于F1的最好结果是由几个alignment特性,即关系标识符和PFA特性,除以88.83。关键词——《古兰经》、单语言校准、MSR
{"title":"Pembangunan Monolingual Word Alignment Pada Terjemahan Al-Quran Berbahasa Indonesia","authors":"Galih Rizky Prabowo","doi":"10.26418/JLK.V1I2.11","DOIUrl":"https://doi.org/10.26418/JLK.V1I2.11","url":null,"abstract":"Telah berabad-abad Al-Qur’an hadir di tengah-tengah peradaban dan pergaulan umat manusia yang terdiri dari 6236 ayat. Untuk mengukur kesamaan semantik antar terjemahan ayat Al-Quran yang bertujuan untuk memahami lebih dalam terhadap makna yang terkait pada ayat Al-Quran dibutuhkan suatu metode salah satunya dengan monolingual word alignment. Monolingual alignment adalah metode penyejajaran kata yang mengidentifikasi kesamaan antar kata dalam pasangan kalimat yang ada. Selain penggunaan metode monolingual alignment dalam pengukuran kesamaan kata yang ada, dibutuhkan pula sebuah dataset yang di align yang berfungsi sebagai kumpulan dari objek yang isinya adalah hubungan semantik antar sets yang ada. Namun dataset monolingual word alignment untuk bahasa Indonesia berformat MSR masih sangat terbatas volumenya. Dalam penelitian ini, diaplikasikan beberapa fitur dalam metode monolingual alignment dalam pembangunan dataset monolingual word alignment bahasa Indonesia berformat MSR yaitu align identical words, align PFA dan align word sequences dengan menghasilkan nilai F1 86.94 %. Untuk hasil F1 terbaik dihasilkan dari beberapa gabungan fitur alignment yaitu dengan fitur align identical words dan align PFA dengan hasil F1 sebesar 88.83 %. \u0000Kata kunci— Al-Quran, Monolingual Alignment, MSR","PeriodicalId":418646,"journal":{"name":"Jurnal Linguistik Komputasional (JLK)","volume":"25 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2018-09-24","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"123392835","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 1
期刊
Jurnal Linguistik Komputasional (JLK)
全部 Acc. Chem. Res. ACS Applied Bio Materials ACS Appl. Electron. Mater. ACS Appl. Energy Mater. ACS Appl. Mater. Interfaces ACS Appl. Nano Mater. ACS Appl. Polym. Mater. ACS BIOMATER-SCI ENG ACS Catal. ACS Cent. Sci. ACS Chem. Biol. ACS Chemical Health & Safety ACS Chem. Neurosci. ACS Comb. Sci. ACS Earth Space Chem. ACS Energy Lett. ACS Infect. Dis. ACS Macro Lett. ACS Mater. Lett. ACS Med. Chem. Lett. ACS Nano ACS Omega ACS Photonics ACS Sens. ACS Sustainable Chem. Eng. ACS Synth. Biol. Anal. Chem. BIOCHEMISTRY-US Bioconjugate Chem. BIOMACROMOLECULES Chem. Res. Toxicol. Chem. Rev. Chem. Mater. CRYST GROWTH DES ENERG FUEL Environ. Sci. Technol. Environ. Sci. Technol. Lett. Eur. J. Inorg. Chem. IND ENG CHEM RES Inorg. Chem. J. Agric. Food. Chem. J. Chem. Eng. Data J. Chem. Educ. J. Chem. Inf. Model. J. Chem. Theory Comput. J. Med. Chem. J. Nat. Prod. J PROTEOME RES J. Am. Chem. Soc. LANGMUIR MACROMOLECULES Mol. Pharmaceutics Nano Lett. Org. Lett. ORG PROCESS RES DEV ORGANOMETALLICS J. Org. Chem. J. Phys. Chem. J. Phys. Chem. A J. Phys. Chem. B J. Phys. Chem. C J. Phys. Chem. Lett. Analyst Anal. Methods Biomater. Sci. Catal. Sci. Technol. Chem. Commun. Chem. Soc. Rev. CHEM EDUC RES PRACT CRYSTENGCOMM Dalton Trans. Energy Environ. Sci. ENVIRON SCI-NANO ENVIRON SCI-PROC IMP ENVIRON SCI-WAT RES Faraday Discuss. Food Funct. Green Chem. Inorg. Chem. Front. Integr. Biol. J. Anal. At. Spectrom. J. Mater. Chem. A J. Mater. Chem. B J. Mater. Chem. C Lab Chip Mater. Chem. Front. Mater. Horiz. MEDCHEMCOMM Metallomics Mol. Biosyst. Mol. Syst. Des. Eng. Nanoscale Nanoscale Horiz. Nat. Prod. Rep. New J. Chem. Org. Biomol. Chem. Org. Chem. Front. PHOTOCH PHOTOBIO SCI PCCP Polym. Chem.
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1