Praktični vidiki uporabe podbesednih enot v strojnem prevajanju slovenščina-angleščina

Q2 Arts and Humanities Slovenscina 2.0 Pub Date : 2023-09-12 DOI:10.4312/slo2.0.2023.1.275-301
Gregor Donaj, Mirjam Sepesy Maučec
{"title":"Praktični vidiki uporabe podbesednih enot v strojnem prevajanju slovenščina-angleščina","authors":"Gregor Donaj, Mirjam Sepesy Maučec","doi":"10.4312/slo2.0.2023.1.275-301","DOIUrl":null,"url":null,"abstract":"Večina sodobnih sistemov za strojno prevajanje temelji na arhitekturi nevronskih mrež. To velja za spletne ponudnike strojnega prevajanja, za raziskovalne sisteme in za orodja, ki so lahko v pomoč poklicnim prevajalcem v njihovi praksi. Čeprav lahko sisteme nevronskih mrež uporabljamo na običajnih centralnih procesnih enotah osebnih računalnikov in strežnikov, je za delovanje s smiselno hitrostjo potrebna uporaba grafičnih procesnih enot. Pri tem smo omejeni z velikostjo slovarja, kar zmanjšuje kakovost prevodov. Velikost slovarja besednih enot je še posebej pereč problem visoko pregibnih jezikov. Rešujemo ga z uporabo podbesednih enot, s katerimi dosežemo večjo pokritost jezika. V članku predstavljamo različne metode razcepljanja besed na podbesedne enote z različno velikimi slovarji in primerjamo njihovo uporabo v strojnem prevajalniku za jezikovni par slovenščina-angleščina. V primerjavo vključujemo še prevajalnik brez razcepljanja besed. Predstavljamo rezultate uspešnosti prevajanja z metriko BLEU, hitrosti učenja modelov in hitrosti prevajanja ter velikosti modelov. Dodajamo pregled praktičnih vidikov uporabe podbesednih enot v strojnem prevajalniku, ki ga uporabljamo skupaj z orodji za računalniško podprto prevajanje.","PeriodicalId":36888,"journal":{"name":"Slovenscina 2.0","volume":"12 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2023-09-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Slovenscina 2.0","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.4312/slo2.0.2023.1.275-301","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q2","JCRName":"Arts and Humanities","Score":null,"Total":0}
引用次数: 0

Abstract

Večina sodobnih sistemov za strojno prevajanje temelji na arhitekturi nevronskih mrež. To velja za spletne ponudnike strojnega prevajanja, za raziskovalne sisteme in za orodja, ki so lahko v pomoč poklicnim prevajalcem v njihovi praksi. Čeprav lahko sisteme nevronskih mrež uporabljamo na običajnih centralnih procesnih enotah osebnih računalnikov in strežnikov, je za delovanje s smiselno hitrostjo potrebna uporaba grafičnih procesnih enot. Pri tem smo omejeni z velikostjo slovarja, kar zmanjšuje kakovost prevodov. Velikost slovarja besednih enot je še posebej pereč problem visoko pregibnih jezikov. Rešujemo ga z uporabo podbesednih enot, s katerimi dosežemo večjo pokritost jezika. V članku predstavljamo različne metode razcepljanja besed na podbesedne enote z različno velikimi slovarji in primerjamo njihovo uporabo v strojnem prevajalniku za jezikovni par slovenščina-angleščina. V primerjavo vključujemo še prevajalnik brez razcepljanja besed. Predstavljamo rezultate uspešnosti prevajanja z metriko BLEU, hitrosti učenja modelov in hitrosti prevajanja ter velikosti modelov. Dodajamo pregled praktičnih vidikov uporabe podbesednih enot v strojnem prevajalniku, ki ga uporabljamo skupaj z orodji za računalniško podprto prevajanje.
查看原文
分享 分享
微信好友 朋友圈 QQ好友 复制链接
本刊更多论文
在斯洛文尼亚语到英语的机器翻译中使用子词单元的实用方面
大多数现代机器翻译系统都基于神经网络架构。对于在线机器翻译提供商、研究系统以及可帮助专业翻译人员实践的工具而言,都是如此。虽然神经网络系统可以在个人电脑和服务器的传统中央处理器上使用,但需要使用 GPU 才能以有意义的速度运行。这受到字典大小的限制,从而降低了翻译质量。词单位字典的大小对于高变音语言来说是一个尤为突出的问题。解决这一问题的方法是使用子词单位,以实现对语言的更大覆盖。在本文中,我们介绍了将单词拆分成不同字典大小的子单词单位的不同方法,并比较了它们在英语-斯洛文尼语机器翻译中的应用。在比较中,我们还加入了不进行分词的编译器。我们介绍了使用 BLEU 指标的翻译性能、模型学习速度和翻译速度以及模型大小的结果。我们还概述了在与计算机辅助翻译工具一起使用的机器编译器中使用分词单元的实际情况。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 去求助
来源期刊
Slovenscina 2.0
Slovenscina 2.0 Arts and Humanities-Language and Linguistics
CiteScore
0.90
自引率
0.00%
发文量
0
审稿时长
16 weeks
期刊最新文献
Universal Dependencies za slovenščino Grammatical and Pragmatic Aspects of Slovenian Modality in Socially Unacceptable Facebook Comments Govoriš nevronsko? DirKorp Named Entities in Modernist Literary Texts
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
已复制链接
已复制链接
快去分享给好友吧!
我知道了
×
扫码分享
扫码分享
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1