Training Data Augmentation for Code-Mixed Translation

North American Chapter of the Association for Computational Linguistics Pub Date : 2021-06-01 DOI:10.18653/V1/2021.NAACL-MAIN.459

Abhirut Gupta, Aditya Vavre, Sunita Sarawagi

引用次数: 17

Abstract

Machine translation of user-generated code-mixed inputs to English is of crucial importance in applications like web search and targeted advertising. We address the scarcity of parallel training data for training such models by designing a strategy of converting existing non-code-mixed parallel data sources to code-mixed parallel data. We present an m-BERT based procedure whose core learnable component is a ternary sequence labeling model, that can be trained with a limited code-mixed corpus alone. We show a 5.8 point increase in BLEU on heavily code-mixed sentences by training a translation model using our data augmentation strategy on an Hindi-English code-mixed translation task.

查看原文

微信好友朋友圈 QQ好友复制链接

本刊更多论文

代码混合翻译的训练数据增强

机器将用户生成的代码混合输入翻译成英语在网络搜索和目标广告等应用中至关重要。我们通过设计一种将现有的非代码混合并行数据源转换为代码混合并行数据的策略，解决了用于训练此类模型的并行训练数据的稀缺性。我们提出了一个基于m-BERT的过程，其核心可学习成分是一个三元序列标记模型，该模型可以仅用有限的代码混合语料库进行训练。通过在印地语-英语代码混合翻译任务上使用我们的数据增强策略训练翻译模型，我们发现BLEU在严重代码混合的句子上增加了5.8个点。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文去求助

来源期刊

North American Chapter of the Association for Computational Linguistics

自引率

0.00%

发文量

期刊最新文献

On Synthetic Data for Back Translation Mining Clues from Incomplete Utterance: A Query-enhanced Network for Incomplete Utterance Rewriting Using Paraphrases to Study Properties of Contextual Embeddings GMN: Generative Multi-modal Network for Practical Document Information Extraction Domain Confused Contrastive Learning for Unsupervised Domain Adaptation