{"title":"在机器翻译任务的可转换架构中使用不同类型的标记符号转换器","authors":"К. О. Антіпова, В. С. Раленко","doi":"10.35546/kntu2078-4481.2024.1.25","DOIUrl":null,"url":null,"abstract":"Токенізація є першим кроком майже для всіх завдань обробки природної мови, і всі сучасні мовні моделі використовують алгоритми токенізації підслів для обробки вхідного тексту. Оскільки різні мови мають унікальні властивості, розробка алгоритму токенізації зазвичай є специфічною для конкретної мови. Попередньо навчені моделі для мов з обмеженими ресурсами для тренування використовують ті ж самі токенізатори, що і моделі для англійської. Вплив алгоритмів токенізації може бути різним для мов з обмеженими ресурсами, де слова можуть мати префікси та суфікси. Крім того, вплив різних методів токенізації не досліджено детально для малоресурсних мов, зокрема для української. В роботі виконується навчання токенізаторів типу WordPiece, BPE та Unigram для дослідження їхньої ефективності з точки зору точності машинного перекладу речень з англійської на українську. Щоб провести експериментальне порівняння роботи токенізаторів для задачі перекладу з англійської на українську, не використовувалася існуюча попередньо підготовлена мовна модель. Натомість було здійснено попереднє навчання власних мовних моделей середнього розміру на основі конфігурації та процедури навчання моделі Marian. Розроблений конвеєр операцій складається зі збору та очищення навчального корпусу пар речень, навчання токенізатора зі словником фіксованої довжини і попереднього навчання глибинної мовної моделі за допомогою обраного токенізатора. Після цього було виконано оцінку точності моделей із використанням таких метрик, як SacreBLEU та ROUGE. Отримані експериментальні результати підкреслюють роль токенізації в мовному моделюванні, зокрема для морфологічно багатих мов. Крім того, вища морфологічна вірогідність токенізації Unigram призводить до кращої продуктивності виконання завдання машинного перекладу природної мови.","PeriodicalId":518826,"journal":{"name":"Вісник Херсонського національного технічного університету","volume":"63 12","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2024-05-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"ВИКОРИСТАННЯ РІЗНИХ ВИДІВ ТОКЕНІЗАТОРІВ В ТРАНСФОРМЕРНИХ АРХІТЕКТУРАХ ДЛЯ ЗАДАЧІ МАШИННОГО ПЕРЕКЛАДУ\",\"authors\":\"К. О. Антіпова, В. С. Раленко\",\"doi\":\"10.35546/kntu2078-4481.2024.1.25\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Токенізація є першим кроком майже для всіх завдань обробки природної мови, і всі сучасні мовні моделі використовують алгоритми токенізації підслів для обробки вхідного тексту. Оскільки різні мови мають унікальні властивості, розробка алгоритму токенізації зазвичай є специфічною для конкретної мови. Попередньо навчені моделі для мов з обмеженими ресурсами для тренування використовують ті ж самі токенізатори, що і моделі для англійської. Вплив алгоритмів токенізації може бути різним для мов з обмеженими ресурсами, де слова можуть мати префікси та суфікси. Крім того, вплив різних методів токенізації не досліджено детально для малоресурсних мов, зокрема для української. В роботі виконується навчання токенізаторів типу WordPiece, BPE та Unigram для дослідження їхньої ефективності з точки зору точності машинного перекладу речень з англійської на українську. Щоб провести експериментальне порівняння роботи токенізаторів для задачі перекладу з англійської на українську, не використовувалася існуюча попередньо підготовлена мовна модель. Натомість було здійснено попереднє навчання власних мовних моделей середнього розміру на основі конфігурації та процедури навчання моделі Marian. Розроблений конвеєр операцій складається зі збору та очищення навчального корпусу пар речень, навчання токенізатора зі словником фіксованої довжини і попереднього навчання глибинної мовної моделі за допомогою обраного токенізатора. Після цього було виконано оцінку точності моделей із використанням таких метрик, як SacreBLEU та ROUGE. Отримані експериментальні результати підкреслюють роль токенізації в мовному моделюванні, зокрема для морфологічно багатих мов. Крім того, вища морфологічна вірогідність токенізації Unigram призводить до кращої продуктивності виконання завдання машинного перекладу природної мови.\",\"PeriodicalId\":518826,\"journal\":{\"name\":\"Вісник Херсонського національного технічного університету\",\"volume\":\"63 12\",\"pages\":\"\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2024-05-01\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Вісник Херсонського національного технічного університету\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.35546/kntu2078-4481.2024.1.25\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Вісник Херсонського національного технічного університету","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.35546/kntu2078-4481.2024.1.25","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
ВИКОРИСТАННЯ РІЗНИХ ВИДІВ ТОКЕНІЗАТОРІВ В ТРАНСФОРМЕРНИХ АРХІТЕКТУРАХ ДЛЯ ЗАДАЧІ МАШИННОГО ПЕРЕКЛАДУ
Токенізація є першим кроком майже для всіх завдань обробки природної мови, і всі сучасні мовні моделі використовують алгоритми токенізації підслів для обробки вхідного тексту. Оскільки різні мови мають унікальні властивості, розробка алгоритму токенізації зазвичай є специфічною для конкретної мови. Попередньо навчені моделі для мов з обмеженими ресурсами для тренування використовують ті ж самі токенізатори, що і моделі для англійської. Вплив алгоритмів токенізації може бути різним для мов з обмеженими ресурсами, де слова можуть мати префікси та суфікси. Крім того, вплив різних методів токенізації не досліджено детально для малоресурсних мов, зокрема для української. В роботі виконується навчання токенізаторів типу WordPiece, BPE та Unigram для дослідження їхньої ефективності з точки зору точності машинного перекладу речень з англійської на українську. Щоб провести експериментальне порівняння роботи токенізаторів для задачі перекладу з англійської на українську, не використовувалася існуюча попередньо підготовлена мовна модель. Натомість було здійснено попереднє навчання власних мовних моделей середнього розміру на основі конфігурації та процедури навчання моделі Marian. Розроблений конвеєр операцій складається зі збору та очищення навчального корпусу пар речень, навчання токенізатора зі словником фіксованої довжини і попереднього навчання глибинної мовної моделі за допомогою обраного токенізатора. Після цього було виконано оцінку точності моделей із використанням таких метрик, як SacreBLEU та ROUGE. Отримані експериментальні результати підкреслюють роль токенізації в мовному моделюванні, зокрема для морфологічно багатих мов. Крім того, вища морфологічна вірогідність токенізації Unigram призводить до кращої продуктивності виконання завдання машинного перекладу природної мови.