{"title":"建立高质量双语语料库","authors":"H. Nguyễn, Cường Nguyễn, V. Nguyễn","doi":"10.51453/2354-1431/2023/962","DOIUrl":null,"url":null,"abstract":"Kho ngữ liệu song ngữ có chất lượng cao là một nguồn tài nguyên quan trọng cho nhiều ứng dụng của xử lý ngôn ngữ tự nhiên, chẳng hạn như: dịch máy, tìm kiếm liên ngôn ngữ, xây dựng từ điển song ngữ,… Đối với cặp ngôn ngữ hạn chế tài nguyên (chẳng hạn như cặp ngôn ngữ Việt-Lào) thì rất khó để mà xây dựng được kho ngữ liệu song ngữ có chất lượng cao vì tài nguyên song ngữ là hiếm. Trong bài báo này, chúng tôi đề xuất một quy trình xây dựng kho ngữ liệu song ngữ chất lượng cao cho căp ngôn ngữ hạn chế tài nguyên và một phương pháp dóng hàng câu mà tận dụng lợi thế của các mô hình hiện đại đã được huấn luyện trước cho các ngôn ngữ giàu tài nguyên. Triển khai thực nghiệm dóng hàng câu và đánh giá chất lượng kho ngữ liệu trên cặp ngôn ngữ Việt-Lào cho thấy phương pháp dóng hàng câu đề xuất của chúng tôi đạt độ chính xác precision và recall cao hơn hẳn so với các phương pháp dóng hàng câu đã được xem là tốt và kho ngữ liệu song ngữ Việt-Lào mà chúng tôi xây dựng đạt chất lượng cao.","PeriodicalId":158754,"journal":{"name":"SCIENTIFIC JOURNAL OF TAN TRAO UNIVERSITY","volume":"1 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2023-06-02","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"XÂY DỰNG KHO NGỮ LIỆU SONG NGỮ CHẤT LƯỢNG CAO CHO CẶP NGÔN NGỮ HẠN CHẾ TÀI NGUYÊN\",\"authors\":\"H. Nguyễn, Cường Nguyễn, V. Nguyễn\",\"doi\":\"10.51453/2354-1431/2023/962\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Kho ngữ liệu song ngữ có chất lượng cao là một nguồn tài nguyên quan trọng cho nhiều ứng dụng của xử lý ngôn ngữ tự nhiên, chẳng hạn như: dịch máy, tìm kiếm liên ngôn ngữ, xây dựng từ điển song ngữ,… Đối với cặp ngôn ngữ hạn chế tài nguyên (chẳng hạn như cặp ngôn ngữ Việt-Lào) thì rất khó để mà xây dựng được kho ngữ liệu song ngữ có chất lượng cao vì tài nguyên song ngữ là hiếm. Trong bài báo này, chúng tôi đề xuất một quy trình xây dựng kho ngữ liệu song ngữ chất lượng cao cho căp ngôn ngữ hạn chế tài nguyên và một phương pháp dóng hàng câu mà tận dụng lợi thế của các mô hình hiện đại đã được huấn luyện trước cho các ngôn ngữ giàu tài nguyên. Triển khai thực nghiệm dóng hàng câu và đánh giá chất lượng kho ngữ liệu trên cặp ngôn ngữ Việt-Lào cho thấy phương pháp dóng hàng câu đề xuất của chúng tôi đạt độ chính xác precision và recall cao hơn hẳn so với các phương pháp dóng hàng câu đã được xem là tốt và kho ngữ liệu song ngữ Việt-Lào mà chúng tôi xây dựng đạt chất lượng cao.\",\"PeriodicalId\":158754,\"journal\":{\"name\":\"SCIENTIFIC JOURNAL OF TAN TRAO UNIVERSITY\",\"volume\":\"1 1\",\"pages\":\"0\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2023-06-02\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"SCIENTIFIC JOURNAL OF TAN TRAO UNIVERSITY\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.51453/2354-1431/2023/962\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"SCIENTIFIC JOURNAL OF TAN TRAO UNIVERSITY","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.51453/2354-1431/2023/962","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
XÂY DỰNG KHO NGỮ LIỆU SONG NGỮ CHẤT LƯỢNG CAO CHO CẶP NGÔN NGỮ HẠN CHẾ TÀI NGUYÊN
Kho ngữ liệu song ngữ có chất lượng cao là một nguồn tài nguyên quan trọng cho nhiều ứng dụng của xử lý ngôn ngữ tự nhiên, chẳng hạn như: dịch máy, tìm kiếm liên ngôn ngữ, xây dựng từ điển song ngữ,… Đối với cặp ngôn ngữ hạn chế tài nguyên (chẳng hạn như cặp ngôn ngữ Việt-Lào) thì rất khó để mà xây dựng được kho ngữ liệu song ngữ có chất lượng cao vì tài nguyên song ngữ là hiếm. Trong bài báo này, chúng tôi đề xuất một quy trình xây dựng kho ngữ liệu song ngữ chất lượng cao cho căp ngôn ngữ hạn chế tài nguyên và một phương pháp dóng hàng câu mà tận dụng lợi thế của các mô hình hiện đại đã được huấn luyện trước cho các ngôn ngữ giàu tài nguyên. Triển khai thực nghiệm dóng hàng câu và đánh giá chất lượng kho ngữ liệu trên cặp ngôn ngữ Việt-Lào cho thấy phương pháp dóng hàng câu đề xuất của chúng tôi đạt độ chính xác precision và recall cao hơn hẳn so với các phương pháp dóng hàng câu đã được xem là tốt và kho ngữ liệu song ngữ Việt-Lào mà chúng tôi xây dựng đạt chất lượng cao.