ĐẶNG THỊ PHÚC, Nguyễn Thanh Long, ĐẶNG VĂN NGHIÊM, TRẦN THỊ MINH KHOA
{"title":"XÂY DỰNG HỆ THỐNG TỰ ĐỘNG GIẢI ĐÁP THẮC MẮC VỀ QUY ĐỊNH HỌC TẬP TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP BẰNG KỸ THUẬT HỌC SÂU","authors":"ĐẶNG THỊ PHÚC, Nguyễn Thanh Long, ĐẶNG VĂN NGHIÊM, TRẦN THỊ MINH KHOA","doi":"10.46242/jstiuh.v61i07.4725","DOIUrl":null,"url":null,"abstract":"Hiện nay, đối với trường đại học có quy mô lớn như Đại học Công nghiệp TPHCM, số lượng quy định, quy chế, thông báo rất lớn và cập nhật thường xuyên dẫn đến việc tìm hiểu và nắm bắt nội dung trở nên khó khăn. Trong bài báo, chúng tôi xây dựng hệ thống tự động trả lời câu hỏi dựa trên nội dung của các file văn bản bằng kỹ thuật deep learning. Hệ thống trích chọn thông tin từ câu hỏi, đưa vào là các từ khoá và trả về đoạn văn bản liên quan bằng thuật toán BM25. Ứng với đoạn văn bản có độ liên quan cao nhất, mô hình deep learning được huấn luyện để trích xuất ra câu trả lời tương ứng. Mô hình được huấn luyện dựa trên bộ dữ liệu huấn luyện với 10000 và bộ dữ liệu test 1600 cặp câu hỏi và câu trả lời tương ứng từ các đoạn văn bản được lấy từ các thông báo, quy định, quy chế của nhà trường. Chúng tôi tinh chỉnh các mô hình deep learning để huấn luyện và đánh giá, dựa trên hiệu quả và độ chính xác để lựa chọn mô hình tối ưu nhất. Kết quả độ chính xác đạt được theo F1-score của mô hình BERT là 73.93%, RoBERTa là 75.59% PhoBERT là 45.13% và DistilBERT là 72.95%. Mô hình RoBERTa được lựa chọn với tốc độ huấn luyện và độ chính xác cao nhất và được triển khai lên hệ thống để đánh giá kết quả.","PeriodicalId":16979,"journal":{"name":"Journal of Science and Technology - IUH","volume":"53 1","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2023-03-03","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Journal of Science and Technology - IUH","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.46242/jstiuh.v61i07.4725","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0
Abstract
Hiện nay, đối với trường đại học có quy mô lớn như Đại học Công nghiệp TPHCM, số lượng quy định, quy chế, thông báo rất lớn và cập nhật thường xuyên dẫn đến việc tìm hiểu và nắm bắt nội dung trở nên khó khăn. Trong bài báo, chúng tôi xây dựng hệ thống tự động trả lời câu hỏi dựa trên nội dung của các file văn bản bằng kỹ thuật deep learning. Hệ thống trích chọn thông tin từ câu hỏi, đưa vào là các từ khoá và trả về đoạn văn bản liên quan bằng thuật toán BM25. Ứng với đoạn văn bản có độ liên quan cao nhất, mô hình deep learning được huấn luyện để trích xuất ra câu trả lời tương ứng. Mô hình được huấn luyện dựa trên bộ dữ liệu huấn luyện với 10000 và bộ dữ liệu test 1600 cặp câu hỏi và câu trả lời tương ứng từ các đoạn văn bản được lấy từ các thông báo, quy định, quy chế của nhà trường. Chúng tôi tinh chỉnh các mô hình deep learning để huấn luyện và đánh giá, dựa trên hiệu quả và độ chính xác để lựa chọn mô hình tối ưu nhất. Kết quả độ chính xác đạt được theo F1-score của mô hình BERT là 73.93%, RoBERTa là 75.59% PhoBERT là 45.13% và DistilBERT là 72.95%. Mô hình RoBERTa được lựa chọn với tốc độ huấn luyện và độ chính xác cao nhất và được triển khai lên hệ thống để đánh giá kết quả.