Ứng dụng máy vector hỗ trợ phân loại công văn theo lĩnh vực

Nguyễn, Thanh Xuân

Please use this identifier to cite or link to this item: http://thuvienso.dut.udn.vn/handle/DUT/424

Title:	Ứng dụng máy vector hỗ trợ phân loại công văn theo lĩnh vực
Other Titles:	Vector machine application supports sorting dispatch by field
Authors:	Nguyễn, Thanh Xuân
Keywords:	Phân loại văn bản Tiếng Việt;Máy Vector hỗ trợ;Phân loại công văn
Issue Date:	2018
Publisher:	Trường Đại học Bách khoa - Đại học Đà Nẵng
Abstract:	Ngày nay, sự phát triển của máy tính, đặc biệt là Internet đã dẫn tới sự bùng nổ thông tin. Rất nhiều tài liệu, văn bản mới được tạo ra hàng ngày với số lượng ngày càng lớn. Do đó cần phải được phân loại để việc tìm kiếm được dễ dàng hơn. Việc phân loại này có thể được làm thủ công đọc từng văn bản và phân loại chúng dự vào kinh nghiệm, cách làm này rất mất thời gian, không đáp ứng được nhu cầu và thực tế văn bản ngày càng nhiều. Do đó, cách phân loại tốt nhất là sử dụng học máy, xử lý ngôn ngữ tự nhiên để phân loại. Việc xử lý ngôn ngữ tự nhiên trong Tiếng Anh đã có nhiều nghiên cứu trên thế giới, nhưng để áp dụng cho Tiếng Việt cũng có một vài điểm cần phải cải tiến ví dụ như: StopWords, Tách từ trong Tiếng Việt cũng khác so với Tiếng Anh. Bên cạnh đó là các thuật toán phân loại, nhiều thuật toán phát triển phục vụ mục đích phân loại, phân nhóm văn bản. Các thuật toán như K-Nearest Neighbor, Cây quyết định, Naive Bayes và tiêu biểu thuật toán Support Vector Machine (SVM). Thuật toán SVM có ưu điểm đó là xử lý trong không gian số nhiều chiều, tiết kiệm tài nguyên hệ thống và có tính linh hoạt cao nhờ vào khả năng áp dụng Kernel (hàm nhân) mới cho phép linh động giữa các phương pháp tuyến tính và phi tuyến tính từ đó khiến cho hiệu suất phân loại lớn hơn. Với 1725 văn bản công văn nhà nước thu thập được, được chia làm 10 lĩnh vực khác nhau, luận văn tiến hành tiền xử lý số lượng văn bản. Bằng cách thêm vào các từ StopWords thuộc văn bản công văn nhà nước, tách từ tiếng việt, sử dụng TF-TDF để trích rút vector đặc trưng. Sau đó sử dụng thuật toán Máy vector hỗ trợ với hàm nhân tuyến tính Linear để tạo ra Model phân loại văn bản với độ chính xác trung bình cho 10 lĩnh vực trên là 91%, một số lĩnh vực cho độ chính xác rất cao đó là lĩnh vực “Công nghệ thông tin”, “Đất đai” với độ chính xác là 100%. Kết quả thực nghiệm cho thấy tính khả quan việc tiền xử lý văn bản sử dụng TF-IDF và thuật toán Máy vector hỗ trợ khi áp dụng phân loại văn bản công văn nhà nước theo lĩnh vực.
Description:	Luận văn Thạc sĩ Kỹ thuật. Chuyên ngành: Khoa học Máy tính. Mã số: 60.48.01.01; 80 trang
URI:	http://thuvienso.dut.udn.vn/handle/DUT/424
Appears in Collections:	LV.Khoa học máy tính