Please use this identifier to cite or link to this item: http://thuvienso.dut.udn.vn/handle/DUT/424
DC FieldValueLanguage
dc.contributor.advisorPhạm, Minh Tuấn, TS
dc.contributor.authorNguyễn, Thanh Xuân
dc.date.accessioned2024-11-05T08:30:56Z-
dc.date.available2024-11-05T08:30:56Z-
dc.date.issued2018
dc.identifier.urihttp://thuvienso.dut.udn.vn/handle/DUT/424-
dc.descriptionLuận văn Thạc sĩ Kỹ thuật. Chuyên ngành: Khoa học Máy tính. Mã số: 60.48.01.01; 80 trangvi
dc.description.abstractNgày nay, sự phát triển của máy tính, đặc biệt là Internet đã dẫn tới sự bùng nổ thông tin. Rất nhiều tài liệu, văn bản mới được tạo ra hàng ngày với số lượng ngày càng lớn. Do đó cần phải được phân loại để việc tìm kiếm được dễ dàng hơn. Việc phân loại này có thể được làm thủ công đọc từng văn bản và phân loại chúng dự vào kinh nghiệm, cách làm này rất mất thời gian, không đáp ứng được nhu cầu và thực tế văn bản ngày càng nhiều. Do đó, cách phân loại tốt nhất là sử dụng học máy, xử lý ngôn ngữ tự nhiên để phân loại. Việc xử lý ngôn ngữ tự nhiên trong Tiếng Anh đã có nhiều nghiên cứu trên thế giới, nhưng để áp dụng cho Tiếng Việt cũng có một vài điểm cần phải cải tiến ví dụ như: StopWords, Tách từ trong Tiếng Việt cũng khác so với Tiếng Anh. Bên cạnh đó là các thuật toán phân loại, nhiều thuật toán phát triển phục vụ mục đích phân loại, phân nhóm văn bản. Các thuật toán như K-Nearest Neighbor, Cây quyết định, Naive Bayes và tiêu biểu thuật toán Support Vector Machine (SVM). Thuật toán SVM có ưu điểm đó là xử lý trong không gian số nhiều chiều, tiết kiệm tài nguyên hệ thống và có tính linh hoạt cao nhờ vào khả năng áp dụng Kernel (hàm nhân) mới cho phép linh động giữa các phương pháp tuyến tính và phi tuyến tính từ đó khiến cho hiệu suất phân loại lớn hơn. Với 1725 văn bản công văn nhà nước thu thập được, được chia làm 10 lĩnh vực khác nhau, luận văn tiến hành tiền xử lý số lượng văn bản. Bằng cách thêm vào các từ StopWords thuộc văn bản công văn nhà nước, tách từ tiếng việt, sử dụng TF-TDF để trích rút vector đặc trưng. Sau đó sử dụng thuật toán Máy vector hỗ trợ với hàm nhân tuyến tính Linear để tạo ra Model phân loại văn bản với độ chính xác trung bình cho 10 lĩnh vực trên là 91%, một số lĩnh vực cho độ chính xác rất cao đó là lĩnh vực “Công nghệ thông tin”, “Đất đai” với độ chính xác là 100%. Kết quả thực nghiệm cho thấy tính khả quan việc tiền xử lý văn bản sử dụng TF-IDF và thuật toán Máy vector hỗ trợ khi áp dụng phân loại văn bản công văn nhà nước theo lĩnh vực.vi
dc.language.isovivi
dc.publisherTrường Đại học Bách khoa - Đại học Đà Nẵngvi
dc.subjectPhân loại văn bản Tiếng Việtvi
dc.subjectMáy Vector hỗ trợvi
dc.subjectPhân loại công vănvi
dc.titleỨng dụng máy vector hỗ trợ phân loại công văn theo lĩnh vựcvi
dc.title.alternativeVector machine application supports sorting dispatch by fieldvi
dc.typeLuận vănvi
item.openairetypeLuận văn-
item.languageiso639-1vi-
item.openairecristypehttp://purl.org/coar/resource_type/c_18cf-
item.grantfulltextrestricted-
item.fulltextCó toàn văn-
item.cerifentitytypePublications-
Appears in Collections:LV.Khoa học máy tính
Files in This Item:
File Description SizeFormat Existing users please Login
NguyenThanhXuan.TT.pdfTóm tắt1.44 MBAdobe PDFThumbnail
NguyenThanhXuan.TV.pdfToàn văn8.51 MBAdobe PDFThumbnail
Show simple item record

CORE Recommender

Page view(s)

2
checked on Nov 26, 2024

Google ScholarTM

Check


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.