Hệ thống kiểm tra trùng lặp nội dung
Nhóm tác giả: PGS.TS.Lê Thanh Hương

            

 

                    Hệ thống kiểm tra trùng lặp nội dung

                               Sinh ra bản thể, Chẳng để là bản sao

Hệ thống kiểm tra trùng lặp nội dung, được triển khai ở hai dạng:

  • Hệ thống kiểm tra trùng lặp giao diện web cho phép người dùng sử dụng trực tiếp hệ thống, được đặt tại địa chỉ http://coopy.soict.ai/
  • API cho phép nhúng vào các hệ thống quản lý tài liệu khác. Hệ thống đã được tích hợp thành một modul trong hệ thống quản lý Giảng dạy, Đồ án và Dịch vụ trực tuyến tại địa chỉ https://qldt.hust.edu.vn/
  • Hệ thống có 2 tính năng:
  • Kiểm tra trùng lặp Việt - Việt: kiểm tra tài liệu tiếng Việt đầu vào có các đoạn trùng lặp với các tài liệu tiếng Việt khác trong hệ thống không?
  • Kiểm tra trùng lặp Việt – Anh: kiểm tra tài liệu tiếng Việt đầu vào có dịch lại một số đoạn từ các tài liệu tiếng Anh trong hệ thống không?
  • Đối tượng kiểm tra: Báo cáo bài tập lớn, ĐATN, LVCH, LATS, bài báo, đề xuất/thuyết minh đề tài, ... có nội dung viết bằng tiếng Việt, file kiểm tra là file pdf.
  • Hệ thống trả về:
      • Báo cáo tổng hợp mức độ trùng lặp từ các nguồn
      • Giao diện web hiển thị kết quả kiểm tra trùng lặp
      • Tài liệu gốc đánh dấu các đoạn trùng lặp

Kho dữ liệu phục vụ kiểm tra trùng lặp:

Tiếng Việt:

  • Gần 30.000 đồ án tốt nghiệp, luận văn, luận án, bài báo tiếng Việt trong đó có >8000 tài liệu nội bộ do các trường cung cấp.
  • Wikipedia tiếng Việt (>1 triệu file)

Tiếng Anh: