Tài nguyên cho tiếng Việt

Dữ liệu

  • Từ điển tiếng Việt

    • Khoảng 35.000 từ, với các thông tin hình thái, ngữ pháp, ngữ nghĩa dùng cho xử lý ngôn ngữ tự nhiên;
    • Chứa đựng đủ lớp từ thông dụng trong tiếng Việt hiện đại;
    • Mô hình từ điển theo chuẩn quốc tế nhằm sử dụng/trao đổi được giữa nhiều hệ thống, thuận tiện cho nghiên cứu đối sánh các ngôn ngữ, dễ cập nhật khi cần thiết;
    • Mã hoá chuẩn XML.
  • Treebank tiếng Việt

    • Văn bản thuộc chủ đề Chính trị - Xã hội của báo Tuổi Trẻ;
    • 70,000 câu đã được tách từ (90,000 nếu tính cả hai tập dữ liệu bên dưới);
    • 10,000 câu đã được gán nhãn từ loại (20,000 nếu tính cả tập dữ liệu bên dưới);
    • 10,000 cây cú pháp;
    • Khuôn dạng tương tự treebank tiếng Anh (Penn Treebank).
  • Kho ngữ liệu song ngữ Anh-Việt

    • 80,000 cặp câu Kinh tế - Xã hội;
    • 20,000 cặp câu Tin học.

Nếu bạn muốn sử dụng dữ liệu trên cho mục đích nghiên cứu thì bạn cần điền vào bản Cam kết sử dụng dữ liệu ngôn ngữ và gửi bản scan tới e-mail: .

Công cụ

  • Hệ tách từ tiếng Việt

    • Sử dụng kết hợp từ điển và ngram, trong đó mô hình ngram được huấn luyện sử dụng treebank tiếng Việt (70,000 câu đã được tách từ);
    • Độ chính xác trên 97%.

    Tải về: vnTokenizer 4.1.1c (04/08/2010) ~6.5 MB / Website tác giả

  • Hệ gán nhãn từ loại tiếng Việt

    • Dựa trên các mô hình học máy MEMs và CRFs;
    • Được huấn luyện sử dụng dữ liệu treebank tiếng Việt (20,000 câu đã được gán nhãn từ loại);
    • Độ chính xác trên 93%.

    Download: VietTagger (16/08/2010) ~10 MB

  • Hệ phân tích cụm từ tiếng Việt

    • Dựa trên mô hình học máy CRFs;
    • Được huấn luyện sử dụng dữ liệu treebank tiếng Việt (10,000 cây cú pháp);
    • F-score đạt 81%.

    Download: VietChunker (16/08/2010) ~132 MB

  • Hệ phân tích cú pháp tiếng Việt

    • Dựa trên mô hình văn phạm phi ngữ cảnh xác suất;
    • Được huấn luyện sử dụng dữ liệu treebank tiếng Việt (10,000 cây cú pháp);
    • F-score đạt 78%.

© Đề tài KC01.01/06-10 "Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lí tiếng nói và văn bản tiếng Việt" (VLSP)
Đề tài thuộc Chương trình Khoa học Công nghệ cấp Nhà nước KC01/06-10.
Chủ trì nhánh đề tài "Xử lí văn bản tiếng Việt": GS. Hồ Tú Bảo.
© Ghi rõ nguồn "Đề tài VLSP" khi bạn trích dẫn hoặc sử dụng lại thông tin từ website này.