Tài nguyên cho tiếng Việt
Dữ liệu
Từ điển tiếng Việt
- Khoảng 35.000 từ, với các thông tin hình thái, ngữ pháp, ngữ nghĩa dùng
cho xử lý ngôn ngữ tự nhiên;
- Chứa đựng đủ lớp từ thông dụng trong tiếng Việt hiện đại;
- Mô hình từ điển theo chuẩn quốc tế nhằm sử dụng/trao đổi được giữa nhiều
hệ thống, thuận tiện cho nghiên cứu đối sánh các ngôn ngữ, dễ cập nhật
khi cần thiết;
- Mã hoá chuẩn XML.
Treebank tiếng Việt
- Văn bản thuộc chủ đề Chính trị - Xã hội của báo Tuổi Trẻ;
- 70,000 câu đã được tách từ (90,000 nếu tính cả hai tập dữ liệu bên
dưới);
- 10,000 câu đã được gán nhãn từ loại (20,000 nếu tính cả tập dữ liệu bên
dưới);
- 10,000 cây cú pháp;
- Khuôn dạng tương tự treebank tiếng Anh (Penn Treebank).
Kho ngữ liệu song ngữ Anh-Việt
- 80,000 cặp câu Kinh tế - Xã hội;
- 20,000 cặp câu Tin học.
Nếu bạn muốn sử dụng dữ liệu trên cho mục đích
nghiên cứu thì bạn cần điền vào bản
Cam kết sử dụng dữ liệu ngôn ngữ
và gửi bản scan tới e-mail: .
Công cụ
Hệ tách từ tiếng Việt
- Sử dụng kết hợp từ điển và ngram, trong đó mô hình ngram được huấn luyện
sử dụng treebank tiếng Việt (70,000 câu đã được tách từ);
- Độ chính xác trên 97%.
Tải về: vnTokenizer 4.1.1c (04/08/2010) ~6.5 MB / Website tác giả
Hệ gán nhãn từ loại tiếng Việt
- Dựa trên các mô hình học máy MEMs và CRFs;
- Được huấn luyện sử dụng dữ liệu treebank tiếng Việt (20,000 câu đã được
gán nhãn từ loại);
- Độ chính xác trên 93%.
Download: VietTagger (16/08/2010) ~10 MB
Hệ phân tích cụm từ tiếng Việt
- Dựa trên mô hình học máy CRFs;
- Được huấn luyện sử dụng dữ liệu treebank tiếng Việt (10,000 cây cú
pháp);
- F-score đạt 81%.
Download: VietChunker (16/08/2010) ~132 MB
Hệ phân tích cú pháp tiếng Việt
- Dựa trên mô hình văn phạm phi ngữ cảnh xác suất;
- Được huấn luyện sử dụng dữ liệu treebank tiếng Việt (10,000 cây cú
pháp);
- F-score đạt 78%.
|