Wednesday, 22 January 2014

Vấn đề định nghĩa đơn vị thống kêNgười làm thống kê cần định nghĩa đơn vị thống kê một cách tường minh. Với người thống kê từ vựng, điều quan trọng trước hết là phải xác định cho được thế nào là một từ.
Giả sử ta có một văn bản T như sau:
Nhân dân đòi hỏi dân chủ.
Người này có thể cho rằng T gồm có 3 từ vị: nhân dân, đòi hỏidân chủ. Mỗi từ vị xuất hiện đúng 1 lần trên văn bản T. Vì vậy tổng số lượt từ cũng là 3.
Người khác lại cho rằng T gồm 6 (lượt) từ, trong đó từ vị dân xuất hiện 2 lần và các từ vị khác (nhân, đòi, hỏi, chủ) chỉ xuất hiện 1 lần rồi thôi.
Đây là nguyên nhân chủ yếu khiến cho Trần XuânHoài đếm được 3348 lượt từ trong bản hiển pháp 1946 trong khi Nguyễn Văn tuấnchỉ thấy 3122 lượt từ. Trẻ con có phải đếm 3000 viên kẹo cũng không sai chạy lấy một.
Không ông nào biết ông nào định nghĩa thế nào là từ. Họ chỉ đồng ý với nhau rằng độc lập, tự do, bình đẳng, dân chủ là các từ (vị) khác nhau, và chỉ thế thôi. Về cả nghìn từ (vị) kháccùng xuất hiện trong văn bản đó, Nguyễn Văn Tuấn không biết Trần Xuân Hoài nghĩ gì, và ngược lại. Người đọc các ông cũng không biết.

1 comment:

  1. Đây cũng là vấn đề nan giải trong xử lý tiếng Việt (bằng máy tính). Độ chính xác của các giải thuật tách từ hiện tại khoảng 50% tính theo câu tức là cứ 2 câu có một câu chứa từ bị tách sai. Nếu không xác định được chính xác đâu là từ thì các bài toán khác cũng bị ảnh hưởng rất nhiều.

    ReplyDelete