Thursday, 23 January 2014

Lồng cầu từ vựng



Giả sử ta có một lồng cầu gồm 100 quả cầu có kích thước, chất liệu, khối lượng... giống hệt nhau về mọi phương diện, trừ màu sắc (40 quả màu đen, 60 quả màu trắng). Quay đều, quay đều, quay đều...
Khi nắp lồng cầu bật ra, quả cầu rơi ra có thể màu đen, cũng có thể màu trắng. Không ai biết chắc chắn được. Ta chỉ biết rằng có nhiều khả năng lấy được cầu trắng hơn cầu đen: xác suất để có một quả cầu đen là 40% trong khi xác suất để có một quả cầu trắng là 60%.
Bây giờ ta trả quả cầu đó trở lại lồng cầu rồi lại quay đều, quay đều, quay đều... cho đến khi một quả cầu rơi ra. Vì phép thử lần này cũng là phép thử ngẫu nhiên giống hệt lần trước, ta cũng không có cách nào biết trước quả cầu rơi ra sẽ là cầu đen hay cầu trắng. Điều duy nhất ta biết chỉ là cầu trắng có nhiều khả năng xuất hiện hơn cầu đen: xác suất để có một quả cầu đen là 40% trong khi xác suất để có một quả cầu trắng là 60%.
Nếu số phép thử đủ lớn thì tần suất xuất hiện cầu đen (tỷ lệ giữa số lần thu được cầu đen với tổng số phép thử) sẽ rất gần với con số 40% (xác suất xuất hiện cầu đen).
Đó là các nét chính của mô hình lồng cầu trong thống kê cổ điển.

Các nhà thống kê từ vựng sử dụng lại mô hình này để biểu diễn tập hợp các từ xuất hiện trong một khối liệu. Thay vì sơn đen, sơn trắng, các quả cầu sẽ được dán nhãn và bài toán cầu đen, cầu trắng trở thành:
Một lồng cầu gồm 100 quả cầu có cầu có kích thước, chất liệu, khối lượng... giống hệt nhau về mọi phương diện, nhưng có 3 quả được dán nhãn KHÔNG, 2 quả được dán nhãn .... Hỏi xác suất lấy được ngẫu nhiên một quả cầu có dán nhãn KHÔNG? Trả lời: 3%.

Bài toán này là dạng phát biểu khác của bài toán thực tế sau:
Một văn bản / khối liệu dài 100 từ, trong đó có 3 từ KHÔNG. Hỏi xác suất để nhà ngôn ngữ học (đứng từ trên cao phóng kim xuống văn bản) chỉ trúng từ KHÔNG là bao nhiêu?

No comments:

Post a Comment