Giả sử ta có một lồng cầu gồm 100 quả cầu có kích
thước, chất liệu, khối lượng... giống hệt nhau về mọi phương diện, trừ màu sắc
(40 quả màu đen, 60 quả màu trắng). Quay đều, quay đều, quay đều...
Khi nắp lồng cầu bật ra, quả cầu rơi ra có thể màu đen,
cũng có thể màu trắng. Không ai biết chắc chắn được. Ta chỉ biết rằng có nhiều
khả năng lấy được cầu trắng hơn cầu đen: xác suất để có một quả cầu đen là 40%
trong khi xác suất để có một quả cầu trắng là 60%.
Bây giờ ta trả quả cầu đó trở lại lồng cầu rồi lại
quay đều, quay đều, quay đều... cho đến khi một quả cầu rơi ra. Vì phép thử lần
này cũng là phép thử ngẫu nhiên giống hệt lần trước, ta cũng không có cách nào
biết trước quả cầu rơi ra sẽ là cầu đen hay cầu trắng. Điều duy nhất ta biết chỉ
là cầu trắng có nhiều khả năng xuất hiện hơn cầu đen: xác suất để có một quả cầu
đen là 40% trong khi xác suất để có một quả cầu trắng là 60%.
Nếu số phép thử đủ lớn thì tần suất xuất hiện cầu
đen (tỷ lệ giữa số lần thu được cầu đen với tổng số phép thử) sẽ rất gần với
con số 40% (xác suất xuất hiện cầu đen).
Đó là các nét chính của mô hình lồng cầu trong thống
kê cổ điển.
Các nhà thống kê từ vựng sử dụng lại mô hình này để
biểu diễn tập hợp các từ xuất hiện trong một khối liệu. Thay vì sơn đen, sơn trắng,
các quả cầu sẽ được dán nhãn và bài toán cầu đen, cầu trắng trở thành:
Một lồng cầu gồm 100 quả cầu có cầu có kích thước,
chất liệu, khối lượng... giống hệt nhau về mọi phương diện, nhưng có 3 quả được
dán nhãn KHÔNG, 2 quả được dán nhãn CÓ.... Hỏi xác suất lấy được ngẫu nhiên
một quả cầu có dán nhãn KHÔNG? Trả lời:
3%.
Bài toán này là dạng phát biểu khác của bài toán thực tế sau:
Một văn bản / khối liệu dài 100 từ, trong đó có 3 từ
KHÔNG. Hỏi xác suất để nhà ngôn ngữ
học (đứng từ trên cao phóng kim xuống văn bản) chỉ trúng từ KHÔNG là bao nhiêu?
No comments:
Post a Comment