Wednesday, 24 October 2012

Các chỉ số Levin đo độ dồn tụ



Giả sử ta có một văn bản như sau:
Tôi yêu tổ quốc. Tôi yêu nhân dân. Tôi yêu gia đình.
Văn bản này dài 12 từ (được định nghĩa là một chuỗi nằm giữa hai khoảng trắng), trong đó có 3 từ yêu. Từ yêu thứ hai cách từ yêu thứ nhất 3 từ. Từ yêu thứ ba cách từ yêu thứ 3 từ.
Thay tất cả các yêu bằng ký hiệu ά, tất cả các từ còn lại được thay bằng ký hiệu β. Văn bản vừa cho trở thành:
β ά β β β ά β β β ά β β
Ta có cảm giác các ά cách nhau khá đều.
Nhưng các cấu hình dưới đây cho ta cảm giác là các ά dồn tụ lại:
β ά ά β ά β β β β β β β
β β β β β β β β β ά ά ά
β β β β ά ά ά β β β β β
Để đánh giá mức độ dồn tụ của hiện tượng ά, Yu. I. Levin xây dựng hai chỉ số L và Q như sau:


Trong các công thức trên:
n là tổng số ά
m là tổng số β

di là số phần tử β  nằm giữa ά thứ  i (không phải là ά cuối cùng) và ά thứ  i+1. Nếu nhìn các ά và β như cùng nắm tay xếp vòng tròn thì có thể nhìn ra số phần tử tử β nằmg giữa ά cuối cùng và ά tiếp theo (tức là trở lại với ά đầu tiên). Trở lại với ví dụ Tôi yêu tổ quốc. Tôi yêu nhân dân. Tôi yêu gia đình và dạng biểu diễn của nó là β ά β β β ά β β β ά β β, ta có:
d1 = 3 (có 3 phần tử β nằm giữa ά đầu tiên và ά thứ hai)
d2 = 3 (có 3 phần tử β nằm giữa ά thứ hai và ά cuối cùng)
d2 = 3 (có 3 phần tử β nằm giữa ά cuối cùng và ά tiếp theo trên vòng tròn, tức là ά đầu tiên của văn bản )

Với cấu hình như sau:
β ά ά β ά β β β β β β β
ta có d1 = 0, d2 =1 và d3 = 8.
Các chỉ số L (n) và Q (n) lý thuyết được tính như sau:


Căn cứ vào các giá trị L và Q thực tế cao hơn hay thấp hơn các giá trị L và Q lý thuyết, ta có thể thấy hiện tượng ά có khuynh hướng dồn tụ chỗ này, thưa thớt nơi khác hay là được phân bố đồng đều trên văn bản. (Knowles, 1988)

No comments:

Post a Comment