Tuesday 27 November 2012

Chênh lệch tần suất cực đại



Trước hết tôi chuyển biểu nhất lãm tần số các chữHán trên hai bản báo cáo của Hồ Cẩm Đào tại đại hội lần thứ 17 và lần thứ 18 củaĐảng Cộng Sản Trung Quốc thành biểu ghi tần suất. Do hai văn bản dài ngắn khác nhau và tần số của một chữ trên từng văn bản cũng có khác nhau nên tần suất có thể có sự chênh lệch. Tôi so đọ các chênh lệch đó và chỉ giữ lại giá trị chênh lệch mạnh nhất. Trong trường hợp đang xét, đó là từ  với mức chênh lệch tần suất giữa hai văn bản là 0.0031 (tức 0.3%). Một điểm thú vị nữa là từ cũng là từ xếp hạng cao nhất trên cả hai danh sách tần số được sắp theo thứ tự tần số giảm dần. Tần suất sử dụng các chữ Hán khác nhất định không có sự chênh lệch đáng kể (sai lệch nhiều lắm chỉ có thể đến mức 0.31% như trường hợp chữ là cùng).

No comments:

Post a Comment