Trước hết tôi chuyển biểu nhất lãm tần số các chữHán trên hai bản báo cáo của Hồ Cẩm Đào tại đại hội lần thứ 17 và lần thứ 18 củaĐảng Cộng Sản Trung Quốc thành biểu ghi tần suất. Do hai văn bản dài ngắn khác
nhau và tần số của một chữ trên từng văn bản cũng có khác nhau nên tần suất có thể
có sự chênh lệch. Tôi so đọ các chênh lệch đó và chỉ giữ lại giá trị chênh lệch
mạnh nhất. Trong trường hợp đang xét, đó là từ 的 với mức chênh lệch
tần suất giữa hai văn bản là 0.0031 (tức 0.3%). Một điểm thú vị nữa là từ 的 cũng là từ xếp
hạng cao nhất trên cả hai danh sách tần số được sắp theo thứ tự tần số giảm dần. Tần
suất sử dụng các chữ Hán khác nhất định không có sự chênh lệch đáng kể (sai lệch
nhiều lắm chỉ có thể đến mức 0.31% như trường hợp chữ 的 là cùng).
No comments:
Post a Comment