Để cho đơn giản, ta sẽ xét một trường hợp hiếm xảy
ra trong thực tế như sau:
Cách đây 5 năm tôi đọc một bài tham luận ở hội nghị
A như sau:
‘Tôi thích đọc
sách triết học’
Bài tham luận này dài 6 lượt từ (N = 6). Vốn từ gồm
có 6 từ vị (V = 6). Tất cả đều là hapax. Với một vốn từ như vậy trên một văn bản
như vậy, vốn từ đó được xem là phong phú vì chỉ số Caroll (được định nghĩa là tỷ
số giữa kích thước vốn từ và kích thước văn bản là V/N = 6/6 = 1 và đó là giá
trị cao nhất cho chỉ số Caroll)
Năm năm sau tôi lại đem bản tham luận đó đi đọc ở hội
nghị B. Trong trường hợp này V cũng bằng 6, N vẫn bằng 6 và chỉ số Caroll vẫn
là 1.
Nếu tính các chỉ số độc lập, liên thông từ vựng...,
dễ dàng đoán được kết quả bởi vì hai vốn từ đó rõ ràng là tuyệt đối liên thông
và hơn thế nữa, trong cả hai lần đều được huy động với mức độ như nhau.
Khi gộp cả hai văn bản vào một khối ngữ liệu duy nhất,
ta có một từ điển tần số như sau:
[‘tôi’: 2, ‘thích’: 2, ‘đọc’: 2, ‘sách’: 2, ‘triết’:
2, ‘học’: 2]
Chẳng có một hapax nào cả.
Không tìm cách đổi mới vốn từ sẽ dẫn đến hệ quả là tỷ
trọng của khối hapax trong vốn từ bị kéo xuống. Lý do: mỗi lần dùng lại từ cũ,
tần số của từ vị đó tăng lên 1, khối hapax mất đi một đơn vị.
No comments:
Post a Comment