Tuesday 23 October 2012

Tỷ trọng khối hapax phụ thuộc vào độ dài văn bản



Hapax legomenon là thuật ngữ dùng để chỉ từ vị chỉ xuất hiện một lần trên văn bản.
Một bức thư tình như sau:
Anh yêu em.
chỉ có 3 từ vị, mỗi từ vị xuất hiện đúng một lần. Cả ba từ vị trong bức thư đó đều là hapax.
Một anh khác tỏ tình dài hơn:
Anh yêu em. Em có yêu anh không?
Bức thư thứ hai này có 5 từ vị (anh, yêu, em, có, không) nhưng chỉ có 2 hapax (có, không). Tỷ trọng khối hapax trong vốn từ là 40%.
Một anh thứ ba lại tỏ tình thế này:
Anh yêu em. Nhớ lắm, không chịu nổi.
Bức thư thứ ba dài bằng bức thư thứ hai. Nó có 8 từ vị và 100% từ vị sử dụng là hapax.
Bảo rằng vốn từ của tác giả thứ ba phong phú (hiểu: dùng nhiều từ vị hơn) hơn tác giả thứ hai là thỏa đáng. Nhưng ta không thể kết luận được gì khi so sánh tác giả thứ nhất với tác giả thứ hai. Nếu tác giả thứ nhất viết thêm vài từ nữa giống hệt tác giả thứ ba thì anh ta lại chứng tỏ được rằng vốn từ của mình phong phú hơn anh thứ hai.

Lại có một bức thư tình thứ tư như sau:
Anh yêu em, nhớ em lắm lắm. Em yêu anh không? Em nhớ anh không?
Bức thư này dài gần gấp đôi bức thư thứ ba và chẳng có một hapax nào.
Rồi lại có một bức thứ năm thế này:
Anh yêu em, nhớ em lắm lắm. Em yêu anh không? Em nhớ anh không? Hãy nói đi
Thêm được ba từ và cả ba từ vị mới bổ sung đều là hapax.
Có vẻ như một trò chơi vô bổ, nhưng ai không chịu chơi thì không hình dung ra được khối hapax biến động thế nào cùng với độ dài của văn bản.

No comments:

Post a Comment