Khi so sánh hai vốn từ, việc phân hoạch các vốn từ
thành phần chung và phần riêng giúp ta dễ dàng hình dung mức độ gần gũi giữa
hai vốn từ. Hai vốn từ chằng có gì chung với nhau rõ ràng là hoàn toàn khác
nhau. Hai vốn từ có phần chung càng lớn thì càng có vẻ gần nhau.
Tuy nhiên có tình hình là phần vốn từ chung có thể rất
lớn nhưng lại không quan trọng, tức là độ phủ văn bản không đáng kể. Ta xét một
ví dụ như sau với hai văn bản có độ dài bằng nhau (15 từ):
Văn bản A: Tôi
học toán. Tôi thích văn. Tôi ghét sử. Tôi
chán lý. Tôi sợ sinh.
Văn bản B: Nó
học toán. Nó thích văn. Nó ghét sử. Nó
chán lý. Nó sợ sinh.
Ta thấy phần vốn từ riêng của văn bản A chỉ có 1 đơn
vị, phủ được 5 từ (1/3 văn bản) trong khi phần chung có 10 đơn vị phủ được 10 từ
(2/3 văn bản). Rõ ràng các đơn vị thuộc phần chung có khả năng phủ văn bản rất
kém.
Để đánh giá vai trò của vốn từ riêng và vốn từ chung
khi so sánh hai vốn từ, ta có thể dùng các chỉ số sau đây:
Chỉ số độc lập của
Nhuan Xuan Luong
(còn có một tên khác là chỉ số liên thông
từ vựng theo định nghĩa của Brunet):
chỉ số độc lập = (Va-b / Va) + (Vb-a/Vb)
Va-b là kích thước vốn từ riêng của A (trong ví dụ ở
trên, chỉ có từ vị tôi, do đó Va-b = 1)
Va là kích thước toàn bộ vốn từ của A, gồm cả phần
riêng và phần chung (trong ví dụ ở trên Va-b = 11).
Vb-a là kích thước vốn từ riêng của B (trong ví dụ ở
trên, chỉ có từ vị nó, do đó Vb-1 =
1)
Vb là kích thước toàn bộ vốn từ của B (trong ví dụ ở
trên Vb = 11)
Vậy chỉ số độc lập = 1/11 + 1/11 = 2/11
Theo công thức trên thì chỉ số độc lập càng lớn khi tỷ
trọng của phần riêng trong vốn từ càng lớn so với toàn bộ vốn từ.
Chỉ số liên
thông từ vựng của Nhuan Xuan Luong (còn có một tên khác là chỉ số liên thông từ vựng thứ nhất của
Muller). Để tính chỉ số này ta tính tỷ số Vab / (Va+Vb-Vab)
Vab là kích thước của vốn từ chung cho cả A và B
(trong ví dụ trên Vab = 10)
Va + Vb – Vab chính là vốn từ tổng cộng khi gộp hai
văn bản A và B làm một (trong ví dụ trên
vốn từ tổng cộng này gồm 12 đơn vị)
Như vậy chỉ số liên thông từ vựng của Nhuan Xuan
Luong trong ví dụ trên là 10/12
Sau cùng, nếu tính đển độ phủ văn bản của vốn từ
chung, ta có tỷ số Nab/N với Nab là tổng số lượt từ mà vốn từ chung phủ được và
N là kích thước của hai văn bản gộp lại. Trong ví dụ trên, vốn từ chung phủ được
10 lượt từ ở văn bản A và 10 lượt từ ở văn bản B, tổng cộng 20 lượt từ. Hai văn
bản A và B gộp lại có N = 15 + 15 = 30. Như vậy vốn từ chung phủ được 20/30 độ
dài văn bản. Tỷ số này được gọi là chỉ số
liên thông từ vựng thứ hai của Muller.
No comments:
Post a Comment