Wednesday, 21 November 2012

Cách đánh giá vai trò của vốn từ riêng và vốn từ chung



Khi so sánh hai vốn từ, việc phân hoạch các vốn từ thành phần chung và phần riêng giúp ta dễ dàng hình dung mức độ gần gũi giữa hai vốn từ. Hai vốn từ chằng có gì chung với nhau rõ ràng là hoàn toàn khác nhau. Hai vốn từ có phần chung càng lớn thì càng có vẻ gần nhau.
Tuy nhiên có tình hình là phần vốn từ chung có thể rất lớn nhưng lại không quan trọng, tức là độ phủ văn bản không đáng kể. Ta xét một ví dụ như sau với hai văn bản có độ dài bằng nhau (15 từ):
Văn bản A: Tôi học toán. Tôi thích văn. Tôi ghét sử. Tôi chán lý. Tôi sợ sinh.
Văn bản B: Nó học toán. Nó thích văn. Nó ghét sử. Nó chán lý. Nó sợ sinh.
Ta thấy phần vốn từ riêng của văn bản A chỉ có 1 đơn vị, phủ được 5 từ (1/3 văn bản) trong khi phần chung có 10 đơn vị phủ được 10 từ (2/3 văn bản). Rõ ràng các đơn vị thuộc phần chung có khả năng phủ văn bản rất kém.
Để đánh giá vai trò của vốn từ riêng và vốn từ chung khi so sánh hai vốn từ, ta có thể dùng các chỉ số sau đây:

Chỉ số độc lập của Nhuan Xuan Luong (còn có một tên khác là chỉ số liên thông từ vựng theo định nghĩa của Brunet):
chỉ số độc lập =  (Va-b / Va) + (Vb-a/Vb)
Va-b là kích thước vốn từ riêng của A (trong ví dụ ở trên, chỉ có từ vị tôi, do đó  Va-b = 1)
Va là kích thước toàn bộ vốn từ của A, gồm cả phần riêng và phần chung (trong ví dụ ở trên Va-b = 11).
Vb-a là kích thước vốn từ riêng của B (trong ví dụ ở trên, chỉ có từ vị , do đó Vb-1 = 1)
Vb là kích thước toàn bộ vốn từ của B (trong ví dụ ở trên Vb = 11)
Vậy chỉ số độc lập = 1/11 + 1/11 = 2/11
Theo công thức trên thì chỉ số độc lập càng lớn khi tỷ trọng của phần riêng trong vốn từ càng lớn so với toàn bộ vốn từ.

Chỉ số liên thông từ vựng của Nhuan Xuan Luong (còn có một tên khác là chỉ số liên thông từ vựng thứ nhất của Muller). Để tính chỉ số này ta tính tỷ số Vab / (Va+Vb-Vab)
Vab là kích thước của vốn từ chung cho cả A và B (trong ví dụ trên Vab = 10)
Va + Vb – Vab chính là vốn từ tổng cộng khi gộp hai văn bản A và B  làm một (trong ví dụ trên vốn từ tổng cộng này gồm 12 đơn vị)
Như vậy chỉ số liên thông từ vựng của Nhuan Xuan Luong trong ví dụ trên là 10/12

Sau cùng, nếu tính đển độ phủ văn bản của vốn từ chung, ta có tỷ số Nab/N với Nab là tổng số lượt từ mà vốn từ chung phủ được và N là kích thước của hai văn bản gộp lại. Trong ví dụ trên, vốn từ chung phủ được 10 lượt từ ở văn bản A và 10 lượt từ ở văn bản B, tổng cộng 20 lượt từ. Hai văn bản A và B gộp lại có N = 15 + 15 = 30. Như vậy vốn từ chung phủ được 20/30 độ dài văn bản. Tỷ số này được gọi là chỉ số liên thông từ vựng thứ hai của Muller.

No comments:

Post a Comment