Wednesday, 28 January 2015

Mật độ từ vựng là gì?





Có ít nhất hai định nghĩa cho thuật ngữ lexical density.

Định nghĩa thứ nhất gọi tỷ lệ thực từ/tổng số phần tử trong vốn từ (bao gồm thực từ và hư từ) là mật độ từ vựng (Stubb, 1986:33). Ví dụ: văn bản Chó thích mèo, nhưng mèo ghét chó có 4 thực từ (chó, mèo, thích, ghét) và một hư từ (nhưng); mật độ từ vựng theo định nghĩa này là 4/5.



Định nghĩa thứ hai tính mật độ từ vựng bằng tỷ lệ giữa kích thước vốn từ V và kích thước văn bản N (Crystal, 2011:276). Ví dụ: văn bản Chó thích mèo, nhưng mèo ghét chó có V = 5 (vốn từ có 5 phần tử), N = 7 (văn bản dài 7 lượt từ); mật độ từ vựng theo định nghĩa thứ hai sẽ là 5/7.



Trần Thủy Vịnh et al. (2013:290) chọn định nghĩa của David Crystal (2011:276):

Trong ngôn ngữ học thống kê và từ vựng học, việc đo lường độ khó của văn bản, bằng việc sử dụng tỷ lệ giữa những từ khác nhau trong văn bản (điển dạng – ‘word type’) với toàn bộ số từ trong văn bản (hiện dạng/trường hợp cá thể - ‘word type’); tỷ lệ này được gọi là tỷ lệ điển dạng/hiện dạng (type/token ratio (TTR)). Tỷ lệ này được tính toán bằng cách chia những từ khác nhau với toàn bộ từ và nhân với 100. Kết quả được cho dưới dạng phần trăm. Giả định ở đây là số từ vựng khác nhau càng tăng (nghĩa là TTR càng cao) thì độ khó của văn bản càng tăng.

Số từ vựng khác nhau trong định nghĩa của Trần Thủy Vịnh (2013:290) chính là kích thước của vốn từ. Ta tính ra tỷ lệ điển dạng/hiện dạng bằng cách chia kích thước của vốn từ (tức số phần tử đếm được trong vốn từ) với kích thước của văn bản (tức số lượt từ xuất hiện trên văn bản). Ta không thể chia những từ khác nhau cho toàn bộ từ vì đó không phải là những con số.


Với việc giới thiệu định nghĩa của David Crystal (2011:276), hiện nay ta có ít nhất bốn thuật ngữ đồng nghĩa: mật độ từ vựng (còn có thể gọi là mật độ từ vị), tỷ lệ điển dạng/hiện dạng của Johnson (còn gọi là tỷ lệ điển dạng/hiện dạng hay tỷ số Johnson) và chỉ số đa dạng của Carroll (còn gọi là chỉ số Carroll) và độ phong phú từ vựng.

No comments:

Post a Comment