Có ít nhất hai định nghĩa cho thuật ngữ lexical density.
Định nghĩa thứ nhất gọi tỷ lệ thực từ/tổng số phần tử
trong vốn từ (bao gồm thực từ và hư từ) là mật
độ từ vựng (Stubb, 1986:33). Ví dụ: văn bản Chó thích mèo, nhưng mèo ghét chó có 4 thực từ (chó, mèo, thích, ghét) và một hư từ (nhưng); mật độ từ vựng theo định nghĩa
này là 4/5.
Định nghĩa thứ hai tính mật độ từ vựng bằng tỷ lệ giữa
kích thước vốn từ V và kích thước văn bản N (Crystal, 2011:276). Ví dụ: văn bản
Chó thích mèo, nhưng mèo ghét chó có
V = 5 (vốn từ có 5 phần tử), N = 7 (văn bản dài 7 lượt từ); mật độ từ vựng theo
định nghĩa thứ hai sẽ là 5/7.
Trần Thủy Vịnh et al. (2013:290) chọn định nghĩa của
David Crystal (2011:276):
Trong ngôn ngữ học
thống kê và từ vựng học, việc đo lường độ khó của văn bản, bằng việc sử dụng tỷ
lệ giữa những từ khác nhau trong văn bản (điển dạng – ‘word type’) với toàn bộ
số từ trong văn bản (hiện dạng/trường hợp cá thể - ‘word type’); tỷ lệ này được
gọi là tỷ lệ điển dạng/hiện dạng (type/token ratio (TTR)). Tỷ lệ này được tính
toán bằng cách chia những từ khác nhau với toàn bộ từ và nhân với 100. Kết quả
được cho dưới dạng phần trăm. Giả định ở đây là số từ vựng khác nhau càng tăng
(nghĩa là TTR càng cao) thì độ khó của văn bản càng tăng.
Số từ vựng khác
nhau
trong định nghĩa của Trần Thủy Vịnh (2013:290) chính là kích thước của vốn từ.
Ta tính ra tỷ lệ điển dạng/hiện dạng bằng cách chia kích thước của vốn từ (tức
số phần tử đếm được trong vốn từ) với kích thước của văn bản (tức số lượt từ xuất
hiện trên văn bản). Ta không thể chia những
từ khác nhau cho toàn bộ từ vì đó
không phải là những con số.
No comments:
Post a Comment