Khi nào người
làm thống kê từ vựng nên đếm cả dấu câu?
Giả sử ta có văn bản sau:
Tôi muốn bàn về
vấn đề dân chủ, nhân quyền ở Việt Nam khi một số tổ chức phản động cực đoan của
người Việt ở nước ngoài và một số phần tử cơ hội ở trong nước được sự "bảo
kê" của một số cơ quan truyền thông, một số tổ chức nhân danh "dân chủ,
nhân quyền" hỗ trợ tài chính qua các loại "giải thưởng"; từ đó
xuyên tạc, bóp méo sự thật, rồi tung hô nhau là "nhà dân chủ" nhằm dễ
bề lôi kéo dư luận khi bị pháp luật Việt Nam trừng phạt. (Trần Mai (HoaKỳ), báo Nhân Dân ngày 30-10-2012)
Đếm cái gì hay không đếm cái gì là tùy vào mục đích
nghiên cứu.
Nếu mục đích là lập bảng từ cần cung cấp cho người học tiếng Việt, ta cần
biết từ nào được dùng nhiều, từ nào ít dùng. Ta không cần đếm dấu câu (dấu chấm,
dấu phẩy, dấu chấm phẩy...) làm gì.
Nhưng nếu mục đích nghiên cứu là một
số nét đặc trưng của phong cách tác giả, chẳng hạn như tốc độ bổ sung từ vị dọc
theo chiều dài văn bản hay tổng số vốn từ trên văn bản, thì nên đếm cả dấu câu.
Tại sao? Tại vì sự xuất hiện của dấu phẩy có thể làm chậm xuất hiện hoặc làm
suy giảm tần số của các từ thì, và, rồi,
nhưng... Dấu hai chấm có thể là một cách để tác giả tránh lặp từ là. Các dấu nháy là một cách để tác giả
kiệm lời, khỏi phải giải thích dông dài thêm về những từ ngữ bị kẹp giữa hai dấy
này...