Wednesday 31 October 2012

Khi nào người làm thống kê từ vựng nên đếm cả dấu câu?


Khi nào người làm thống kê từ vựng nên đếm cả dấu câu?
Giả sử ta có văn bản sau:
Tôi muốn bàn về vấn đề dân chủ, nhân quyền ở Việt Nam khi một số tổ chức phản động cực đoan của người Việt ở nước ngoài và một số phần tử cơ hội ở trong nước được sự "bảo kê" của một số cơ quan truyền thông, một số tổ chức nhân danh "dân chủ, nhân quyền" hỗ trợ tài chính qua các loại "giải thưởng"; từ đó xuyên tạc, bóp méo sự thật, rồi tung hô nhau là "nhà dân chủ" nhằm dễ bề lôi kéo dư luận khi bị pháp luật Việt Nam trừng phạt. (Trần Mai (HoaKỳ), báo Nhân Dân ngày 30-10-2012)
Đếm cái gì hay không đếm cái gì là tùy vào mục đích nghiên cứu.
Nếu mục đích là lập bảng từ  cần cung cấp cho người học tiếng Việt, ta cần biết từ nào được dùng nhiều, từ nào ít dùng. Ta không cần đếm dấu câu (dấu chấm, dấu phẩy, dấu chấm phẩy...) làm gì.
Nhưng nếu mục đích nghiên cứu là một số nét đặc trưng của phong cách tác giả, chẳng hạn như tốc độ bổ sung từ vị dọc theo chiều dài văn bản hay tổng số vốn từ trên văn bản, thì nên đếm cả dấu câu. Tại sao? Tại vì sự xuất hiện của dấu phẩy có thể làm chậm xuất hiện hoặc làm suy giảm tần số của các từ thì, và, rồi, nhưng... Dấu hai chấm có thể là một cách để tác giả tránh lặp từ . Các dấu nháy là một cách để tác giả kiệm lời, khỏi phải giải thích dông dài thêm về những từ ngữ bị kẹp giữa hai dấy này...

No comments:

Post a Comment