Kể từ ngày ra đời cho tới nay, Truyện Kiều (1) của Nguyễn Du (2) đã được giới nghiên cứu văn học tiếp cận từ nhiều góc độ khác nhau. Trong hàng trăm nghiên cứu, một số được tập trung vào tư tưởng và triết lý từ câu chuyện hay từ tác giả qua câu chuyện; một số xoay quanh các giá trị đạo lý có thể suy ra từ tác phẩm; và một số đặt trọng tâm về ngôn ngữ dùng trong truyện. Có thể nói các nghiên cứu trong quá khứ mang nặng tính "định chất", tức tính văn chương và văn học, nhưng hình như chưa có nghiên cứu nào đặtTruyện Kiều dưới lăng kính của khoa học định lượng, như toán học.
Nhưng tại sao lại dùng khoa học định lượng trong nghiên cứu văn chương? Theo tôi, khoa học định lượng có một mối tương giao thầm kín với nghệ thuật nói chung và văn học nói riêng. Chẳng hạn như câu chuyện dân gian về ông chồng tham ăn được bà vợ dùng cọng dây điều khiển, nếu phân tích cho đến nơi đến chốn, là một bài nhập môn về lý thuyết thông tin (information theory). Ngoài ra, trong nghệ thuật có khoa học, và trong khoa học có nghệ thuật. Tỷ lệ vàng có thể coi như một đặc tính nghệ thuật trong khoa học (kiến trúc). Tương tự, nguyên tắc âm luật trong thơ, nhạc, v.v… có thể coi như là một phát biểu toán học của nghệ thuật.
Đã từ lâu, tôi vẫn thường tự hỏi tại sao một tác phẩm văn chương được viết bằng thể thơ sáu-tám, được lặp đi lặp lại cả ngàn lần và có thể nói là ... nhàm chán, nhưng lại được đại đa số quần chúng ngâm đi ngâm lại không biết chán. Thậm chí, thể thơ lục bác trong Truyện Kiều còn được các nhà thơ sau này mô phỏng theo, và cũng được nhiều người đọc ủng hộ. Có phải tại người Việt chúng ta quá dễ dãi với thơ văn, thích theo đường mòn, thiếu tính khai phá, hay tại vì thể thơ lục bát quá hay, quá hợp với ngôn ngữ Việt và tâm tình người Việt? Trong Truyện Kiều có những "công thức" thơ gì và sự phân phối từ ngữ như thế nào để có thể thu hút độc giả một cách mạnh mẽ như thế?
Nhằm mục đích khai thác câu hỏi trên, và nhân năm nay (2000), kỷ niệm 235 năm ngày sinh và 180 năm ngày mất của Nguyễn Du (1766-1820), tôi đã mạo muội làm một vài phân tích thống kê bản trường thi bất tử của cụ Nguyễn Du. Phân tích một tác phẩm văn chương bằng toán thống kê là một việc làm tương đối mới, và có thể nói là ... ngược đời và ngông. Tuy nhiên, trong bài viết này, tôi chỉ trình bày một vài kết quả sơ lược của bản phân tích, đặc biệt chú trọng vào sự phân phối từ vựng. Phần nhận xét về ý nghĩa của kết quả phân tích sẽ được trình bày trong một bài viết sau. Tôi sẽ không trình bày các chi tiết về kỹ thuật tính toán, và thay vào đó là những ngôn từ mà độc giả không có kiến thức về môn toán thống kê vẫn có thể hiểu được. Việc phân tích này hoàn toàn mang tính khảo sát, không nhằm thử nghiệm một giả thuyết hay giải thích một lý thuyết nào.
Phương pháp và một vài định nghĩa
Toàn bộ Truyện Kiều đã được đưa lên liên mạng (internet) ở trangVăn Học Việt Nam do Tiến sĩ Trần Duy Trác dày công phát triển và quản lý (3). Bản Truyện Kiều điện tử này được viết bằng kiểu chữ VIQR (4), và do đó rất tiện cho việc phân tích bằng máy điện toán.
Quá trình phân tích được chia làm ba giai đoạn: giai đoạn một là việc chuẩn bị, sắp xếp bản Truyện Kiều điện tử dưới dạng thích hợp cho máy điện toán và hệ thống chương trình phân tích; giai đoạn hai là dùng hệ thống nhu liệu có tên là "Statistical Analysis System" (SAS) để "đọc" toàn bộ Truyện Kiều từng chữ một, kể cả các dấu sắc, huyền, hỏi, ngã, nặng vào bộ nhớ (memory); và giai đoạn ba là dùng SAS để phân tích dữ kiện và tính toán các chỉ số thống kê. Để tiện việc so sánh, bản truyện dài Chí phèo cũng được "đọc" và phân tích. Cả hai bản truyện, tất cả các dấu chấm câu như dấu phẩy, chấm, chấm thang, dấu hỏi, v.v. phải được bỏ đi để chỉ còn lại hoàn toàn các "chữ nguyên".
Trong bài viết này, tôi có dùng một vài danh từ có lẽ hơi lạ với độc giả, và một vài hàng giải thích, định nghĩa có lẽ sẽ giúp cho việc thông hiểu bài viết dễ hơn. Mẫu tự (letter) là danh từ dùng để chỉ đơn vị căn bản nhất của một chữ. Ví dụ như chữ "Nghĩa" có 5 mẫu tự (tức là n, g, h, i và a). Từ đơn là danh từ dùng để chỉ một chữ riêng biệt (ví dụ như rằng, khinh, hội, máu, v.v.). Từ kép là danh từ dùng để chỉ hai hoặc hơn hai chữ được kết hợp với nhau (ví dụ nhưthanh minh, giàu sang, cốt cách, hớt hơ hớt hải, v.v.).
Cũng như bất cứ bài thơ nào, một số chữ được lặp lại nhiều lần. Điều này dẫn đến một định nghĩa về những từ-duy-nhất (unique words). Ví dụ như trong câu thơ "Một, hai nghiêng nước nghiêng thành", có tất cả là 6 từ đơn; nhưng trong đó, chữ nghiêng được lặp lại hai lần, và do đó, số từ-duy-nhất là 5.
Vì đây là một phân tích thống kê; thành ra, một vài định nghĩa về các từ chuyên môn dùng trong bài viết có lẽ cùng cần thiết và thích hợp. Trong Thống kê học, số trung bình (tiếng Anh gọi là mean hayaverage) là một chỉ số (index) trung tâm giữa hai cực, là số đại diện hay tiêu biểu cho một dãy số. Ví dụ như trong câu "Trăm năm trong cõi người ta" có tất cả 6 chữ và 23 mẫu tự; như vậy, tính trung bình, mỗi chữ có 3.83 mẫu tự (23 chia cho 6).
Bên cạnh số trung bình phản ánh độ trung tâm của một dãy số là chỉ số lệch tiêu chuẩn (standard deviation) phản ánh mức độ biến thiên giữa các con số trong một dãy số (5). Vì chỉ số này thường phụ thuộc vào đơn vị đo lường, nên người ta thường hay diễn tả sự biến thiên của một dãy số bằng cách chia số lệch tiêu chuẩn cho số trung bình và nhân cho 100 để có một hệ số biến thiên (coefficient of variation). Một hệ số biến thiên cao phản ánh mức độ biến thiên hay "di động" cao giữa các con số trong một dãy số so với số trung bình.
Nhằm khai thác sự phân phối của các chữ trong các đoạn thơ, tôi đã phân nhóm Truyện Kiều thành 8 đoạn dựa theo các sự kiện được trình bày trong truyện như sau: đoạn 1: mở bài (câu 1 đến câu 38); đoạn 2: Thúy Kiều và Kim Trọng đính ước (câu 39-528); đoạn 3: Vương Công mắc oan; Thúy Kiều bán mình (câu 529-864); đoạn 4: Kiều ở Thanh Lâu (câu 865-1274); đoạn 5: Kiều vào tay Hoạn Thư (câu 1275-1992); đoạn 6: Kiều lấy Từ Hải (câu 1993-2736); đoạn 7: Kiều và Kim Trọng tái họp (câu 2737-3240); và đoạn kết từ câu 3241 đến 3254.
Một vài kết quả.
Truyện Kiều gồm có 3254 (6) câu thơ lục bát (sáu-tám), với đúng 22.778 chữ. Tuy nhiên, toàn truyện chỉ dùng có 2.407 từ đơn duy nhất. Nói một cách khác, có một số chữ được lặp lại (repetition) nhiều lần. Tính trung bình, số lần được dùng là 9.5 lần cho mỗi từ. Trong số 2.407 từ, khoảng 69% được dùng tối đa là 6 lần; 20% từ được dùng từ 7 đến 21 lần; và 10% tự được dùng hơn 21 lần. Những chữ được dùng nhiều nhất là: một (321 lần), đã (262), người (224),nàng (199), lòng (174), lời (173), là (172), cũng (169), cho (169),có (163), rằng (160), lại (145), hoa (135), tình (126), v.v.
Trong truyện dài văn xuôi Chí Phèo, có 12.665 chữ ; trong số này, có 1.713 từ-duy-nhất. Tức là, độ lặp lại trung bình trong Chí Phèochỉ 7,4 lần, thấp hơn 2,4 lần so với Truyện Kiều.
Độâ dài của chữ được tính bằng cách đếm số mẫu tự trong chữ đó. Dùng số từ-duy-nhất làm mẩu số, tính trung bình, mỗi từ đơn trongTruyện Kiều dài khoảng 3,45 mẫu tự với độ lệch tiêu chuẩn là 0.93 mẫu tự, và hệ số biến thiên khoảng 27%. Khoảng 74% trong tổng số 2.407 từ-duy-nhất có độ dài từ 3 đến 4 mẫu tự, và chỉ có khoảng 14% dài từ 1 đến 2 mẫu tự. Chữ dài nhất trong Truyện Kiều có 7 mẫu tự, đó là chữ "Nghiêng" được dùng tất cả là 5 lần:
Chỉ có 45 chữ (hay khoảng 2%) với 6 mẫu tự, đó là những chữ:chiêng, chiềng, chương, chường, chuông, chuyện, chuyển, chuyền, giường, khoảng, khuâng, khuyết, khuyển, khuyên, khuynh, nghênh, nghiến, nghiệp, nghiệt, nghiêm, nghiên, nguyện, nguyệt, nguyên, nguyền, nhường, nhuyễn, phượng, phương, phường, thiêng, thoáng, thoảng, thoang, thưởng, thương, thường, thuyết, truyền, trường, trượng, trưởng, trương, và truyền.
Những chữ thường được dùng nhiều lần (tính theo số lần lặp lại trung bình) thường có hai mẫu tự (10,6 lần), kế đến là những chữ có 5 mẫu tự (10,2 lần). Những chữ có 6 mẫu tự được dùng ít (trung bình 6.7 lần). Ngoài ra, những chữ có 1 và 4 mẫu tự cũng có độ dùng thấp hơn (khoảng 8.7 tới 8.8 lần) so với các chữ khác.
Trong Chí phèo, số lần lặp lại trung bình cho mỗi từ là 7,4 lần, tức là thấp hơn trong Truyện Kiều đến 2,1 lần. Ngoài ra, độ dài trung bình của chữ trong Chí Phèo cũng ngắn hơn (nhưng độ lệch tiêu chuẩn và hệ số biến thiên tương đương với) Truyện Kiều. Trong Chí phèo, độ dài trung bình của chữ là 3,19 với độ lệch tiêu chuẩn là 0,92 và hệ số biến thiên là 29%. Khoảng 69% chữ trong Chí phèocó độ dài từ 3 đến 4 mẫu tự. Trong Chí Phèo, những chữ ngắn (2 mẫu tự) có số lần lặp lại khá cao (11,1 lần), so với những chữ 4 mẫu tự (4,9 lần) hay 5 mẫu tự (8,7 lần) và 6 mẫu tự (chỉ 2,4 lần). (Xem thêm chi tiết trong bảng thống kê số 1).
Trong số 2.407 chữ-duy-nhất, có 25,4% chữ không dấu, 24,7% dấu sắc, 19,1% dấu huyền, 15,3% dấu nặng, 9,7% dấu hỏi, và 5,8% dấu ngã. Nếu tổng số chữ (22.778) trong truyện làm mẩu số, gần một phần ba (chính xác hơn là 32,4%) là những chữ không dấu; những chữ mang dấu huyền chiếm 27,3%, theo sau là dấu sắc (17,7%), dấu nặng (11,1%), dấu hỏi (6%) và dấu ngã (5,5%). Điều này cũng có nghĩa là những chữ được dùng nhiều nhất thường mang dấu huyền (13,5 lần) hay không dấu (12,1 lần); những chữ mang các dấu khác có độ lặp lại khoảng 6,9 lần, tức thấp hơn trung bình.
Khuynh hướng phân phối dấu này có thể không đại diện được cho tiếng Việt nói chung, vì theo thể thơ lục bác, những chữ không dấu và dấu huyền phải chiếm đa số. Thực vậy, trong Chí Phèo, những chữ mang dấu huyền (16,2%) và không dấu (23,4%) tương đối ít hơn trong Truyện Kiều. Tuy nhiên, cũng như trong Truyện Kiều,những chữ được dùng đi dùng lại nhiều nhất trong Chí Phèo vẫn là những chữ mang dấu huyền (10,7 lần), tiếp theo là những chữ không dấu (7,5 lần). Có thể tham khảo thêm chi tiết trong bảng thống kê số 2.
Phân phối về độ dài của chữ cũng có khuynh hướng tùy thuộc vào dấu của chữ. Chẳng hạn như trong Truyện Kiều, những chữ mang dấu huyền có độ dài cao nhất (3,5 mẫu tự), kế theo là những chữ mang dấu sắc (3,4), nặng (3,3), hỏi (3,1) và ngắn nhất là những chữ mang dấu ngã (3,0).
Trong tiếng Việt, dựa vào cách phát âm cao thấp, người ta chia các chữ thành hai thanh: bằng và trắc. Thanh bằng được phát ra bằng phẳng đều đều, và gồm những chữ không dấu hay mang dấu huyền; và thanh trắc là những thanh khi phát ra hoặc cao hoặc tự thấp lên cao, hoặc tự cao xuống thấp gồm những chữ mang dấu sắc, hỏi, ngã, và nặng. Theo thể thơ lục bát, câu 6 chữ và câu 8 chữ được cấu trúc như sau:
b b t t b b
b b t t b b t b
(b = thanh bằng; t = thanh trắc). Tuy nhiên, cấu trúc trên chỉ là qui ước chung; trong thực tế, thơ lục bát có một vài ngoại lệ. Cụ thể là chữ thứ nhất, thứ ba, và thứ năm và bảy không nhất thiết phải là thanh bằng, trắc, bằng và trắc, nhưng có thể biến đổi. Ví dụ như hai câu sau đây là một ngoại lệ:
Vì chữ trong đáng lẽ phải là thanh trắc, chữ và khéo đáng lẽ phải là thanh bằng.
Thực ra, trong Truyện Kiều, cụ Nguyễn Du đã dùng đến 22 biến thể (variations) khác nhau cho câu sáu chữ, và 16 biến thể cho câu tám chữ. Trong các câu 6 chữ, chỉ có khoảng 18% là tuân theo luật bb tt bb, và các biến thể khác được dùng khá nhiều như: bb bt bb(10,4%), bb tt tb (8,9%), tb bt bb (12,1%), tb bt tb(13,3%), tb tt bb (16,6%), tb tt tb (9,6%), và bb bt tb(9,7%). Ngoài ra, còn có những biến thể có vẻ hoàn toàn ngoại lệ như sau:
b b t b b b : Khi hương sớm, khi trà trưa (1297)
Khi Vô Tích khi, Lâm Truy (2291)
b b t b t b : Khi chè chén, khi thuốc thang (1749)
Càng trông mặt, càng ngẩn ngơ (1819)
b t b t b b : Đau đớn thay phận đàn bà (83)
b t b t t b : Người một nơi, hỏi một nơi (2829)
b t t b b b : Khi gió gác, khi trăng sân (1295)
b t t b t b : Khi tựa gối, khi cúi đầu (487)
b t t t b b : Mai cốt cách, tuyết tinh thần (17)
b t t t t b : Sao chẳng biết ý tứ gì? (1861)
t b b b b b : Tưởng bây giờ là bao giờ (3013)
t b t b b b : Mặt nhìn mặt càng thêm tươi (393)
t t b t b b : Hại một người, cứu muôn người (2685)
t t b t t b : Aáy mới gan, ấy mới tài (2005)
Mụ quản gia vãi Giác Duyên (2305)
t t t t b b : Nước vỏ lựu, máu mào gà (837)
Có cổ thụ, có sơn hồ (1915)
t t t t t b : Hết nạn ấy đến nạn kia (2667)
Tuy nhiên, trong các câu tám chữ, cụ Nguyễn Du không nhất thiết theo công thức bb tt bb tb mà dùng đến 16 biến thể khác nhau. Trong đó, những cấu trúc hay được dùng là tb bt tb tb(8,5%), tb tt bb tb (8,4%), và tb bt tb bb (8%). Thực ra, chỉ có 45% câu tám chữ được bắt đầu bằng thanh bằng. Về chi tiết phân phối các biến thể này, có thể tham khảo thêm trong Bảng thống kê số 3.
Với 22 biến thể câu sáu chữ và 16 biến thể câu tám chữ, cụ Nguyễn Du có thể dùng đến 22 x 16 = 352 cấu trúc các câu thơ sáu-tám. Tuy nhiên, trong thực tế, cụ Nguyễn Du chỉ dùng 155 cấu trúc (hay 44% của con số 352) mà thôi. Những cấu trúc được dùng từ 20 lần trở lên là:
t b b t t b / t b b t t b b b (20 lần)
t b t t b b / b b t t b b t b (20 lần)
t b b t b b / t b b t t b b b (21 lần)
t b b t b b / t b t t b b t b (21 lần)
t b t t b b / b b t t t b t b (21 lần)
b b t t b b / b b t t t b t b (22 lần)
b b t t b b / t b t t t b b b (23 lần)
b b t t b b / b b t t b b t b (24 lần)
b b t t b b / t b b t t b t b (25 lần)
t b t t b b / t b b t t b b b (25 lần)
Theo các nhà nghiên cứu ngôn ngữ học, nguyên âm được chia ra làm hai loại trầm và bổng tùy theo độ khép hay mở của môi khi phát âm. Những nguyên âm này có thể tóm tắt như sau (7):
Bổng Trung Trầm
Khép i ư u
Trung ê ơ/â oâ
Mở e a/ă o
Phụ âm cuối trong tiếng Việt cũng có thể chia thành hai nhóm: vang và tắc. Phụ âm vang gồm có m, n, nh, ng; và phụ âm tắc gồm: p, t, ch và c. Những chữ sau đây (gạch dưới) được xem là có dùng nhiều nguyên âm mở và phụ âm vang (7):
(Hàn Mặc Tử)
Trong số 22.778 chữ trong Truyện Kiều, có 13.963 chữ (hay khoảng 61%) có thể phân loại nguyên âm trầm-bổng. Tính trên tổng số 13.963 chữ, có khoảng 21% chữ có nguyên âm bổng, 31% chữ có nguyên âm trầm, và 48% chữ có nguyên âm "trung bình". Phân tích theo độ khép-mở của môi cho thấy khoảng 47% chữ có nguyên âm mở, và chỉ 21% chữ có nguyên âm khép. Tất cả những phân phối này rất tương đương với phân phối trong Chí Phèo (xem Bảng thống kê số 4).
Có 10.650 chữ (hay 47% trong tổng số chữ trong Truyện Kiều) có phụ âm. Trong số này, 77,1% có phụ âm vang và chỉ 23% có phụ âm tắc. Phần lớn những chữ có phụ âm vang là n (khoảng 25%) vàng (33,4%). Trong số 23% chữ với phụ âm tắc, 11% là có phụ âm tvà 8,3% là phụ âm c. (Xem thêm trong Bảng thống kê số 5)
Phân tích sự kết hợp giữa phụ âm và nguyên âm cho thấy phần lớn những phụ âm vang là vang-trung (40%), tiếp theo là vang-trầm (23,2%), và vang-bổng (khoảng 16%). Các phụ âm tắc lại tập trung vào tắc-trung (10%) và tắc-trầm (9%); trong khi đó tắc-bổng chỉ chiếm 1,8%. Những phân phối này trong Chí Phèo cũng không khác nhau xa với Truyện Kiều. (Xem thêm trong Bảng thống kê số 6)
Trong Truyện Kiều, những chữ có nguyên âm mở và phụ âm vang chiếm khoảng 39% (nhiều hơn trong Chí Phèo khoảng 2%). Tuy nhiên, tỷ lệ này có xu hướng thay đổi tùy theo các đoạn thơ. Chẳng hạn như, trong phần mở đầu (câu 1 đến câu 38), có 40% là những chữ mang âm mở-vang; tỷ lệ này được duy trì từ đoạn thơ số 2 đến đoạn số 4; tăng lên 41,3% trong đoạn số 5 và có khuynh hướng giảm xuống còn 36% trong đoạn số 6, 39% đoạn số 7 và 29,4% trong đoạn số 8. (Xem thêm trong Bảng thống kê số 7)
Một vài nhận xét
Có thể nói Truyện Kiều không những đã đặt nền móng cho văn học Việt Nam hiện đại, mà qua đó, còn biểu hiện cho sự trưởng thành của ngôn ngữ Việt. Bàn về vai trò của Nguyễn Du, và tính tiên phong của Truyện Kiều trong ngôn ngữ Việt và văn học Việt Nam, tưởng chưa ai viết đầy đủ hơn cụ Đào Duy Anh: "Nguyễn Du đã sử dụng một cách tài tình những yếu tố dân gian của ngôn ngữ, những yếu tố văn học của ngôn ngữ dân gian gồm trong các tục ngữ phong giao; Nguyễn Du đã dân tộc hóa một cách tài tình những yếu tố văn học chữ Hán trước kia chỉ được sử dụng một cách dè dặt vụng về trong văn học chữ nôm; do đó Nguyễn Du đã phát triển, hoàn chỉnh và thống nhất hai thành phần quan trọng của ngôn ngữ văn học Việt Nam, yếu tố văn học dân gian và yếu tố văn học chữ Hán, để tạo nên một ngôn ngữ văn học mới, dồi dào, uyển chuyển." (8) Thực vậy, giá trị đích thực của Truyện Kiềukhông phải ở tư tưởng, đạo đức hay luân lý hay cốt truyện, mà là ở văn chương, ở kỹ thuật miêu tả, tự sự và diễn đạt tình cảm. Chỉ cần đọc qua vài công trình nghiên cứu về Truyện Kiều đều cho ta thấy cả một kho tài liệu về điển cố văn chương, cũng như về văn phạm, từ ngữ cực kỳ phong phú được gói gém trong đó. Chính cái phần văn chương đó đã làm cho Truyện Kiều trở nên bất hủ. Bài phân tích này nhằm tìm hiểu một khía cạnh nhỏ của kho tàng ngôn ngữ trong Truyện Kiều qua lăng kính thống kê học.
Công việc đếm số chữ trong bài phân tích này không phải là mới. Cụ Đào Duy Anh, trong Từ Điển Truyện Kiều (8), đã từng làm thống kê số chữ và số lần lặp lại cho từng chữ một cách thủ công. Tuy rằng vào thời kỳ soạn cuốn từ điển này chưa có máy vi tính, nhưng cụ Đào Duy Anh đã đếm số từ cực kỳ chính xác, và có thể nói là còn công phu hơn bài phân tích bằng máy vi tính này. Tuy nhiên, với máy vi tính, công việc làm này rất tiện và nhanh. Toàn bộ phân tích về số chữ và các thống kê kèm theo có thể chỉ tốn khoảng một phút cho máy vi tính!
Như đã đề cập trên, toàn bộ Truyện Kiều, cụ Nguyễn Du chỉ dùng có 2.407 từ đơn. Tuy nhiên, một số từ đơn được ghép lại với nhau thành các từ kép; do đó, số từ đơn và kép ít hơn con số trên đây. Theo Từ Điển Truyện Kiều, có 2.249 từ đơn và kép.
Có vài kết quả thú vị là: Tính trung bình, những chữ dùng trongTruyện Kiều có nhiều mẫu tự hơn trong truyện dài Chí Phèo (3.41 so với 3.19 mẫu tự). Ngoài ra, những chữ có dấu huyền và không dấu (thanh bằng) có nhiều mẫu tự những chữ thanh trắc. Tôi không rõ những khác biệt này có ý nghĩa gì, nhưng có lẽ đây là một phân phối "tự nhiên" trong ngôn ngữ Việt, vì khuynh hướng này cũng hiện diện trong các tác phẩm văn chương khác như Cung oán Ngâm khúc và Chinh phụ Ngâm khúc.
Nếu tính theo quy tắc "chuẩn" thơ lục bát (bb tt bb / bb tt bb tb), Truyện Kiều phải có 64,3% chữ thanh bằng và 35,7% chữ thanh trắc. Nhưng trong thơ lục bát, cũng như nhiều thể thơ khác, có một vài ngoại lệ, và do đó sự phân phối thanh bằng trắc không nhất thiết phải theo tỷ lệ trên. Những ngoại lệ này là các chữ số lẽ (1, 3, 5 và 7) trong cả hai câu sáu và tám chữ có thể là thanh bằng hay thanh trắc. Do đó trong thực tế, số lượng chữ thanh bằng ít hơn, và thanh trắc nhiều hơn, công thức trên. Trong số 22.778 chữ trong truyện,có 13.608 chữ (tức 59,7%) là thanh bằng, và 40,3% chữ là thanh trắc.
Dựa vào ngoại lệ nằm trong khuôn khổ được cho phép trên, luật bằng trắc có thể đơn giản hóa thành btb và btbb cho những chữ ở vị trí số 2, 4, 6 (cho câu sáu chữ) và 2, 4, 6, 8 (cho câu tám chữ). Theo "công thức đơn giản hóa" này, nhà thơ "được phép" chọn tất cả 8 biến thể (variations) khả dĩ cho câu sáu chữ, và 16 biến thể khả dĩ cho câu tám chữ. Tuy nhiên, đối với câu sáu chữ, cụ Nguyễn Du không những dùng tất cả 8 biến thể khả dĩ cho phép, mà còn sáng tạo thêm 14 biến thể với 29 câu thơ. Trong số 29 câu "phá luật" này, 19 câu tập trung ở công thức ttb, 6 câu theo bbb, và 4 câu theotbb . Trong số 29 câu phá lệ này, có đến 26 câu được viết theo nhịp 3/3, như "khi hương sớm, khi trà trưa" hay "Nền phú hậu, bậc tài danh", và chỉ có ba câu không theo nhịp trên (sao chẳng biết ý tứ gì (1861), tưởng bây giờ là bao giờ (3013), mụ quản gia vãi Giác duyên (2305)). Điều thú vị là trong những câu 3/3 này, chữ "khi" thường được dùng đi dùng lại khá nhiều lần:
Tuy nhiên, đối với cấu trúc vần cho câu tám chữ, cụ Nguyễn Du hoàn toàn "tuân thủ" theo luật btbb, và dùng tất cả 16 biến thể khả dĩ.
Theo luật btb / btbb, thơ lục bát có thể có đến 128 biến thể khả dĩ cho những câu kép sáu-tám chữ. Nhưng trong thực tế, cụ Nguyễn Du đã sáng tạo thêm 27 biến thể để có 155 biến thể trong toànTruyện Kiều. Nói một cách khác, cụ Nguyễn Du đã phá luật đến 27 lần.
Tôi cũng dùng một số phương pháp toán học khác để tìm xem trong Truyện Kiều có một khuynh hướng có hệ thống (systematic trend) về cách sử dụng các biến thể khác nhau, nhưng tôi không tìm thấy một khuynh hướng nào để có thể kết luận là có một nỗ lực có ý thức nào đó về cách sử dụng các biến thể. Tuy nhiên, tỷ lệ các chữ thanh bằng có vẻ biến đổi theo một hàm số lượng giác sine (tức là lên xuống) theo từng đoạn văn trong truyện. Thanh bằng được xem là "êm tai", và sự thay đổi về tỷ lệ này có lẽ làm cho âm điệu trongTruyện Kiều không nhàm chán!
Phân phối nguyên âm và phụ âm trong Truyện Kiều cũng là một điều đáng chú ý. Tính trung bình, tỷ lệ các chữ có phụ âm vang trong Truyện Kiều nhiều hơn trong Chí Phèo, tuy mức độ khác biệt rất khiêm tốn (77,2% và 75,7%). Tương tự, sự phân phối về nguyên âm giữa Truyện Kiều và Chí Phèo hầu như không khác nhau. Chẳng hạn như tỷ lệ các chữ có nguyên âm trầm trong Truyện Kiều(31,1%) rất tương đương với tỷ lệ tìm thấy trong Chí Phèo (31,2%).
Theo giới bình luận thơ, những câu thơ được khen là có nhiều nhạc tính, cứ ngân nga âm vang không dứt chủ yếu là nhờ kết hợp được những chữ có nhiều nguyên âm mở và những chữ có nhiều phụ âm vang. Trong Truyện Kiều, tỷ lệ các chữ có nguyên-phụ âm mở-vang chỉ có 39,3%, nhiều hơn trong Chí Phèo (37,1%).
Điều khá thú vị là tỷ lệ thanh bằng trắc rất khác nhau giữa các nguyên âm và phụ âm. Chẳng hạn như trong số 2895 chữ có nguyên âm bổng (i, e, ê), khoảng 66% là thanh bằng và chỉ 33% là thanh trắc. Trong số 4342 chữ có nguyên âm trầm (u, o, ô), những chữ có thanh bằng chiếm khoảng 49%, và phần còn lại (51%) là những chữ có thanh trắc. Về phụ âm, như ta có thể đoán được là tất cả các phụ âm tắc (p. t. ch, c) là những chữ có dấu nặng (43%) và dấu sắc (57%). Tuy nhiên, phần đông những chữ có phụ âm vang (m, n, nh, ng) thường tập trung ở thanh bằng (35% dấu huyền và 39% không dấu), và chỉ 26% là thanh trắc (12% dấu sắc, 6% dấu nặng, 4% dấu ngã và 4% dấu hỏi).
Cố nhiên, không ai trong chúng ta thưởng thức Truyện Kiều hay thơ văn lại phải dùng đến các hàm số toán học để tính toán xem có bao nhiều vần bằng, trắc hay sự phân phối của chữ và độ dài của chúng ra sao. Bài phân tích này không nhằm mục đích tìm ra một "công thức" toán học cho một bài thơ hay, mà chỉ trình bày một số dữ kiện thực liên quan đến từ vựng và các biến thể của thể thơ lục bát được dùng trong Truyện Kiều, được xem là một tuyệt tác phẩm của thi ca Việt Nam. Có thể một vài kết quả trong bài phân tích này sẽ hoàn toàn không có ý nghĩa văn học hay học thuật gì, nhưng cũng có thể một vài kết quả làm ngạc nhiên nhiều độc giả yêu Truyện Kiều. Và trong những trường hợp như thế, những phân tích này hy vọng sẽ giúp cho độc giả tò mò và suy nghĩ thêm.
Nguyễn Văn Tuấn
Ghi chuù
Phụ chú: Các bảng thống kê dùng trong bài viết
Bảng 1. Phân phối độ dài của chữ và mức độ dùng chữ (lặp lại)
Độ dài a Số chữ-duy- Số chữ dùng Số lần lặp
nhất (%) trong truyện (%) lại trung bình
Truyện Kiều
1 13 (0,5) 113 (0,5) 8,7
2 316 (13,1) 3345 (14,7) 10,6
3 984 (40,9) 9446 (41,5) 9,6
4 803 (33,4) 7074 (31,3) 8,8
5 245 (10,2) 2492 (10,9) 10,2
6 45 (1,9) 303 (1,3) 6,7
7 1 (0,0) 5 (0,0) 5,0
Tổng cộng 2407 (100,0) 22778 (100,0) 9,5
Độ dài trung bình b 3,45 (0,93) 3,41 (0,93)
Chí Phèo
1 21 (1,2) 112 (0,9) 5,3
2 233 (13,6) 2595 (20,5) 11,1
3 748 (43,7) 5992 (47,3) 8,0
4 544 (31,8) 2698 (21,3) 4,9
5 136 (7,9) 1185 (9,4) 8,7
6 30 (1,8) 72 (0,6) 2,4
7 1 (0,1) 1 (0,0) 1,0
Tổng cộng 1713 (100,0) 12655 (100,0) 7,4
Độ dài trung bình b 3,37 (0,92) 3,19 (0,92)
a Tính theo số mẫu tự trong từng chữ; b Số trung bình và độ lệch tiêu chuẩn (trong ngoặc). Ví dụ cách đọc: trong Truyện Kiều, có 13 từ-duy-nhất (unique words), chiếm 0.5% trong tổng số 2407 từ-duy-nhất, và mỗi từ chỉ có một mẫu tự. Tuy nhiên, những từ này được dùng đi dùng lại tới 113 lần (cũng chiếm 0.5% trong tổng số 22778 chữ trong truyện). Do đó, tính trung bình, mỗi chữ được dùng là 8.7 lần (tức gần 9 lần).
Bảng 2. Phân phối dấu và chữ, và mức độ dùng chữ (lặp lại)
Dấu Số chữ-duy- Số chữ dùng Số lần lặp
nhất truyện (%) trong truyện (%) lại trung bình
Truyện Kiều
Hỏi 233 (9,7) 1378 (6,0) 5,9
Huyền 460 (19,1) 6224 (27,3) 13,5
Nặng 369 (15,3) 2525 (11,1) 6,8
Ngã 139 (5,8) 1242 (5,5) 8,9
Không dấu 612 (25,4) 7384 (32,4) 12,1
Sắc 594 (24,7) 4025 (17,7) 6,8
Tổng cộng 2778 (100,0) 22407 (100,0) 9,5
Chí Phèo
Hỏi 162 (9,5) 1060 (8,4) 6,5
Huyền 278 (16,2) 2985 (23,6) 10,7
Nặng 305 (17,8) 1682 (13,3) 5,5
Ngã 102 (6,0) 646 (5,1) 6,3
Không dấu 401 (23,4) 3025 (23,9) 7,5
Sắc 465 (27,1) 3257 (25,7) 7,0
Tổng cộng 1713 (100,0) 12655 (100,0) 7,4
Bảng 3. Phân phối số câu lục-bát
Vần Số câu Phần trăm
Câu sáu chữ
B b b t b b 169 10,4
B b b t t b 158 9,7
B b t b b b 2 0,1
B b t b t b 2 0,1
B b t t b b 287 17,6
B b t t t b 144 8,9
B t b t b b 1 0,1
B t b t t b 1 0,1
B t t b b b 1 0,1
B t t b t b 3 0,2
B t t t b b 10 0,6
B t t t t b 1 0,1
t b b b b b 1 0,1
t b b t b b 197 12,1
t b b t t b 217 13,3
t b t b b b 1 0,1
t b t t b b 270 16,6
t b t t t b 156 9,6
t t b t b b 1 0,1
t t b t t b 2 0,1
t t t t b b 2 0,1
t t t t t b 1 0,1
Tổng cộng 1627 100,0
Câu tám chữ
b b b t b b b b 83 5,1
b b b t b b tb 92 5,7
b b b t t b b b 92 5,7
b b b t t b t b 104 6,4
b b t t b b b b 71 4,4
b b t t b b t b 117 7,2
b b t t t b b b 93 5,7
b b t t t b t b 102 6,3
t b b t b b b b 70 4,3
t b b t b b t b 114 7,0
t b b t t b b b 130 8,0
t b b t t b t b 139 8,5
t b t t b b b b 57 3,5
t b t t b b t b 136 8,4
t b t t t b b b 112 6,9
t b t t t b t b 115 7,1
Tổng cộng 1627 100,0
Nguyên âm Số chữ (%) Số chữ (%)
"Truyện Kiều" "Chí phèo"
Bổng - Khép i 1418 (10,1) 1061 (12,5)
Bổng - Mở e 594 (4,3) 201 (2,4)
Bổng - Trung ê 883 (6,3) 574 (6,8)
Cộng chung 2895 (20,7) 1836 (21,6)
Trầm - Khép u 833 (6,0) 505 (5,9)
Trầm - Mở o 1579 (11,3) 832 (9,8)
Trầm - Trung ô 1930 (13,8) 1311 (15,4)
Cộng chung 4342 (31,1) 2648 (31,2)
Trung - Khép ư 670 (4,8) 545 (6,4)
Trung - Mở a 3190 (22,8) 1751 (20,6)
ă 1155 (8,3) 967 (11,4)
Trung - Trung ơ 618 (4,4) 325 (3,8)
â 1093 (7,8) 425 (5,0)
Cộng chung 6726 (48,2) 4013 (47,2)
Tổng cộng 13963 (100,0) 8497 (100,0)
Phụ Số chữ (%) Số chữ (%)
âm "Truyện Kiều" "Chí phèo"
Vang
m 1014 (9,5) 458 (9,2)
n 2646 (24,8) 1515 (30,3)
nh 1004 (9,4) 330 (6,6)
ng 3560 (33,4) 1481 (29,6)
cộng chung 8224 (77,2) 3784 (75,7)
Tắc
p 273 (2,6) 108 (2,2)
t 1174 (11,0) 658 (13,2)
ch 95 (0,9) 62 (1,2)
c 884 (8,3) 390 (7,8)
cộng chung 2426 (22,8) 1218 (24,3)
Tổng cộng 10650 (100,0) 5002 (100,0)
Phụ Nguyên Số chữ (%) Số chữ (%)
âm âm "Truyện Kiều" "Chí phèo"
Vang Bổng 1319 (15,7) 447 (11,0)
Vang Trầm 1957 (23,2) 1092 (25,1)
Vang Trung 3369 (40,0) 1835 (42,2)
Tắc Bổng 150 (1,8) 130 (3,0)
Tắc Trầm 755 (9,0) 346 (8,0)
Tắc Trung 870 (10,3) 468 (10,8)
Tổng cộng 8420 (100,0) 4348 (100,0)
Vang Khép 1280 (15,2) 630 (14,5)
Vang Mở 3307 (39,3) 1611 (37,1)
Vang Trung 2058 (24,4) 1163 (26,8)
Tắc Khép 323 (3,8) 174 (4,0)
Tắc Mở 768 (9,1) 362 (8,3)
Tắc Trung 684 (8,1) 408 (9,4)
Tổng cộng 8420 (100,0) 4348 (100,0)
Bảng 7. Phân phối nguyên âm và phụ âm theo đoạn
Nguyên Phụ Đoạn thơ
âm âm 1 2 3 4 5 6 7 8
Số chữ trong từng đoạn 116 1273 872 1030 1876 1936 1283 34
Phần trăm (%)
Bổng - Tắc 2,6 1,9 1,5 1,7 2,0 1,9 1,5 0,0
Bổng - Vang 15,5 15,2 17,4 11,4 16,2 15,9 17,8 2,9
Trầm - Tắc 11,2 9,2 11,0 8,9 9,3 7,3 9,3 5,9
Trầm - Vang 19,8 22,2 21,8 24,8 23,0 25,1 22,0 23,5
Trung - Tắc 12,9 10,8 10,0 11,4 8,7 11,6 9,4 14,7
Trung - Vang 37,9 40,8 38,3 41,9 40,8 38,3 40,1 52,9
Tắc - Khép 5,0 4,6 3,4 3,0 4,1 3,8 3,7 0,0
Tắc - Mở 11,2 9,4 8,9 9,8 7,9 9,8 8,8 14,7
Tắc - Trung 11,2 7,9 10,1 9,1 8,0 7,1 7,6 5,9
Vang - Khép 10,3 13,0 15,4 11,6 16,4 15,8 18,2 8,8
Vang - Mở 40,5 39,6 40,3 40,3 41,3 36,3 39,2 29,4
Vang - Trung 22,4 25,6 21,9 26,2 22,3 27,2 22,4 41,2
Đoạn 1. Mở bài (câu 1 đến câu 38)
Đoạn 2. Thúy Kiều và Kim Trọng đính ước (câu 39-528)
Đoạn 3. Vương Công mắc oan; Thúy Kiều bán mình (câu 529-864)
Đoạn 4. Kiều ở Thanh Lâu (câu 865-1274)
Đoạn 5. Kiều vào tay Hoạn Thư (câu 1275-1992)
Đoạn 6. Kiều lấy Từ Hải (câu 1993-2736)
Đoạn 7. Kiều và Kim Trọng tái họp (câu 2737-3240)
Đoạn 8. Đoạn kết (câu 3241-3254)
Biểu đồ phân phối thanh bằng trong Truyện Kiều
% thanh bằng
|
62.5 +
| * * * * *
| * * * * * * * *
60.0 + * * * *
| * * * * *
| * * * *
57.5 + * *
| * *
|
55.0 +
--+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-
1 2 3 4 5 6 7 8 9 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0
Đoạn
|
Thursday, 18 October 2012
Đọc Truyện Kiều bằng thống kê học (Nguyễn Văn Tuấn)
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment