Thursday 18 October 2012

Đọc Truyện Kiều bằng thống kê học (Nguyễn Văn Tuấn)


Kể từ ngày ra đời cho tới nay, Truyện Kiều (1) của Nguyễn Du (2) đã được giới nghiên cứu văn học tiếp cận từ nhiều góc độ khác nhau. Trong hàng trăm nghiên cứu, một số được tập trung vào tư tưởng và triết lý từ câu chuyện hay từ tác giả qua câu chuyện; một số xoay quanh các giá trị đạo lý có thể suy ra từ tác phẩm; và một số đặt trọng tâm về ngôn ngữ dùng trong truyện. Có thể nói các nghiên cứu trong quá khứ mang nặng tính "định chất", tức tính văn chương và văn học, nhưng hình như chưa có nghiên cứu nào đặtTruyện Kiều dưới lăng kính của khoa học định lượng, như toán học.
Nhưng tại sao lại dùng khoa học định lượng trong nghiên cứu văn chương? Theo tôi, khoa học định lượng có một mối tương giao thầm kín với nghệ thuật nói chung và văn học nói riêng. Chẳng hạn như câu chuyện dân gian về ông chồng tham ăn được bà vợ dùng cọng dây điều khiển, nếu phân tích cho đến nơi đến chốn, là một bài nhập môn về lý thuyết thông tin (information theory). Ngoài ra, trong nghệ thuật có khoa học, và trong khoa học có nghệ thuật. Tỷ lệ vàng có thể coi như một đặc tính nghệ thuật trong khoa học (kiến trúc). Tương tự, nguyên tắc âm luật trong thơ, nhạc, v.v… có thể coi như là một phát biểu toán học của nghệ thuật.
Đã từ lâu, tôi vẫn thường tự hỏi tại sao một tác phẩm văn chương được viết bằng thể thơ sáu-tám, được lặp đi lặp lại cả ngàn lần và có thể nói là ... nhàm chán, nhưng lại được đại đa số quần chúng ngâm đi ngâm lại không biết chán. Thậm chí, thể thơ lục bác trong Truyện Kiều còn được các nhà thơ sau này mô phỏng theo, và cũng được nhiều người đọc ủng hộ. Có phải tại người Việt chúng ta quá dễ dãi với thơ văn, thích theo đường mòn, thiếu tính khai phá, hay tại vì thể thơ lục bát quá hay, quá hợp với ngôn ngữ Việt và tâm tình người Việt? Trong Truyện Kiều có những "công thức" thơ gì và sự phân phối từ ngữ như thế nào để có thể thu hút độc giả một cách mạnh mẽ như thế?
Nhằm mục đích khai thác câu hỏi trên, và nhân năm nay (2000), kỷ niệm 235 năm ngày sinh và 180 năm ngày mất của Nguyễn Du (1766-1820), tôi đã mạo muội làm một vài phân tích thống kê bản trường thi bất tử của cụ Nguyễn Du. Phân tích một tác phẩm văn chương bằng toán thống kê là một việc làm tương đối mới, và có thể nói là ... ngược đời và ngông. Tuy nhiên, trong bài viết này, tôi chỉ trình bày một vài kết quả sơ lược của bản phân tích, đặc biệt chú trọng vào sự phân phối từ vựng. Phần nhận xét về ý nghĩa của kết quả phân tích sẽ được trình bày trong một bài viết sau. Tôi sẽ không trình bày các chi tiết về kỹ thuật tính toán, và thay vào đó là những ngôn từ mà độc giả không có kiến thức về môn toán thống kê vẫn có thể hiểu được. Việc phân tích này hoàn toàn mang tính khảo sát, không nhằm thử nghiệm một giả thuyết hay giải thích một lý thuyết nào.

Phương pháp và một vài định nghĩa
Toàn bộ Truyện Kiều đã được đưa lên liên mạng (internet) ở trangVăn Học Việt Nam do Tiến sĩ Trần Duy Trác dày công phát triển và quản lý (3). Bản Truyện Kiều điện tử này được viết bằng kiểu chữ VIQR (4), và do đó rất tiện cho việc phân tích bằng máy điện toán.
Quá trình phân tích được chia làm ba giai đoạn: giai đoạn một là việc chuẩn bị, sắp xếp bản Truyện Kiều điện tử dưới dạng thích hợp cho máy điện toán và hệ thống chương trình phân tích; giai đoạn hai là dùng hệ thống nhu liệu có tên là "Statistical Analysis System" (SAS) để "đọc" toàn bộ Truyện Kiều từng chữ một, kể cả các dấu sắc, huyền, hỏi, ngã, nặng vào bộ nhớ (memory); và giai đoạn ba là dùng SAS để phân tích dữ kiện và tính toán các chỉ số thống kê. Để tiện việc so sánh, bản truyện dài Chí phèo cũng được "đọc" và phân tích. Cả hai bản truyện, tất cả các dấu chấm câu như dấu phẩy, chấm, chấm thang, dấu hỏi, v.v. phải được bỏ đi để chỉ còn lại hoàn toàn các "chữ nguyên".
Trong bài viết này, tôi có dùng một vài danh từ có lẽ hơi lạ với độc giả, và một vài hàng giải thích, định nghĩa có lẽ sẽ giúp cho việc thông hiểu bài viết dễ hơn. Mẫu tự (letter) là danh từ dùng để chỉ đơn vị căn bản nhất của một chữ. Ví dụ như chữ "Nghĩa" có 5 mẫu tự (tức là n, g, h, i và a). Từ đơn là danh từ dùng để chỉ một chữ riêng biệt (ví dụ như rằng, khinh, hội, máu, v.v.). Từ kép là danh từ dùng để chỉ hai hoặc hơn hai chữ được kết hợp với nhau (ví dụ nhưthanh minh, giàu sang, cốt cách, hớt hơ hớt hải, v.v.).
Cũng như bất cứ bài thơ nào, một số chữ được lặp lại nhiều lần. Điều này dẫn đến một định nghĩa về những từ-duy-nhất (unique words). Ví dụ như trong câu thơ "Một, hai nghiêng nước nghiêng thành", có tất cả là 6 từ đơn; nhưng trong đó, chữ nghiêng được lặp lại hai lần, và do đó, số từ-duy-nhất là 5.
Vì đây là một phân tích thống kê; thành ra, một vài định nghĩa về các từ chuyên môn dùng trong bài viết có lẽ cùng cần thiết và thích hợp. Trong Thống kê học, số trung bình (tiếng Anh gọi là mean hayaverage) là một chỉ số (index) trung tâm giữa hai cực, là số đại diện hay tiêu biểu cho một dãy số. Ví dụ như trong câu "Trăm năm trong cõi người ta" có tất cả 6 chữ và 23 mẫu tự; như vậy, tính trung bình, mỗi chữ có 3.83 mẫu tự (23 chia cho 6).
Bên cạnh số trung bình phản ánh độ trung tâm của một dãy số là chỉ số lệch tiêu chuẩn (standard deviation) phản ánh mức độ biến thiên giữa các con số trong một dãy số (5). Vì chỉ số này thường phụ thuộc vào đơn vị đo lường, nên người ta thường hay diễn tả sự biến thiên của một dãy số bằng cách chia số lệch tiêu chuẩn cho số trung bình và nhân cho 100 để có một hệ số biến thiên (coefficient of variation). Một hệ số biến thiên cao phản ánh mức độ biến thiên hay "di động" cao giữa các con số trong một dãy số so với số trung bình.
Nhằm khai thác sự phân phối của các chữ trong các đoạn thơ, tôi đã phân nhóm Truyện Kiều thành 8 đoạn dựa theo các sự kiện được trình bày trong truyện như sau: đoạn 1: mở bài (câu 1 đến câu 38); đoạn 2: Thúy Kiều và Kim Trọng đính ước (câu 39-528); đoạn 3: Vương Công mắc oan; Thúy Kiều bán mình (câu 529-864); đoạn 4: Kiều ở Thanh Lâu (câu 865-1274); đoạn 5: Kiều vào tay Hoạn Thư (câu 1275-1992); đoạn 6: Kiều lấy Từ Hải (câu 1993-2736); đoạn 7: Kiều và Kim Trọng tái họp (câu 2737-3240); và đoạn kết từ câu 3241 đến 3254.


Một vài kết quả.
  • Phân phối chữ
Truyện Kiều gồm có 3254 (6) câu thơ lục bát (sáu-tám), với đúng 22.778 chữ. Tuy nhiên, toàn truyện chỉ dùng có 2.407 từ đơn duy nhất. Nói một cách khác, có một số chữ được lặp lại (repetition) nhiều lần. Tính trung bình, số lần được dùng là 9.5 lần cho mỗi từ. Trong số 2.407 từ, khoảng 69% được dùng tối đa là 6 lần; 20% từ được dùng từ 7 đến 21 lần; và 10% tự được dùng hơn 21 lần. Những chữ được dùng nhiều nhất là: một (321 lần), đã (262), người (224),nàng (199), lòng (174), lời (173), là (172), cũng (169), cho (169),có (163), rằng (160), lại (145), hoa (135), tình (126), v.v.
Trong truyện dài văn xuôi Chí Phèo, có 12.665 chữ ; trong số này, có 1.713 từ-duy-nhất. Tức là, độ lặp lại trung bình trong Chí Phèochỉ 7,4 lần, thấp hơn 2,4 lần so với Truyện Kiều.
  • Độ dài của chữ
Độâ dài của chữ được tính bằng cách đếm số mẫu tự trong chữ đó. Dùng số từ-duy-nhất làm mẩu số, tính trung bình, mỗi từ đơn trongTruyện Kiều dài khoảng 3,45 mẫu tự với độ lệch tiêu chuẩn là 0.93 mẫu tự, và hệ số biến thiên khoảng 27%. Khoảng 74% trong tổng số 2.407 từ-duy-nhất có độ dài từ 3 đến 4 mẫu tự, và chỉ có khoảng 14% dài từ 1 đến 2 mẫu tự. Chữ dài nhất trong Truyện Kiều có 7 mẫu tự, đó là chữ "Nghiêng" được dùng tất cả là 5 lần:
Một, hai nghiêng nước nghiêng thành (27)
Hiên tà bóng gác nghiêng nghiêng (241)
Hơn đời trí dũng nghiêng trời uy linh (2904)
Chỉ có 45 chữ (hay khoảng 2%) với 6 mẫu tự, đó là những chữ:chiêng, chiềng, chương, chường, chuông, chuyện, chuyển, chuyền, giường, khoảng, khuâng, khuyết, khuyển, khuyên, khuynh, nghênh, nghiến, nghiệp, nghiệt, nghiêm, nghiên, nguyện, nguyệt, nguyên, nguyền, nhường, nhuyễn, phượng, phương, phường, thiêng, thoáng, thoảng, thoang, thưởng, thương, thường, thuyết, truyền, trường, trượng, trưởng, trương, và truyền.
Những chữ thường được dùng nhiều lần (tính theo số lần lặp lại trung bình) thường có hai mẫu tự (10,6 lần), kế đến là những chữ có 5 mẫu tự (10,2 lần). Những chữ có 6 mẫu tự được dùng ít (trung bình 6.7 lần). Ngoài ra, những chữ có 1 và 4 mẫu tự cũng có độ dùng thấp hơn (khoảng 8.7 tới 8.8 lần) so với các chữ khác.
Trong Chí phèo, số lần lặp lại trung bình cho mỗi từ là 7,4 lần, tức là thấp hơn trong Truyện Kiều đến 2,1 lần. Ngoài ra, độ dài trung bình của chữ trong Chí Phèo cũng ngắn hơn (nhưng độ lệch tiêu chuẩn và hệ số biến thiên tương đương với) Truyện Kiều. Trong Chí phèo, độ dài trung bình của chữ là 3,19 với độ lệch tiêu chuẩn là 0,92 và hệ số biến thiên là 29%. Khoảng 69% chữ trong Chí phèocó độ dài từ 3 đến 4 mẫu tự. Trong Chí Phèo, những chữ ngắn (2 mẫu tự) có số lần lặp lại khá cao (11,1 lần), so với những chữ 4 mẫu tự (4,9 lần) hay 5 mẫu tự (8,7 lần) và 6 mẫu tự (chỉ 2,4 lần). (Xem thêm chi tiết trong bảng thống kê số 1).
  • Phân phối dấu
Trong số 2.407 chữ-duy-nhất, có 25,4% chữ không dấu, 24,7% dấu sắc, 19,1% dấu huyền, 15,3% dấu nặng, 9,7% dấu hỏi, và 5,8% dấu ngã. Nếu tổng số chữ (22.778) trong truyện làm mẩu số, gần một phần ba (chính xác hơn là 32,4%) là những chữ không dấu; những chữ mang dấu huyền chiếm 27,3%, theo sau là dấu sắc (17,7%), dấu nặng (11,1%), dấu hỏi (6%) và dấu ngã (5,5%). Điều này cũng có nghĩa là những chữ được dùng nhiều nhất thường mang dấu huyền (13,5 lần) hay không dấu (12,1 lần); những chữ mang các dấu khác có độ lặp lại khoảng 6,9 lần, tức thấp hơn trung bình.
Khuynh hướng phân phối dấu này có thể không đại diện được cho tiếng Việt nói chung, vì theo thể thơ lục bác, những chữ không dấu và dấu huyền phải chiếm đa số. Thực vậy, trong Chí Phèo, những chữ mang dấu huyền (16,2%) và không dấu (23,4%) tương đối ít hơn trong Truyện Kiều. Tuy nhiên, cũng như trong Truyện Kiều,những chữ được dùng đi dùng lại nhiều nhất trong Chí Phèo vẫn là những chữ mang dấu huyền (10,7 lần), tiếp theo là những chữ không dấu (7,5 lần). Có thể tham khảo thêm chi tiết trong bảng thống kê số 2.
Phân phối về độ dài của chữ cũng có khuynh hướng tùy thuộc vào dấu của chữ. Chẳng hạn như trong Truyện Kiều, những chữ mang dấu huyền có độ dài cao nhất (3,5 mẫu tự), kế theo là những chữ mang dấu sắc (3,4), nặng (3,3), hỏi (3,1) và ngắn nhất là những chữ mang dấu ngã (3,0).
  • Phân phối vần bằng trắc
Trong tiếng Việt, dựa vào cách phát âm cao thấp, người ta chia các chữ thành hai thanh: bằng và trắc. Thanh bằng được phát ra bằng phẳng đều đều, và gồm những chữ không dấu hay mang dấu huyền; và thanh trắc là những thanh khi phát ra hoặc cao hoặc tự thấp lên cao, hoặc tự cao xuống thấp gồm những chữ mang dấu sắc, hỏi, ngã, và nặng. Theo thể thơ lục bát, câu 6 chữ và câu 8 chữ được cấu trúc như sau:
b b t t b b
b b t t b b t b
(b = thanh bằng; t = thanh trắc). Tuy nhiên, cấu trúc trên chỉ là qui ước chung; trong thực tế, thơ lục bát có một vài ngoại lệ. Cụ thể là chữ thứ nhất, thứ ba, và thứ năm và bảy không nhất thiết phải là thanh bằng, trắc, bằng và trắc, nhưng có thể biến đổi. Ví dụ như hai câu sau đây là một ngoại lệ:
Trăm năm trong cõi người ta (1)
Chữ tài chữ mệnh khéo là ghét nhau (2),
Vì chữ trong đáng lẽ phải là thanh trắc, chữ và khéo đáng lẽ phải là thanh bằng.
Thực ra, trong Truyện Kiều, cụ Nguyễn Du đã dùng đến 22 biến thể (variations) khác nhau cho câu sáu chữ, và 16 biến thể cho câu tám chữ. Trong các câu 6 chữ, chỉ có khoảng 18% là tuân theo luật bb tt bbvà các biến thể khác được dùng khá nhiều như: bb bt bb(10,4%), bb tt tb (8,9%), tb bt bb (12,1%), tb bt tb(13,3%), tb tt bb (16,6%), tb tt tb (9,6%), và bb bt tb(9,7%). Ngoài ra, còn có những biến thể có vẻ hoàn toàn ngoại lệ như sau:

b b t b b b : Khi hương sớm, khi trà trưa (1297)
Khi Vô Tích khi, Lâm Truy (2291)
b b t b t b : Khi chè chén, khi thuốc thang (1749)
Càng trông mặt, càng ngẩn ngơ (1819)
t b t b b : Đau đớn thay phận đàn bà (83)
t b t t b : Người một nơi, hỏi một nơi (2829)
t t b b b : Khi gió gác, khi trăng sân (1295)
t t b t b : Khi tựa gối, khi cúi đầu (487)
Khi khóe hạnh, khi nét ngài (1213)
Khi chén rượu, khi cuộc cờ (3224)
t t t b b : Mai cốt cách, tuyết tinh thần (17)
Nền phú hậu, bậc tài danh (149)
Người quốc sắc, kẻ thiên tài (163)
Người nách thước, kẻ tay dao (577)
Đồ tế nhuyễn, của tiêng tây (583)
Duyên hội ngộ, đức cù lao (601)
Tin nhạn vẩn, lá thư bời (945)
Khi tỉnh rượu, lúc tàn canh (1233)
Người yểu điệu, kẻ văn chương (2841)
Thêm nến giá, nối hương bình (3189)
t t t t b : Sao chẳng biết ý tứ gì? (1861)
t b b b b b : Tưởng bây giờ là bao giờ (3013)
t b t b b b : Mặt nhìn mặt càng thêm tươi (393)
t b t b b : Hại một người, cứu muôn người (2685)
t b t t b : Aáy mới gan, ấy mới tài (2005)
Mụ quản gia vãi Giác Duyên (2305)
t t t b b : Nước vỏ lựu, máu mào gà (837)
Có cổ thụ, có sơn hồ (1915)
t t t t b : Hết nạn ấy đến nạn kia (2667)
Tuy nhiên, trong các câu tám chữ, cụ Nguyễn Du không nhất thiết theo công thức bb tt bb tb mà dùng đến 16 biến thể khác nhau. Trong đó, những cấu trúc hay được dùng là tb bt tb tb(8,5%), tb tt bb tb (8,4%), và tb bt tb bb (8%). Thực ra, chỉ có 45% câu tám chữ được bắt đầu bằng thanh bằng. Về chi tiết phân phối các biến thể này, có thể tham khảo thêm trong Bảng thống kê số 3.
Với 22 biến thể câu sáu chữ và 16 biến thể câu tám chữ, cụ Nguyễn Du có thể dùng đến 22 x 16 = 352 cấu trúc các câu thơ sáu-tám. Tuy nhiên, trong thực tế, cụ Nguyễn Du chỉ dùng 155 cấu trúc (hay 44% của con số 352) mà thôi. Những cấu trúc được dùng từ 20 lần trở lên là:
t b b t t b / t b b t t b b b (20 lần)
t b t t b b / b b t t b b t b (20 lần)
t b b t b b / t b b t t b b b (21 lần)
t b b t b b / t b t t b b t b (21 lần)
t b t t b b / b b t t t b t b (21 lần)
b b t t b b / b b t t t b t b (22 lần)
b b t t b b / t b t t t b b b (23 lần)
b b t t b b / b b t t b b t b (24 lần)
b b t t b b / t b b t t b t b (25 lần)
t b t t b b / t b b t t b b b (25 lần)
  • Phân phối nguyên âm và phụ âm
Theo các nhà nghiên cứu ngôn ngữ học, nguyên âm được chia ra làm hai loại trầm và bổng tùy theo độ khép hay mở của môi khi phát âm. Những nguyên âm này có thể tóm tắt như sau (7):
Bổng Trung Trầm
Khép i ư u
Trung ê ơ/â oâ
Mở e a/ă o
Phụ âm cuối trong tiếng Việt cũng có thể chia thành hai nhóm: vang và tắc. Phụ âm vang gồm có m, n, nh, ng; và phụ âm tắc gồm: p, t, ch và c. Những chữ sau đây (gạch dưới) được xem là có dùng nhiều nguyên âm mở và phụ âm vang (7):
Nam đình nghe động trống chầu đại doanh
Doïc bờ sông trắng nắng chang chang
(Hàn Mặc Tử)
Trong số 22.778 chữ trong Truyện Kiều, có 13.963 chữ (hay khoảng 61%) có thể phân loại nguyên âm trầm-bổng. Tính trên tổng số 13.963 chữ, có khoảng 21% chữ có nguyên âm bổng, 31% chữ có nguyên âm trầm, và 48% chữ có nguyên âm "trung bình". Phân tích theo độ khép-mở của môi cho thấy khoảng 47% chữ có nguyên âm mở, và chỉ 21% chữ có nguyên âm khép. Tất cả những phân phối này rất tương đương với phân phối trong Chí Phèo (xem Bảng thống kê số 4).
Có 10.650 chữ (hay 47% trong tổng số chữ trong Truyện Kiều) có phụ âm. Trong số này, 77,1% có phụ âm vang và chỉ 23% có phụ âm tắc. Phần lớn những chữ có phụ âm vang là (khoảng 25%) vàng (33,4%). Trong số 23% chữ với phụ âm tắc, 11% là có phụ âm tvà 8,3% là phụ âm c. (Xem thêm trong Bảng thống kê số 5)
Phân tích sự kết hợp giữa phụ âm và nguyên âm cho thấy phần lớn những phụ âm vang là vang-trung (40%), tiếp theo là vang-trầm (23,2%), và vang-bổng (khoảng 16%). Các phụ âm tắc lại tập trung vào tắc-trung (10%) và tắc-trầm (9%); trong khi đó tắc-bổng chỉ chiếm 1,8%. Những phân phối này trong Chí Phèo cũng không khác nhau xa với Truyện Kiều. (Xem thêm trong Bảng thống kê số 6)
Trong Truyện Kiều, những chữ có nguyên âm mở và phụ âm vang chiếm khoảng 39% (nhiều hơn trong Chí Phèo khoảng 2%). Tuy nhiên, tỷ lệ này có xu hướng thay đổi tùy theo các đoạn thơ. Chẳng hạn như, trong phần mở đầu (câu 1 đến câu 38), có 40% là những chữ mang âm mở-vang; tỷ lệ này được duy trì từ đoạn thơ số 2 đến đoạn số 4; tăng lên 41,3% trong đoạn số 5 và có khuynh hướng giảm xuống còn 36% trong đoạn số 6, 39% đoạn số 7 và 29,4% trong đoạn số 8. (Xem thêm trong Bảng thống kê số 7)

Một vài nhận xét
Có thể nói Truyện Kiều không những đã đặt nền móng cho văn học Việt Nam hiện đại, mà qua đó, còn biểu hiện cho sự trưởng thành của ngôn ngữ Việt. Bàn về vai trò của Nguyễn Du, và tính tiên phong của Truyện Kiều trong ngôn ngữ Việt và văn học Việt Nam, tưởng chưa ai viết đầy đủ hơn cụ Đào Duy Anh: "Nguyễn Du đã sử dụng một cách tài tình những yếu tố dân gian của ngôn ngữ, những yếu tố văn học của ngôn ngữ dân gian gồm trong các tục ngữ phong giao; Nguyễn Du đã dân tộc hóa một cách tài tình những yếu tố văn học chữ Hán trước kia chỉ được sử dụng một cách dè dặt vụng về trong văn học chữ nôm; do đó Nguyễn Du đã phát triển, hoàn chỉnh và thống nhất hai thành phần quan trọng của ngôn ngữ văn học Việt Nam, yếu tố văn học dân gian và yếu tố văn học chữ Hán, để tạo nên một ngôn ngữ văn học mới, dồi dào, uyển chuyển." (8) Thực vậy, giá trị đích thực của Truyện Kiềukhông phải ở tư tưởng, đạo đức hay luân lý hay cốt truyện, mà là ở văn chương, ở kỹ thuật miêu tả, tự sự và diễn đạt tình cảm. Chỉ cần đọc qua vài công trình nghiên cứu về Truyện Kiều đều cho ta thấy cả một kho tài liệu về điển cố văn chương, cũng như về văn phạm, từ ngữ cực kỳ phong phú được gói gém trong đó. Chính cái phần văn chương đó đã làm cho Truyện Kiều trở nên bất hủ. Bài phân tích này nhằm tìm hiểu một khía cạnh nhỏ của kho tàng ngôn ngữ trong Truyện Kiều qua lăng kính thống kê học.
Công việc đếm số chữ trong bài phân tích này không phải là mới. Cụ Đào Duy Anh, trong Từ Điển Truyện Kiều (8), đã từng làm thống kê số chữ và số lần lặp lại cho từng chữ một cách thủ công. Tuy rằng vào thời kỳ soạn cuốn từ điển này chưa có máy vi tính, nhưng cụ Đào Duy Anh đã đếm số từ cực kỳ chính xác, và có thể nói là còn công phu hơn bài phân tích bằng máy vi tính này. Tuy nhiên, với máy vi tính, công việc làm này rất tiện và nhanh. Toàn bộ phân tích về số chữ và các thống kê kèm theo có thể chỉ tốn khoảng một phút cho máy vi tính!
Như đã đề cập trên, toàn bộ Truyện Kiều, cụ Nguyễn Du chỉ dùng có 2.407 từ đơn. Tuy nhiên, một số từ đơn được ghép lại với nhau thành các từ kép; do đó, số từ đơn và kép ít hơn con số trên đây. Theo Từ Điển Truyện Kiều, có 2.249 từ đơn và kép.
Có vài kết quả thú vị là: Tính trung bình, những chữ dùng trongTruyện Kiều có nhiều mẫu tự hơn trong truyện dài Chí Phèo (3.41 so với 3.19 mẫu tự). Ngoài ra, những chữ có dấu huyền và không dấu (thanh bằng) có nhiều mẫu tự những chữ thanh trắc. Tôi không rõ những khác biệt này có ý nghĩa gì, nhưng có lẽ đây là một phân phối "tự nhiên" trong ngôn ngữ Việt, vì khuynh hướng này cũng hiện diện trong các tác phẩm văn chương khác như Cung oán Ngâm khúc và Chinh phụ Ngâm khúc.
Nếu tính theo quy tắc "chuẩn" thơ lục bát (bb tt bb / bb tt bb tb), Truyện Kiều phải có 64,3% chữ thanh bằng và 35,7% chữ thanh trắc. Nhưng trong thơ lục bát, cũng như nhiều thể thơ khác, có một vài ngoại lệ, và do đó sự phân phối thanh bằng trắc không nhất thiết phải theo tỷ lệ trên. Những ngoại lệ này là các chữ số lẽ (1, 3, 5 và 7) trong cả hai câu sáu và tám chữ có thể là thanh bằng hay thanh trắc. Do đó trong thực tế, số lượng chữ thanh bằng ít hơn, và thanh trắc nhiều hơn, công thức trên. Trong số 22.778 chữ trong truyện,có 13.608 chữ (tức 59,7%) là thanh bằng, và 40,3% chữ là thanh trắc.
Dựa vào ngoại lệ nằm trong khuôn khổ được cho phép trên, luật bằng trắc có thể đơn giản hóa thành btb và btbb cho những chữ ở vị trí số 2, 4, 6 (cho câu sáu chữ) và 2, 4, 6, 8 (cho câu tám chữ). Theo "công thức đơn giản hóa" này, nhà thơ "được phép" chọn tất cả 8 biến thể (variations) khả dĩ cho câu sáu chữ, và 16 biến thể khả dĩ cho câu tám chữ. Tuy nhiên, đối với câu sáu chữ, cụ Nguyễn Du không những dùng tất cả 8 biến thể khả dĩ cho phép, mà còn sáng tạo thêm 14 biến thể với 29 câu thơ. Trong số 29 câu "phá luật" này, 19 câu tập trung ở công thức ttb, 6 câu theo bbb, và 4 câu theotbb . Trong số 29 câu phá lệ này, có đến 26 câu được viết theo nhịp 3/3, như "khi hương sớm, khi trà trưa" hay "Nền phú hậu, bậc tài danh", và chỉ có ba câu không theo nhịp trên (sao chẳng biết ý tứ gì (1861), tưởng bây giờ là bao giờ (3013), mụ quản gia vãi Giác duyên (2305)). Điều thú vị là trong những câu 3/3 này, chữ "khi" thường được dùng đi dùng lại khá nhiều lần:
Khi hương sớm, khi trà trưa (1297)
Khi Vô Tích, khi Lâm Truy (2291)
Khi chè chén, khi thuốc thang (1749)
Khi gió gác, khi trăng sân (1295)
Khi tựa gối, khi cúi đầu (487)
Khi khóe hạnh, khi nét ngài (1213)
Khi chén rượu, khi cuộc cờ (3224)
Khi tỉnh rượu, lúc tàn canh (1233)
Tuy nhiên, đối với cấu trúc vần cho câu tám chữ, cụ Nguyễn Du hoàn toàn "tuân thủ" theo luật btbbvà dùng tất cả 16 biến thể khả dĩ.

Theo luật btb / btbb, thơ lục bát có thể có đến 128 biến thể khả dĩ cho những câu kép sáu-tám chữ. Nhưng trong thực tế, cụ Nguyễn Du đã sáng tạo thêm 27 biến thể để có 155 biến thể trong toànTruyện Kiều. Nói một cách khác, cụ Nguyễn Du đã phá luật đến 27 lần.
Tôi cũng dùng một số phương pháp toán học khác để tìm xem trong Truyện Kiều có một khuynh hướng có hệ thống (systematic trend) về cách sử dụng các biến thể khác nhau, nhưng tôi không tìm thấy một khuynh hướng nào để có thể kết luận là có một nỗ lực có ý thức nào đó về cách sử dụng các biến thể. Tuy nhiên, tỷ lệ các chữ thanh bằng có vẻ biến đổi theo một hàm số lượng giác sine (tức là lên xuống) theo từng đoạn văn trong truyện. Thanh bằng được xem là "êm tai", và sự thay đổi về tỷ lệ này có lẽ làm cho âm điệu trongTruyện Kiều không nhàm chán!
Phân phối nguyên âm và phụ âm trong Truyện Kiều cũng là một điều đáng chú ý. Tính trung bình, tỷ lệ các chữ có phụ âm vang trong Truyện Kiều nhiều hơn trong Chí Phèo, tuy mức độ khác biệt rất khiêm tốn (77,2% và 75,7%). Tương tự, sự phân phối về nguyên âm giữa Truyện Kiều và Chí Phèo hầu như không khác nhau. Chẳng hạn như tỷ lệ các chữ có nguyên âm trầm trong Truyện Kiều(31,1%) rất tương đương với tỷ lệ tìm thấy trong Chí Phèo (31,2%).
Theo giới bình luận thơ, những câu thơ được khen là có nhiều nhạc tính, cứ ngân nga âm vang không dứt chủ yếu là nhờ kết hợp được những chữ có nhiều nguyên âm mở và những chữ có nhiều phụ âm vang. Trong Truyện Kiều, tỷ lệ các chữ có nguyên-phụ âm mở-vang chỉ có 39,3%, nhiều hơn trong Chí Phèo (37,1%).
Điều khá thú vị là tỷ lệ thanh bằng trắc rất khác nhau giữa các nguyên âm và phụ âm. Chẳng hạn như trong số 2895 chữ có nguyên âm bổng (i, e, ê), khoảng 66% là thanh bằng và chỉ 33% là thanh trắc. Trong số 4342 chữ có nguyên âm trầm (u, o, ô), những chữ có thanh bằng chiếm khoảng 49%, và phần còn lại (51%) là những chữ có thanh trắc. Về phụ âm, như ta có thể đoán được là tất cả các phụ âm tắc (p. t. ch, c) là những chữ có dấu nặng (43%) và dấu sắc (57%). Tuy nhiên, phần đông những chữ có phụ âm vang (m, n, nh, ng) thường tập trung ở thanh bằng (35% dấu huyền và 39% không dấu), và chỉ 26% là thanh trắc (12% dấu sắc, 6% dấu nặng, 4% dấu ngã và 4% dấu hỏi).
Cố nhiên, không ai trong chúng ta thưởng thức Truyện Kiều hay thơ văn lại phải dùng đến các hàm số toán học để tính toán xem có bao nhiều vần bằng, trắc hay sự phân phối của chữ và độ dài của chúng ra sao. Bài phân tích này không nhằm mục đích tìm ra một "công thức" toán học cho một bài thơ hay, mà chỉ trình bày một số dữ kiện thực liên quan đến từ vựng và các biến thể của thể thơ lục bát được dùng trong Truyện Kiều, được xem là một tuyệt tác phẩm của thi ca Việt Nam. Có thể một vài kết quả trong bài phân tích này sẽ hoàn toàn không có ý nghĩa văn học hay học thuật gì, nhưng cũng có thể một vài kết quả làm ngạc nhiên nhiều độc giả yêu Truyện Kiều. Và trong những trường hợp như thế, những phân tích này hy vọng sẽ giúp cho độc giả tò mò và suy nghĩ thêm.
Nguyễn Văn Tuấn
Ghi chuù
  1. Thực ra, cho đến nay vẫn chưa ai biết rõ năm ra đời của Truyện Kiều. Truyện Kiều, như chúng ta đều biết, bắt nguồn từ Kim Vân Kiều Truyện của tác giả Thanh Tâm Tài Nhân, kể lại một câu chuyện tình có thật giữa Vương Thúy Kiều và Từ Hải xảy ra vào thời nhà Minh bên Trung Quốc. Căn cứ vào câu chuyện này, Nguyễn Du đã sáng tác ra cuốn truyện Nôm có tựa đề là Đoạn Trường Tân Thanh. Bản gốc bằng chữ Nôm do chính tay Nguyễn Du viết đã thất truyền. Sau đó Tiến sĩ Phạm Quí Thích (1760-1825), một bạn thân của Nguyễn Du, đem khắc in đổi tên là Kim Vân Kiều Tân Truyện. Bản của Phạm Qúy Thích cũng không còn nữa. Sau này, hai nhà biên khảo Trần Trọng Kim và Bùi Kỷ đổi gọi là Truyện Thúy Kiều. Thi sĩ Tản Đà Nguyễn Khắc Hiếu sau này đổi tên là Vương Thúy Kiều Chú Giải Tân Truyện. Tuy nhiên, trong dân gian, người ta quen gọi là Truyện Kiều, và tựa đề này sẽ được dùng xuyên suốt trong bài viết này.
  2. Nguyễn Du, hiệu là Tố Như, Thanh Hiên, quê quán tại làng Tiên Điền, huyện Nghi Xuân, tỉnh Hà Tĩnh. Cụ sinh năm 1766, tức năm Aát Dậu, niên hiệu Cảnh Hưng thứ 26 đời Lê, và qua đời vào năm 1820 vì bệnh dịch tả. Có vài bằng chứng cho rằng cụ là hậu duệ hay có cùng dòng dõi với Nguyễn Trãi, tác giả của Quốc Aâm Thi Thập.
  3. Địa chỉ trang Văn Học Việt Nam trên liên mạng (internet) của Trần Duy Trác tại www.vhvn.com
  4. VIQR là mội kiểu chữ cho bưu tín, mà trong đó các dấu được mô phỏng theo bàn phím computer và chiếm một vị trí như một mẫu tự chính. Chẳng hạn như hai chữ "Truyện Kiều" được biểu hiện qua VIQR bằng "Truye^.n Kie^`u". Trong trường hợp này, SAS sẽ đọc 14 đơn vị; trong đó có 4 đơn vị là dấu và 10 đơn vị là mẫu tự.
  5. Để hiểu ý nghĩa của chỉ số lệch tiêu chuẩn này, xin lấy một ví dụ sau đây như một lời giải thích. Giả sử ta có ba dãy số như sau: (a) 5, 5, 5, 5, 5; (b) 5, 4, 5, 5, 6; và (c) 2, 1, 1, 3, 18. Cả ba dãy số này đều có chỉ số trung bình là 5. Tuy nhiên, sự phân phối của các dãy số này khác nhau, vì quan sát kỹ qua những con số trong từng dãy số cho thấy mức độ biến thể hay "di động" của chúng rất khác nhau. Trong dãy số (a), hoàn toàn không có biến thể; trong dãy (b), mức độ biến thể tương đối thấp vì các con số phân phối chung quanh 4 và 6; và trong dãy (c), mức độ biến thể rất cao, đi từ 1 đến 18. Chỉ số lệch tiêu chuẩn dùng để đo mức độ biến thiên này. Công thức dùng để tính chỉ số lệch tiêu chuẩn là như sau: sqrt [[(x1 - m)2 + (x2 - m)2 + (x3 - m)2 + … + (xn -m)2] / (n-1)]]; trong đó "sqrt" có nghĩa là căn số bậc hai, x1x2x3, … , xn là những con số riêng lẻ trong một dãy số, n là số lượng con số trong một dãy số, và m là số trung bình. Ví dụ như trong dãy số (c), ta tính như sau: sqrt[[(2-5)+ (1-5)+ (1-5)+ (3-5)+ (18-5)2] / (5-1)]] = 7.3; trong dãy (b) sqrt[[(5-5)+ (4-5)+ (5-5)+ (5-5)+ (6-5)2] / (5-1)]] = 0.71; và trong dãy (a), dĩ nhiên chỉ số lệch tiêu chuẩn là 0, vì các con số trong đó bất biến.
  6. Theo ông Đào Thái Tôn, Viện Hán Nôm (Việt Nam), thì Truyện Kiều theo bản Kinh có 3258 câu; bản Phường có 3254 câu (xem Tạp chí Văn Học, số tháng 11 năm 1998).
  7. Về phân định nguyên âm và phụ âm, xin xem sách "Ngôn ngữ thơ" của Nguyễn Phan Cảnh, Nhà xuất bản Đại học và Trung học Chuyên nghiệp, Hà Nội, 1987, trang 126. Tuy nhiên, việc phân định này hình như bắt nguồn từ công trình nghiên cứu ngữ học Việt Nam của Linh mục Lê Văn Lý trong "Ngôn ngữ Việt Nam, cấu trúc âm thanh và hình thái xét theo chức năng của Việt Ngữ", Sài Gòn: Tủ sách Viện khảo cổ, số 1, Bộ Quốc gia Giáo dục, 1960.
  8. Từ Điển Truyện Kiều của Đào Duy Anh. Không thấy đề nhà xuất bản hay năm ấn hành, nhưng theo lời tựa (viết vào tháng 12 năm 1971) thì sách được hoàn thành vào tháng 11 năm 1965.


Phụ chú: Các bảng thống kê dùng trong bài viết
Bảng 1. Phân phối độ dài của chữ và mức độ dùng chữ (lặp lại)


Độ dài a Số chữ-duy- Số chữ dùng Số lần lặp
nhất (%) trong truyện (%) lại trung bình


Truyện Kiều
1 13 (0,5) 113 (0,5) 8,7
2 316 (13,1) 3345 (14,7) 10,6
3 984 (40,9) 9446 (41,5) 9,6
4 803 (33,4) 7074 (31,3) 8,8
5 245 (10,2) 2492 (10,9) 10,2
6 45 (1,9) 303 (1,3) 6,7
7 1 (0,0) 5 (0,0) 5,0
Tổng cộng 2407 (100,0) 22778 (100,0) 9,5
Độ dài trung bình b 3,45 (0,93) 3,41 (0,93)

Chí Phèo
1 21 (1,2) 112 (0,9) 5,3
2 233 (13,6) 2595 (20,5) 11,1
3 748 (43,7) 5992 (47,3) 8,0
4 544 (31,8) 2698 (21,3) 4,9
5 136 (7,9) 1185 (9,4) 8,7
6 30 (1,8) 72 (0,6) 2,4
7 1 (0,1) 1 (0,0) 1,0
Tổng cộng 1713 (100,0) 12655 (100,0) 7,4
Độ dài trung bình b 3,37 (0,92) 3,19 (0,92)


a Tính theo số mẫu tự trong từng chữ; b Số trung bình và độ lệch tiêu chuẩn (trong ngoặc). Ví dụ cách đọc: trong Truyện Kiều, có 13 từ-duy-nhất (unique words), chiếm 0.5% trong tổng số 2407 từ-duy-nhất, và mỗi từ chỉ có một mẫu tự. Tuy nhiên, những từ này được dùng đi dùng lại tới 113 lần (cũng chiếm 0.5% trong tổng số 22778 chữ trong truyện). Do đó, tính trung bình, mỗi chữ được dùng là 8.7 lần (tức gần 9 lần).


Bảng 2. Phân phối dấu và chữ, và mức độ dùng chữ (lặp lại)

Dấu Số chữ-duy- Số chữ dùng Số lần lặp
nhất truyện (%) trong truyện (%) lại trung bình


Truyện Kiều
Hỏi 233 (9,7) 1378 (6,0) 5,9
Huyền 460 (19,1) 6224 (27,3) 13,5
Nặng 369 (15,3) 2525 (11,1) 6,8
Ngã 139 (5,8) 1242 (5,5) 8,9
Không dấu 612 (25,4) 7384 (32,4) 12,1
Sắc 594 (24,7) 4025 (17,7) 6,8
Tổng cộng 2778 (100,0) 22407 (100,0) 9,5

Chí Phèo
Hỏi 162 (9,5) 1060 (8,4) 6,5
Huyền 278 (16,2) 2985 (23,6) 10,7
Nặng 305 (17,8) 1682 (13,3) 5,5
Ngã 102 (6,0) 646 (5,1) 6,3
Không dấu 401 (23,4) 3025 (23,9) 7,5
Sắc 465 (27,1) 3257 (25,7) 7,0
Tổng cộng 1713 (100,0) 12655 (100,0) 7,4



Bảng 3. Phân phối số câu lục-bát


Vần Số câu Phần trăm


Câu sáu chữ
B b b t b b 169 10,4
B b b t t b 158 9,7
B b t b b b 2 0,1
B b t b t b 2 0,1
B b t t b b 287 17,6
B b t t t b 144 8,9
B t b t b b 1 0,1
B t b t t b 1 0,1
B t t b b b 1 0,1
B t t b t b 3 0,2
B t t t b b 10 0,6
B t t t t b 1 0,1
t b b b b b 1 0,1
t b b t b b 197 12,1
t b b t t b 217 13,3
t b t b b b 1 0,1
t b t t b b 270 16,6
t b t t t b 156 9,6
t t b t b b 1 0,1
t t b t t b 2 0,1
t t t t b b 2 0,1
t t t t t b 1 0,1
Tổng cộng 1627 100,0
Câu tám chữ
b b b t b b b b 83 5,1
b b b t b b tb 92 5,7
b b b t t b b b 92 5,7
b b b t t b t b 104 6,4
b b t t b b b b 71 4,4
b b t t b b t b 117 7,2
b b t t t b b b 93 5,7
b b t t t b t b 102 6,3
t b b t b b b b 70 4,3
t b b t b b t b 114 7,0
t b b t t b b b 130 8,0
t b b t t b t b 139 8,5
t b t t b b b b 57 3,5
t b t t b b t b 136 8,4
t b t t t b b b 112 6,9
t b t t t b t b 115 7,1
Tổng cộng 1627 100,0




Bảng 4. Phân phối nguyên âm


Nguyên âm Số chữ (%) Số chữ (%)
"Truyện Kiều" "Chí phèo"

Bổng - Khép i 1418 (10,1) 1061 (12,5)
Bổng - Mở e 594 (4,3) 201 (2,4)
Bổng - Trung ê 883 (6,3) 574 (6,8)
Cộng chung 2895 (20,7) 1836 (21,6)
Trầm - Khép u 833 (6,0) 505 (5,9)
Trầm - Mở o 1579 (11,3) 832 (9,8)
Trầm - Trung ô 1930 (13,8) 1311 (15,4)
Cộng chung 4342 (31,1) 2648 (31,2)
Trung - Khép ư 670 (4,8) 545 (6,4)
Trung - Mở a 3190 (22,8) 1751 (20,6)
ă 1155 (8,3) 967 (11,4)
Trung - Trung ơ 618 (4,4) 325 (3,8)
â 1093 (7,8) 425 (5,0)
Cộng chung 6726 (48,2) 4013 (47,2)
Tổng cộng 13963 (100,0) 8497 (100,0)

Bảng 5. Phân phối phụ âm

Phụ Số chữ (%) Số chữ (%)
âm "Truyện Kiều" "Chí phèo"

Vang
m 1014 (9,5) 458 (9,2)
n 2646 (24,8) 1515 (30,3)
nh 1004 (9,4) 330 (6,6)
ng 3560 (33,4) 1481 (29,6)
cộng chung 8224 (77,2) 3784 (75,7)
Tắc
p 273 (2,6) 108 (2,2)
t 1174 (11,0) 658 (13,2)
ch 95 (0,9) 62 (1,2)
c 884 (8,3) 390 (7,8)
cộng chung 2426 (22,8) 1218 (24,3)

Tổng cộng 10650 (100,0) 5002 (100,0)



Bảng 6. Phân phối nguyên âm và phụ âm


Phụ Nguyên Số chữ (%) Số chữ (%)
âm âm "Truyện Kiều" "Chí phèo"

Vang Bổng 1319 (15,7) 447 (11,0)
Vang Trầm 1957 (23,2) 1092 (25,1)
Vang Trung 3369 (40,0) 1835 (42,2)
Tắc Bổng 150 (1,8) 130 (3,0)
Tắc Trầm 755 (9,0) 346 (8,0)
Tắc Trung 870 (10,3) 468 (10,8)
Tổng cộng 8420 (100,0) 4348 (100,0)
Vang Khép 1280 (15,2) 630 (14,5)
Vang Mở 3307 (39,3) 1611 (37,1)
Vang Trung 2058 (24,4) 1163 (26,8)
Tắc Khép 323 (3,8) 174 (4,0)
Tắc Mở 768 (9,1) 362 (8,3)
Tắc Trung 684 (8,1) 408 (9,4)
Tổng cộng 8420 (100,0) 4348 (100,0)




Bảng 7. Phân phối nguyên âm và phụ âm theo đoạn


Nguyên Phụ Đoạn thơ
âm âm 1 2 3 4 5 6 7 8


Số chữ trong từng đoạn 116 1273 872 1030 1876 1936 1283 34
Phần trăm (%)
Bổng - Tắc 2,6 1,9 1,5 1,7 2,0 1,9 1,5 0,0
Bổng - Vang 15,5 15,2 17,4 11,4 16,2 15,9 17,8 2,9
Trầm - Tắc 11,2 9,2 11,0 8,9 9,3 7,3 9,3 5,9
Trầm - Vang 19,8 22,2 21,8 24,8 23,0 25,1 22,0 23,5
Trung - Tắc 12,9 10,8 10,0 11,4 8,7 11,6 9,4 14,7
Trung - Vang 37,9 40,8 38,3 41,9 40,8 38,3 40,1 52,9
Tắc - Khép 5,0 4,6 3,4 3,0 4,1 3,8 3,7 0,0
Tắc - Mở 11,2 9,4 8,9 9,8 7,9 9,8 8,8 14,7
Tắc - Trung 11,2 7,9 10,1 9,1 8,0 7,1 7,6 5,9
Vang - Khép 10,3 13,0 15,4 11,6 16,4 15,8 18,2 8,8
Vang - Mở 40,5 39,6 40,3 40,3 41,3 36,3 39,2 29,4
Vang - Trung 22,4 25,6 21,9 26,2 22,3 27,2 22,4 41,2


Đoạn 1. Mở bài (câu 1 đến câu 38)
Đoạn 2. Thúy Kiều và Kim Trọng đính ước (câu 39-528)
Đoạn 3. Vương Công mắc oan; Thúy Kiều bán mình (câu 529-864)
Đoạn 4. Kiều ở Thanh Lâu (câu 865-1274)
Đoạn 5. Kiều vào tay Hoạn Thư (câu 1275-1992)
Đoạn 6. Kiều lấy Từ Hải (câu 1993-2736)
Đoạn 7. Kiều và Kim Trọng tái họp (câu 2737-3240)
Đoạn 8. Đoạn kết (câu 3241-3254)






Biểu đồ phân phối thanh bằng trong Truyện Kiều


% thanh bằng
|
62.5 +
| * * * * *
| * * * * * * * *
60.0 + * * * *
| * * * * *
| * * * *
57.5 + * *
| * *
|
55.0 +
--+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-
1 2 3 4 5 6 7 8 9 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0
Đoạn


No comments:

Post a Comment