Thursday, 29 January 2015

Có thể làm gì với quyển từ điển của David Crystal (2011)?




David Crystal (2011) thu thập và giải thích sơ lược khoảng 5000 thuật ngữ ngôn ngữ học thông dụng nhất. Độc giả biết tiếng Anh có thể dùng David Crystal như một công cụ tra cứu nhanh khi gặp một văn bản tương đối phổ thông, không chuyên sâu lắm. Liên quan đến lĩnh vực ứng dụng phương pháp thống kê trong ngôn ngữ học chẳng hạn, số mục từ trong David Crystal (2011) có thể đếm được trên đầu ngón tay: computational linguistics, dialectometry, glottochronology, information, lexical density, lexicostatistics, mathematical linguistics, multidimensional scaling, quantitative linguistics, statistical linguistics, stylometry, stylostatistics. Ở các lĩnh vực khác tình hình cũng tương tự. Tác giả không có tham vọng đi sâu vào bất cứ chuyên ngành nào.

Việc dịch bảng từ của David Crystal (2011) ra tiếng Việt có thể được xem là một đóng góp có ý nghĩa. Công lớn đương nhiên thuộc về David Crystal (2011) đã chắt lọc, cung cấp một danh sách các khái niệm cơ bản và  hữu ích nhất. Phần lớn các khái niệm này đã có thuật ngữ tương đương trong tiếng Việt, được dùng ổn định trong sách vở ngôn ngữ học  và được thu thập trong các tập thuật ngữ của Lê Đức Trọng (1993), Nguyễn Như Ý et al. (1997), Cao Xuân Hạo et al. (2005) v.v. Do vậy việc dịch bảng thuật ngữ của David Crystal (2011) ra tiếng Việt có nhiều thuận lợi. Bất kỳ học viên cao học ngôn ngữ nào cũng có thể thực hiện được một bản dịch như vậy trong thời hạn vài ba ngày, mỗi ngày làm việc 8 giờ.

Dịch nội dung các mục từ trong David Chrystal (2011) là một việc khác, có thể nói là vô nghĩa và vô ích. David Crystal (2011:279) viết cho độc giả nói tiếng Anh ở mục từ lexis:

A term used in LINGUISTICS to refer to the vocabulary of a LANGUAGE, and used adjectivally in a variety of technical phrases.

Đây là chuyện của nội bộ tiếng Anh. Người Việt không có nhu cầu thông qua tiếng Việt học hỏi mối quan hệ giữa danh từ lexis và tính từ lexical:

Thuật ngữ được sử dụng để chỉ vốn từ vựng (vocabulary) của một ngôn ngữ và được sử dụng dưới dạng tính từ trong các ngữ đoạn đa dạng khác nhau.

(Trần Thủy Vịnh et al., 2013:291)                       

Nếu nhất định phải dựa vào David Crystal (2011) thì để phần giải thích thuật ngữ thật sự hữu ích đối với độc giả người Việt, ta không thể bám vào từng câu, từng chữ tác giả dùng để nói với người Anh, người Mỹ mà phải từ đó rút tỉa những gì thật sự quan yếu rồi tìm cách diễn đạt lại theo cách thích hợp với người Việt. Có chỗ cần nói thêm cho rõ. Có chỗ không cần. Nói tóm lại là phải chịu khó dụng công chút đỉnh.



Dưới đây là một định nghĩa cho thuật ngữ ngôn ngữ học toán học, chủ yếu dựa trên định nghĩa của David Crystal (2011:297) và đã được gia công chút đỉnh
Ngôn ngữ học toán học là chuyên ngành nghiên cứu các tính chất toán học của ngôn ngữ. Công cụ nghiên cứu các khái niệm của thống kê hoặc đại số. Ngoài ra còn có các khái niệm của lý thuyết  thông tin (để lượng hóa các khái niệm độ dư hay gánh nặng chức năng chẳng hạn), phân tích điện toán (thuật giải). Các khái niệm toán học là công cụ quan trọng để hình thức hóa lý thuyết ngôn ngữ (phát triển mạnh với sự ra đời của ngôn ngữ học tạo sinh). Thống kê là phương tiện góp phần xây dựng một số quy luật thực nghiệm (dịnh luật Zipf, định luật Fucks v.v.) và kỹ thuật đặc thù (xác định danh tính tác giả (thống kê phong cách), so sánh ngôn ngữ (thống kê so sánh từ vựng).

Wednesday, 28 January 2015

Mật độ từ vựng là gì?





Có ít nhất hai định nghĩa cho thuật ngữ lexical density.

Định nghĩa thứ nhất gọi tỷ lệ thực từ/tổng số phần tử trong vốn từ (bao gồm thực từ và hư từ) là mật độ từ vựng (Stubb, 1986:33). Ví dụ: văn bản Chó thích mèo, nhưng mèo ghét chó có 4 thực từ (chó, mèo, thích, ghét) và một hư từ (nhưng); mật độ từ vựng theo định nghĩa này là 4/5.



Định nghĩa thứ hai tính mật độ từ vựng bằng tỷ lệ giữa kích thước vốn từ V và kích thước văn bản N (Crystal, 2011:276). Ví dụ: văn bản Chó thích mèo, nhưng mèo ghét chó có V = 5 (vốn từ có 5 phần tử), N = 7 (văn bản dài 7 lượt từ); mật độ từ vựng theo định nghĩa thứ hai sẽ là 5/7.



Trần Thủy Vịnh et al. (2013:290) chọn định nghĩa của David Crystal (2011:276):

Trong ngôn ngữ học thống kê và từ vựng học, việc đo lường độ khó của văn bản, bằng việc sử dụng tỷ lệ giữa những từ khác nhau trong văn bản (điển dạng – ‘word type’) với toàn bộ số từ trong văn bản (hiện dạng/trường hợp cá thể - ‘word type’); tỷ lệ này được gọi là tỷ lệ điển dạng/hiện dạng (type/token ratio (TTR)). Tỷ lệ này được tính toán bằng cách chia những từ khác nhau với toàn bộ từ và nhân với 100. Kết quả được cho dưới dạng phần trăm. Giả định ở đây là số từ vựng khác nhau càng tăng (nghĩa là TTR càng cao) thì độ khó của văn bản càng tăng.

Số từ vựng khác nhau trong định nghĩa của Trần Thủy Vịnh (2013:290) chính là kích thước của vốn từ. Ta tính ra tỷ lệ điển dạng/hiện dạng bằng cách chia kích thước của vốn từ (tức số phần tử đếm được trong vốn từ) với kích thước của văn bản (tức số lượt từ xuất hiện trên văn bản). Ta không thể chia những từ khác nhau cho toàn bộ từ vì đó không phải là những con số.


Với việc giới thiệu định nghĩa của David Crystal (2011:276), hiện nay ta có ít nhất bốn thuật ngữ đồng nghĩa: mật độ từ vựng (còn có thể gọi là mật độ từ vị), tỷ lệ điển dạng/hiện dạng của Johnson (còn gọi là tỷ lệ điển dạng/hiện dạng hay tỷ số Johnson) và chỉ số đa dạng của Carroll (còn gọi là chỉ số Carroll) và độ phong phú từ vựng.

Sunday, 25 January 2015

Phương pháp thống kê so sánh từ vựng trong ngữ thời học





David Crystal (2011:279) viết như sau ở mục từ lexicostatistics:

A technique used in GLOTTOCHRONOLOGY with which one attempts to make comparative comparisions between the rates of change within sets of LEXICAL ITEMS in hypothetically related LANGUAGES, and thus to deduce the distance in time since the languages separated. Other types of lexical comparisons (e.g. to determine the mutual intelligibility of languages) may also be referred to this label.



Google dịch:

Một kỹ thuật được sử dụng trong GLOTTOCHRONOLOGY mà người ta cố gắng để làm cho so sánh giữa tỷ lệ thay đổi với các bộ mục từ vựng trong LANGUAGES liên quan đến giả thuyết, và do đó suy ra khoảng cách trong thời gian kể từ khi ngôn ngữ tách. Các loại khác của so sánh từ vựng (ví dụ như để tự xác định được sự dễ hiểu lẫn nhau của ngôn ngữ) cũng có thể được gọi đến nhãn này.



Trần Thủy Vịnh et al. (2013:291) viết không khác mấy:

lexicostatistics từ vựng thống kê học

Thuật ngữ được sử dụng trong thống kê ngữ thời học (glottochronology) với nỗ lực so sánh số lượng giữa những tỷ lệ thay đổi ở trong chuỗi yếu tố từ vựng ở những ngôn ngữ giả định là có liên quan nhau và từ đó có thể suy ra được thời gian mà chúng được tách ra. Những loại so sánh từ vựng khác (vd. việc xác định mức độ thông hiểu qua lại giữa các ngôn ngữ) cũng được dùng cho thuật ngữ này.



Ý của David Crystal (2011:279) muốn nói là:
Từ vựng thống kê học là một kỹ thuật dùng trong ngữ thời học. Tinh thần của kỹ thuật này là so sánh tốc độ biến đổi vốn từ (hiểu theo nghĩa là tập hợp các yếu tố từ vựng) ở các ngôn ngữ được giả định là có quan hệ thân tộc, rồi dựa vào đó mà suy ra thời điểm các ngôn ngữ đó bị phân ly. Có khi thuật ngữ này cũng được dùng để chỉ các nghiên cứu so sánh từ vựng khác (không có liên quan gì với ngữ thời học) chẳng hạn như so sánh hai hệ thống từ vựng để xem người nói ngôn ngữ này có thể hiểu ngôn ngữ kia đến mức nào.

Saturday, 24 January 2015

Mô hình Markov ẩn là gì?





Mô hình Markov ẩn (tiếng Anh là Hidden Markov Model - HMM) là mô hình thống kê trong đó hệ thống được mô hình hóa được cho là một quá trình Markov với các tham số không biết trước và nhiệm vụ là xác định các tham số ẩn từ các tham số quan sát được, dựa trên sự thừa nhận này.



Mô hình Markov ẩn có nhiều ứng dụng trong lĩnh vực xử lý ngôn ngữ tự nhiên. Định nghĩa của Davyd Crystal (2011:229) chỉ phản ánh mối quan tâm của tác giả đối với lĩnh vực ngữ âm:

In automatic SPEECH RECOGNITION, an approach which uses a spectral model of a word, viewed as a Markov Model of the ACOUSTIC event (see MARKOV PROCESS).


Trần Thủy Vịnh et al. (2013:242) chấp nhận định ngĩa của Davyd Crystal (2011:229), dịch HMM là phương pháp ẩn Markov. Thuật ngữ này và thuật ngữ phương pháp Markov ẩn đều không thông dụng bằng mô hình Markov ẩn:

Trong nhận diện ngôn ngữ tự động, phương pháp sử dụng quang phổ của từ được Markov quan sát, mô tả là một sự kiện cấu âm (xem Markov Process).

Âm thanh không phải là ánh sáng, làm sao sử dụng quang phổ của từ được? Ở đây cũng không có phổ nào của từ cả. Chỉ có mô hình phổ.

Từ được xem như một mô hình Markov của một sự kiện âm học. Markov không quan sát, không mô tả gì cả.

Sinh viên nhập môn ngôn ngữ học không lẫn lộn giữa âm học (ngữ âm học vật lý) và cấu âm (ngữ âm học sinh lý).
Chuyển chú về Markov Process nhưng Trần Thủy Vịnh et al. (2013) không có mục từ Markov Process.