Position du problème

Il existe plusieurs approches qui apportent chacune leur contribution à la connaissance du mot et du vocabulaire. L’étymologie s’intéresse au sens primitif du mot. La philosophie partage avec la lexicologie les interrogations sur les rapports entre le mot et le concept, sur la manière dont le mot représente le monde. Les mots peuvent aussi se prêter aux questionnements sociologiques, historiques ou politiques etc. Certains chercheurs préfèrent aborder le vocabulaire en ethnologues, en éducateurs. D’autres encore, statisticiens ceux-là, ne se préoccupent que de l’aspect quantitatif du vocabulaire et vouent leurs efforts à la tâche de créer des théories, d’élaborer des modèles capables de rendre compte de la structure numérique de la matière lexicale. L’ensemble de ces travaux constitue la lexicométrie, science qui, à l’heure actuelle, progresse à pas de géant.

Née de la confluence intellectuelle entre la statistique et la lexicologie, deux disciplines apparemment disjointes, la lexicométrie a très vite dépassé le stade embryonnaire où son rôle se réduisait à la fabrication des listes de fréquences destinées à l’enseignement des langues, à la sténographie ou à la cryptographie. Les retombées applicatives immédiates avaient surtout servi de prétextes occasionnant les questionnements sur l’aspect quantitatif du langage et provoquant la naissance de ce bouillonnant courant de pensées que représentent Herdan, Guiraud, Mandelbrot, Muller et plus tard Brunet, Dolphin, Dugast, Lafon, Lebart, Salem, Tournier en France, Arapov, Tuldava, Kalinin en Union Soviétique. Des travaux patients et féconds de ces savants se dégage aujourd’hui un vaste corps de doctrines et d’enseignements assurant à la lexicométrie ses titres de noblesse parmi les Sciences du langage. Dans le cadre de cette jeune science, les choses évoluent à une vitesse foudroyante surtout depuis que les progrès technologiques exponentiels ont rendu possibles certains traitements jusque-là jugés utopiques. Grâce aux ordinateurs dont la performance ne cesse de s’améliorer, les recherches en lexicométrie se font de plus en plus raffinées, les théories et les modèles proposés sont de plus en plus complexes. On n’a jamais été si avancé dans la connaissance de l’aspect quantitatif du vocabulaire.

Mais, alors que les travaux de haut niveau consacrés aux langues indo-européennes suivent une croissance exponentielle, la linguistique vietnamienne montre un retard de vingt ans au moins en la matière. Au moment où nous amorcions cette recherche en 1991, il existait très peu de travaux portant sur l’aspect quantitatif du vocabulaire vietnamien. La lexicométrie vietnamienne ayant débuté avec les petites listes de fréquences compilées par Remarčuk (1973), Nguyen Duc Dan et alii (1973), Vu The Thach et al. (1976) n’avait pu progresser pendant vingt ans que par phases intermittentes entrecoupées de très longues périodes de stagnation. L’enquête statistique la plus monumentale sur le vocabulaire vietnamien jusqu’à ce jour demeurait la synthèse des travaux que Nguyen Duc Dan et ses étudiants à l’Université de Hanoi avaient menés entre 1972 et 1976 sur un corpus de 400 000 occurrences, l’équivalent de celui qui avait servi à l’élaboration du français fondamental de Gougenheim et al. dans les années cinquante. Ce dictionnaire avait enfin été publié en 1980 par l’Université de Paris VII. Son auteur en avait dégagé quelques remarques embryonnaires sur l’organisation quantitative du vocabulaire vietnamien qu’il publia quatre ans plus tard dans le cadre d’un cours d’initiation à la méthode statistique en linguistique. Puis plus rien depuis.

Il y a deux raisons à cet état de fait :

La première tient à la nature onéreuse des recherches en statistique linguistique. La mise en œuvre des projets de ce genre a toujours nécessité la mobilisation d’immenses ressources humaines et financières qu’on ne peut justifier que par une multiple exploitation du produit fini. Or, étant donné les difficultés incontournables dans la création et la publication, les listes de fréquences destinées à l’enseignement sont rapidement obsolètes. En plus, elles sont incomplètes et par conséquent ne peuvent pas être utilisées à d’autres fins. Quant aux dictionnaires d’auteur, que l’on sait d’une grande utilité pour les études de stylométrie, il faut observer une hiérarchie de priorité dans laquelle les écrivains mineurs n’ont certainement pas de place. En fait, à part l’article de Nguyen Duc Dan et al. (1973) sur l’organisation quantitative du vocabulaire de Ho Chi Minh, aucun autre auteur n’a été sollicité de la même façon, fussent-ce les plus grands classiques de la littérature vietnamienne.

L’autre raison qui explique le retard de la lexicométrie vietnamienne est liée à la formation traditionnelle, axée sur la spécialisation isolée et indépendante. Recrutés parmi les bacheliers littéraires, les étudiants de linguistique n’ont que des connaissances mathématiques très rudimentaires et se refusent à s’investir hors du pur littéraire. Les travaux évoquant la statistique par simple présentation des données numériques, dont on aurait pu se passer aisément, amènent les linguistes à une acception restrictive et peu prestigieuse de la statistique. Quant aux exposés truffés de calculs sophistiqués dont le sens échappe aux raisonnements linguistiques, ils suscitent surtout une méfiance singulière. Les linguistes vietnamiens se confinent alors dans la ferme conviction que les mathématiques ont pour double résultat d’obscurcir les phénomènes simples et évidents au moyen d’un langage rébarbatif et de détourner le non-initié de son intérêt fondamental pour la linguistique. Ils refusent surtout d’admettre que les mathématiques puissent appréhender un phénomène aussi complexe que le langage humain.

Les rares élèves que Nguyen Duc Dan avait pu avoir dans les années soixante-dix ont vite abandonné cette voie pour s’investir dans d’autres directions qui promettent plus tout en exigeant moins. Ces désertions avaient contribué dans une large mesure à la récession qui s’est opérée dès la fin des années soixante-dix. A sa mutation dans le Sud vers la fin des années quatre-vingts, Nguyen Duc Dan s’est retrouvé seul devant la tâche de créer un enseignement et une recherche universitaires en statistique linguistique. Heureusement, ses efforts ont été vite récompensés, car des circonstances favorables s’y sont prêtées de manière inattendue.

L’ouverture du pays vers le monde extérieur, amorcée dans les années quatre-vingts, s’accentue de plus en plus au fur et à mesure que le commerce international s’intensifie en amenant un nombre sans cesse croissant d’étrangers désireux d’apprendre le vietnamien, les uns pour agrémenter leur long séjour, les autres pour leurs propres intérêts professionnels. Ce nouveau contexte économique a joué en faveur de la statistique linguistique qui, jusque-là, faisait figure de parente pauvre de la linguistique orthodoxe. Le besoin d’un enseignement rationnel et efficace du vietnamien langue étrangère s’est fait sentir impérieusement, surtout parce qu’on a affaire à un nouveau public qui se comporte en véritable client, plus exigeant, moins patient et souvent moins cultivé que les diplomates et les intellectuels dont on avait l’habitude. Les concepteurs de nouvelles méthodes ne peuvent plus se permettre d’appréciations approximatives sur tout ce qui est impliqué dans le processus d’apprentissage. Il leur faut des données précises et concrètes, d’où l’intérêt des vastes enquêtes statistiques sur le vocabulaire. Cet investissement devrait constituer une solide garantie du succès pédagogique et commercial de l’entreprise.

Par bonheur, les difficultés techniques et financières qui s’étaient dressées naguère devant les projets de ce genre ne sont plus que de mauvais souvenirs. Dans cette entreprise, les linguistes et les pédagogues sont généreusement secondés par leurs collègues informaticiens. L’arrivée des micro-ordinateurs, dont la puissance et la convivialité ne cessent de croître et les prix de diminuer, a modifié la situation de manière radicale. On se voit maintenant offrir des moyens de travail dont la première génération des statisticiens du vocabulaire vietnamien n’osait pas rêver. Le temps semble lointain où Nguyen Duc Dan et ses étudiants s’acharnaient à compter et à recompter, à effectuer et à vérifier de longues séries de calculs élémentaires. Les ordinateurs de la nouvelle génération nous libèrent de toutes ces tâches fastidieuses et peu fiables.

Les informaticiens, de leur côté, ont vu tout l’intérêt qu’ils pouvaient avoir à venir en aide aux linguistes. Ils ont été les premiers parmi les scientifiques purs et durs à saisir l’importance des Sciences du langage, importance destinée à croître en même temps que les outils de calcul se multiplient et se perfectionnent. Au point où nous en sommes aujourd’hui, aucun pas en avant dans le traitement automatique du langage naturel ne peut se faire en méconnaissance des lois qui régissent son organisation. La quasi-absence des logiciels en langue vietnamienne et/ou destinés au traitement du langage prouve que les informaticiens ne sont pas encore à la hauteur des exigences d’un marché riche de potentialités. Des pertes cuisantes ont été subies même par des firmes de renommée internationale telles que Microsoft dans sa tentative de vietnamiser les logiciels sous Windows. Les causes de ces échecs sont nombreuses, mais on peut en mentionner tout de suite une de taille : issus d’un système de formation à la spécialisation cloisonnée, nos ingénieurs ne possèdent qu’une connaissance très rudimentaire du fonctionnement de la langue, et les firmes, en économisant les frais de consultations linguistiques, se condamnent par avance à n’obtenir que des produits inutilisables.

La banalisation des communications en réseau (Internet, Intranet...) depuis quelques années accentue davantage la nécessité d’une coopération étroite entre linguistes et techniciens. Il n’est pas besoin d’être un grand prophète pour se rendre compte que bien des problèmes vitaux vont se poser à l’exploitation de la Toile dans les décennies qui suivent. Il est urgent de disposer des moyens capables de tamiser ce flux considérable de données, d’analyser, d’indexer, de repérer les documents qui suscitent l’intérêt des services, des entreprises, des utilisateurs individuels etc. Dans ce contexte, la connaissance des caractères statistiques du langage en général, du vocabulaire en particulier prend une résonance exceptionnelle qui justifie plus que jamais ce questionnement fondamental, car ces caractères influencent l’efficacité des structures de données et des algorithmes utilisés dans les logiciels d’analyse et de recherche.

Notre travail ambitionne de fournir des éléments de réponse à ces questionnements. Tel qu’il a été clairement défini par le titre, l’objet de notre travail porte sur l’aspect quantitatif du vocabulaire et le domaine d’investigation est le vietnamien.

Cette langue, comme chacun le sait grâce aux travaux en typologie linguistique, présente des particularités qui la rendent typique parmi les langues isolantes et en font une réalité très différente de ce qu’on rencontre habituellement dans les langues indo-européennes sur lesquelles a été fondée la lexicométrie classique. Dans le contexte actuel de la recherche, il est tout à fait légitime de se demander si les théories, les modèles, les propositions qui ont été validés sur les langues indo-européennes conservent toute leur puissance sur une langue aussi « exotique » que le vietnamien. La question est importante à plus d’un titre et ses intérêts multiples se conçoivent aisément. Outre les observations pratiques qui rendraient service aux chercheurs engagés dans le traitement automatique du langage ou l’enseignement du vietnamien, cette étude devrait nous offrir un point de départ vers d’autres perspectives comparatives. Celles-ci nous permettraient d’envisager les choses avec plus d’objectivité, de déterminer avec précision, en les quantifiant, les éléments universels et les éléments propres aux langues particulières. Ceci n’est possible bien sûr qu’à condition qu’un certain degré de concordance entre nos résultats et ceux de nos prédécesseurs sur les langues indo-européennes permette d’accorder quelque confiance à l’universalité des modèles classiques. Mais enfin, que les modèles de la lexicométrie classique se vérifient ou non sur cette réalité nouvelle qu’est le vocabulaire vietnamien, cette quête constitue toujours un pas en avant vers des profondeurs qui n’ont pas fini de nous livrer leurs secrets.

Organisation du travail

Cinq chapitres forment la structure du travail que nous soumettons ici.

Dans le premier temps de la recherche, nous nous donnons pour tâche de présenter l’outil qui va nous permettre d’effectuer nos investigations. Il s’agit de notre dictionnaire de fréquence du vietnamien sur lequel nous travaillons depuis 1991 et auquel nous nous référons constamment dans cette thèse sous le sigle DFV. Ce dictionnaire, comme tous ceux du genre, est une suite ordonnée d’informations dont les deux principales sont l’unité lexicale et sa fréquence d’occurrence dans le corpus étudié. Notre dictionnaire possède cependant des particularités que n’avaient pas ses prédécesseurs dans le domaine vietnamien : sa consultation est entièrement automatisée, simple et rapide, sur les ordinateurs personnels et les corpus disponibles sont mieux alimentés que ceux qui ont servi à nos prédécesseurs. Le nouveau dictionnaire est doté en outre de la plupart des fonctionnalités spécifiques en statistique lexicale : constitution du corpus, indexation des textes, tri et classement, mise à jour des listes de fréquences, calculs statistiques etc.

Le chapitre premier, intitulé Problèmes linguistiques du mot vietnamien, cherche à définir l’unité d’inventaire de notre dictionnaire. Nous retenons pour notre usage les définitions essentielles de la lexicométrie classique : le lexique (formé d’unités lexicales virtuelles appelées lexèmes) est une entité relevant de l’organisation de la langue et se distingue du vocabulaire, ensemble des vocables (unités lexicales mises en œuvre dans le discours), les mots sont des unités de texte attestées.[1] Ceci étant posé, nous commençons le chapitre premier par un développement critique consacré aux critères de définition et de délimitation du mot vietnamien. Sans prétendre exposer en toute complexité les problèmes linguistiques du mot vietnamien, ce chapitre tente de mettre en évidence certains critères fondamentaux et de situer le cadre théorique dans lequel nous effectuons notre choix. Ce travail débouche sur une série de propositions que nous allons mettre en œuvre dans notre logiciel tout en demeurant conscient des limites de notre solution.

Le deuxième chapitre présente le corpus du DFV, riche de seize millions d’occurrences, et la nature des tableaux statistiques que l’usager du dictionnaire peut en tirer. Une attention particulière est portée aux types de données quantitatives dont nous nous servirons lors de la seconde phase du présent travail.

Nous arrivons ensuite à ce qui constitue le cœur de notre travail et qui contient nos observations et nos réflexions sur l’aspect quantitatif du vocabulaire vietnamien. Comme les thèmes abordés dans ce domaine sont très vastes et très complexes, il est hors de question, dans le cadre d’un travail comme celui-ci, de traiter de tout ou d’entrer dans tous les détails. Parmi les multiples questions qui entrent dans le champ immense de la lexicométrie, nous nous bornerons à étudier seulement les faits d’ordre structurel en insistant particulièrement sur les problèmes de l’organisation quantitative du vocabulaire. Voici, dans leurs grandes lignes, les questions que nous allons traiter, groupées en trois chapitres :

Nous étudions dans le chapitre III ce qu’il est convenu d’appeler les caractères statistiques du mot. Ce chapitre comprend deux sections.

La première vise à mettre en évidence la matérialité du mot, une dimension souvent négligée dans les études du mot vietnamien. A la lumière de la théorie de l’information, nous chercherons à caractériser l’essence du débat passionnant et passionné autour de ce qu’on appelle le monosyllabisme du vietnamien. A l’aide de preuves quantifiées, nous espérons apporter notre contribution à une meilleure compréhension de ce qui sépare jusqu’ici les théories qui se veulent essentiellement linguistiques.

La seconde section est consacrée aux problèmes soulevés autour du vocable et de ses variantes. Son intérêt est double. Elle fournit en premier lieu une description quantitative des principaux phénomènes qui alimentent les discussions survenues dans le traitement lexicographique des variantes. Cette description quantitative sert également à appuyer la stratégie de catalogage mise en œuvre dans notre dictionnaire de fréquence.

Le quatrième chapitre est consacré à l’étude de la richesse (ou l’effectif) du vocabulaire. Apparaissent à ce stade des problèmes à la résolution desquels les modèles mathématiques peuvent rendre de grands services. Notre attention porte surtout sur la description de la richesse évolutive du vocabulaire, c’est-à-dire la façon dont l’effectif du vocabulaire se développe au long du texte. Nous y traitons un certain nombre de modèles de la croissance du vocabulaire depuis leurs hypothèses fondamentales jusqu’aux tests d’adéquation. En même temps nous accordons un intérêt non moins soutenu à la richesse du vocabulaire, tant au niveau du texte intégral qu’au niveau du segment. Ces investigations sur les différents niveaux de l’organisation du texte ainsi que sur son histoire visent à démontrer que le vocabulaire est le lieu où se réalise un équilibre dynamique semblable à celui que les biologistes et les écologues ont observé dans des milieux aux ressources limitées.

Cette idée continue d’animer nos investigations dans le chapitre V qui aborde le stade ultime de la complexité. L’étude de la diversité du vocabulaire réunira les considérations sur la richesse au souci de savoir comment cette richesse s’organise, se structure dans une tranche de texte, dans le déroulement du texte et enfin au niveau du texte intégral. Cette entreprise est, on s’en doute facilement, tellement compliquée qu’elle ne peut pas être traitée non seulement de façon complète mais même simplement de façon satisfaisante. Il nous a fallu nous résigner à un exposé synthétique des idées et des modèles qui ont fait date dans l’histoire de la lexicométrie et qu’il est intéressant de vérifier sur un nouveau terrain comme la langue vietnamienne. Parmi ces monuments incontournables figurent la fameuse loi de Zipf (1935) et les modèles de Mandelbrot (1953), Simon (1955), Waring - Herdan (1964), etc. bref, tout ce qui touche de près ou de loin aux distributions des fréquences lexicales.

Questions de méthodologie et limites du travail

Dans le traitement du sujet nous avons largement suivi les approches préconisées par les Pères fondateurs de la lexicométrie : Guiraud (1954), Herdan (1966), Muller (1968)... Leurs œuvres nous ont fourni, il est vrai, les fondements théoriques du présent travail.

Dans cette optique, le lexique est assimilé à une urne dans laquelle il y a des boules identiques à tous points de vue sauf l’étiquette servant à discriminer les lexèmes. Selon la loi des grands nombres, si l’on répète la même expérience un grand nombre de fois dans des circonstances identiques, la fréquence relative du résultat converge vers la probabilité d’apparition de l’événement considéré. En d’autres termes, au fur et à mesure que s’accroît la taille de l’échantillon, sa structure tend à ressembler de plus en plus à celle de la population d’où l’échantillon est tiré. S’appuyant sur ce principe, la lexicométrie classique postule que si l’on considère une grande collection de productions langagières comme semblable, à certains points de vue essentiels, à des tirages successifs de boules d’une urne lexicale, il est possible d’accéder à la connaissance de la composition de l’urne à travers les observations expérimentales.

Cette assimilation des phénomènes vivants du langage à des séries de boules présente à coup sûr une image plus ou moins grossière de la réalité. Des tentatives ont été faites dans le but d’affiner la notion d’urne lexicale et de la rendre plus rigoureuse et plus opérante. Nous n’allons donc pas rouvrir ici le débat épistémologique sur la légitimité de l’approche probabiliste en statistique lexicale. Le développement de ce thème impliquerait la rédaction d’une autre thèse, et, là encore nous avons les ouvrages de Muller (1968), Brunet (1978), Dolphin (1979) qui permettent de cerner les divers aspects de la question. Nous nous contenterons simplement d’affirmer la position théorique que nous devons à nos prédécesseurs tout en demeurant conscient des limites imposées par une telle approche et des risques qui en découlent.

Comme nous l’avons dit dès l’entrée en matière, notre travail ne prétend nullement à une analyse exhaustive de toutes les questions qui se rattachent aux caractères statistiques du vocabulaire. Cela tient bien sûr à la fois aux conditions matérielles du travail et à l’ampleur de la matière, sans oublier le fait que le choix initial de l’approche y est pour beaucoup. Ce travail ne dépassera pas le cadre restreint que s’est assigné la lexicométrie classique, encore qu’il soit centré principalement sur cette problématique de la richesse et de la diversité qui ne couvre certes pas toute la recherche sur les caractères statistiques du vocabulaire. Bien d’autres voies d’exploration sont évidemment possibles et effectivement envisagées à l’heure actuelle dans les grands laboratoires de lexicométrie, tels ceux de Saint-Cloud et de Nice. Elles concernent les techniques de la statistique multidimensionnelle, capables d’apporter de fructueux développements qu’il serait souhaitable d’incorporer dans un travail comme le nôtre. Or rien de tel ne sera fait dans notre travail. Nous nous rendons parfaitement compte de cette lacune bien regrettable.

Cela étant dit, nous nous sommes efforcé d’aller aussi loin que faire se peut dans la recherche de solutions aux problèmes posés. Cette préoccupation nous a conduit à l’utilisation fréquente des modèles statistiques, en particulier ceux proposés par les Sciences de la vie.

A vrai dire, cette approche n’est pas révolutionnaire. Les chercheurs en Sciences humaines, les linguistes entre autres, n’ont jamais hésité à tirer un profit maximum des méthodes utilisées dans les Sciences de la vie. Celles-ci ont eu leur part belle dans le développement de nos savoirs sur le mot et le vocabulaire, qu’on ne saurait passer sous silence. Souvenons-nous que bon nombre de Pères fondateurs de la lexicométrie classique (Zipf (1935), Simon (1955), Herdan (1958) etc.) se sont fait publier dans un premier temps dans des revues de biologie. Depuis lors, les Sciences de la vie n’ont jamais cessé de proposer de nouveaux outils de travail et des thèmes de réflexion qui stimulent le développement de la lexicométrie.

L’étude des mots-thèmes de Dugast (1981c) est fondée sur la loi de Poisson et la notion de répartition régulière / irrégulière / aléatoire, bien connues dans les manuels d’écologie.

Les indices de connexion lexicale s’inspirent dans une large mesure des travaux en écologie. Les écologistes, confrontés à la problématique de la diversité, ont développé des mesures sophistiquées dont l’ensemble constitue ce que Sokal et al. (1963) appellent la taxonomie numérique ou taximétrie. A l’origine, c’était Jaccard (1908), inventeur d’un coefficient d’association portant son nom en floristique, rebaptisé indice de connexion lexicale par Muller (1977 : 147 ) et Luong (1994). L’indice d’indépendance lexicale de Luong (1994), que Brunet (1994) propose comme une mesure de la connexion lexicale, a été puisé aussi dans le livre de Sokal et al. (1963), selon les aveux de Luong.

Un grand nombre de modèles de la croissance du vocabulaire s’inspirent des travaux sur la croissance dans le monde du vivant. Herdan (1960) reprend le modèle de Huxley (1932). Somers (1959) reconnaît sa dette envers Preston (1948) via le livre de Aitchison et al. (1957) etc.

De nombreuses distributions de fréquences lexicales ont été utilisées d’abord dans l’étude des distributions d’espèces. Irwin (1963) constitue une source d’emprunt pour Herdan (1964), Muller (1965), Dolphin (1979) et Ratkowski (1979). Les travaux menés par Simon (1955), Good et al. (1956), Efron et al. (1976), Mandelbrot (1977) etc. traitent de l’écologie et de la lexicologie en même temps.

Nous n’allons pas simplifier abusivement les choses en identifiant la réalité linguistique à un organisme vivant comme les linguistes du dix-neuvième siècle l’ont fait, mais nous ne nous lancerons pas non plus dans la discussion contre la pernicieuse coupure généralement pratiquée entre les Sciences humaines et les Sciences de la nature. Pour nous, c’est la même logique qui prévaut, quel que soit le domaine de la connaissance. Vocabulaire, population, peuplement, ce sont là des systèmes destinés à évoluer dans des milieux aux ressources souvent limitées. Dans ces conditions, certains modèles empruntés aux Sciences de la vie – et singulièrement à l’écologie – s’appliquent aussi bien au vocabulaire.

Les modèles en statistique lexicale, qu’ils viennent des Sciences de la vie comme ceux de Huxley (1932), Preston (1948) etc. ou même parfois des Sciences physiques comme celui de Mandelbrot (1953), tout en soulignant l’affinité profonde des savoirs humains, demeurent forcément simplificateurs et imparfaits. Les modèles, si compliqués qu’ils soient, ne sont jamais que des représentations abstraites et réductrices de la réalité. Ils nous permettent certes d’avancer dans la compréhension de cette réalité, mais il serait vain de vouloir accéder à une connaissance parfaite. Leur apport, important et parfois unique, consiste simplement à rassembler nos connaissances sur le sujet et à les formaliser en un système d’hypothèses rigoureuses.

Quelques mots enfin sur la place des mathématiques dans ce travail. Notre thèse traite des questions linguistiques. Pour cela, elle est organisée autour des questions principales qui se sont posées dès notre entrée en matière. Les démonstrations mathématiques n’ont pas leur place ici. Les développements mathématiques seront réduits au strict minimum nécessaire à la présentation rigoureuse des concepts et des hypothèses. Quant aux tableaux statistiques et aux calculs numériques, nous ne les considérons nullement comme devant supplanter la réflexion linguistique, mais nous les envisageons plutôt comme un support objectif, et non exclusif, à une analyse des phénomènes. Tous les faits chiffrés ne sont que des exemples, dont la liste aurait pu être rallongée ou raccourcie à volonté et aurait conduit à composer une annexe dont les dimensions dépasseraient le texte proprement dit, ce qui serait tout à fait absurde quand le travail de vérification peut être effectué aisément à partir du logiciel de consultation.

[1] Muller (1968 : 133-135)

Từ Trắc Học

Friday, 19 October 2012

Les Caractères Statistiques du Vocabulaire (Domaine Vietnamien) - Introduction

Position du problème

Organisation du travail

Questions de méthodologie et limites du travail

No comments:

Post a Comment

Tạp Chí & Nhóm Nghiên Cứu

Blog Ngôn Ngữ Học Liên Ngành

Blog Việt Ngữ Học

Công Cụ

Ngữ Liệu