Position du problème
Il existe plusieurs approches qui
apportent chacune leur contribution à la connaissance du mot et du vocabulaire.
L’étymologie s’intéresse au sens primitif du mot. La philosophie partage avec
la lexicologie les interrogations sur les rapports entre le mot et le concept,
sur la manière dont le mot représente le monde. Les mots peuvent aussi se
prêter aux questionnements sociologiques, historiques ou politiques etc.
Certains chercheurs préfèrent aborder le vocabulaire en ethnologues, en
éducateurs. D’autres encore, statisticiens ceux-là, ne se préoccupent que de
l’aspect quantitatif du vocabulaire et vouent leurs efforts à la tâche de créer
des théories, d’élaborer des modèles capables de rendre compte de la structure
numérique de la matière lexicale. L’ensemble de ces travaux constitue la lexicométrie,
science qui, à l’heure actuelle, progresse à pas de géant.
Née
de la confluence intellectuelle entre la statistique et la lexicologie, deux
disciplines apparemment disjointes, la lexicométrie a très vite dépassé le
stade embryonnaire où son rôle se réduisait à la fabrication des listes de
fréquences destinées à l’enseignement des langues, à la sténographie ou à la
cryptographie. Les retombées applicatives immédiates avaient surtout servi de
prétextes occasionnant les questionnements sur l’aspect quantitatif du langage
et provoquant la naissance de ce bouillonnant courant de pensées que
représentent Herdan, Guiraud, Mandelbrot, Muller et plus tard Brunet, Dolphin,
Dugast, Lafon, Lebart, Salem, Tournier en France, Arapov, Tuldava, Kalinin en
Union Soviétique. Des travaux patients et féconds de ces savants se dégage
aujourd’hui un vaste corps de doctrines et d’enseignements assurant à la
lexicométrie ses titres de noblesse parmi les Sciences du langage. Dans le
cadre de cette jeune science, les choses évoluent à une vitesse foudroyante surtout
depuis que les progrès technologiques exponentiels ont rendu possibles certains
traitements jusque-là jugés utopiques. Grâce aux ordinateurs dont la
performance ne cesse de s’améliorer, les recherches en lexicométrie se font de
plus en plus raffinées, les théories et les modèles proposés sont de plus en
plus complexes. On n’a jamais été si avancé dans la connaissance de l’aspect
quantitatif du vocabulaire.
Mais,
alors que les travaux de haut niveau consacrés aux langues indo-européennes
suivent une croissance exponentielle, la linguistique vietnamienne montre un
retard de vingt ans au moins en la matière. Au moment où nous amorcions cette
recherche en 1991, il existait très peu de travaux portant sur l’aspect
quantitatif du vocabulaire vietnamien. La lexicométrie vietnamienne ayant
débuté avec les petites listes de fréquences compilées par Remarčuk (1973),
Nguyen Duc Dan et alii (1973), Vu The Thach et al. (1976) n’avait pu progresser
pendant vingt ans que par phases intermittentes entrecoupées de très longues
périodes de stagnation. L’enquête statistique la plus monumentale sur le
vocabulaire vietnamien jusqu’à ce jour demeurait la synthèse des travaux que
Nguyen Duc Dan et ses étudiants à l’Université de Hanoi avaient menés entre
1972 et 1976 sur un corpus de 400 000 occurrences, l’équivalent de celui
qui avait servi à l’élaboration du français fondamental de Gougenheim et al.
dans les années cinquante. Ce dictionnaire avait enfin été publié en 1980 par
l’Université de Paris VII. Son auteur en avait dégagé quelques remarques
embryonnaires sur l’organisation quantitative du vocabulaire vietnamien qu’il
publia quatre ans plus tard dans le cadre d’un cours d’initiation à la méthode
statistique en linguistique. Puis plus rien depuis.
Il y a deux
raisons à cet état de fait :
La première
tient à la nature onéreuse des recherches en statistique linguistique. La mise
en œuvre des projets de ce genre a toujours nécessité la mobilisation
d’immenses ressources humaines et financières qu’on ne peut justifier que par
une multiple exploitation du produit fini. Or, étant donné les difficultés
incontournables dans la création et la publication, les listes de fréquences
destinées à l’enseignement sont rapidement obsolètes. En plus, elles sont
incomplètes et par conséquent ne peuvent pas être utilisées à d’autres fins.
Quant aux dictionnaires d’auteur, que l’on sait d’une grande utilité pour les
études de stylométrie, il faut observer une hiérarchie de priorité dans
laquelle les écrivains mineurs n’ont certainement pas de place. En fait, à part
l’article de Nguyen Duc Dan et al. (1973) sur l’organisation quantitative du
vocabulaire de Ho Chi Minh, aucun autre auteur n’a été sollicité de la même
façon, fussent-ce les plus grands classiques de la littérature vietnamienne.
L’autre
raison qui explique le retard de la lexicométrie vietnamienne est liée à la
formation traditionnelle, axée sur la spécialisation isolée et indépendante.
Recrutés parmi les bacheliers littéraires, les étudiants de linguistique n’ont
que des connaissances mathématiques très rudimentaires et se refusent à
s’investir hors du pur littéraire. Les travaux évoquant la statistique par
simple présentation des données numériques, dont on aurait pu se passer
aisément, amènent les linguistes à une acception restrictive et peu
prestigieuse de la statistique. Quant aux exposés truffés de calculs
sophistiqués dont le sens échappe aux raisonnements linguistiques, ils
suscitent surtout une méfiance singulière. Les linguistes vietnamiens se
confinent alors dans la ferme conviction que les mathématiques ont pour double
résultat d’obscurcir les phénomènes simples et évidents au moyen d’un langage
rébarbatif et de détourner le non-initié de son intérêt fondamental pour la
linguistique. Ils refusent surtout d’admettre que les mathématiques puissent
appréhender un phénomène aussi complexe que le langage humain.
Les rares
élèves que Nguyen Duc Dan avait pu avoir dans les années soixante-dix ont vite
abandonné cette voie pour s’investir dans d’autres directions qui promettent
plus tout en exigeant moins. Ces désertions avaient contribué dans une large
mesure à la récession qui s’est opérée dès la fin des années soixante-dix. A sa
mutation dans le Sud vers la fin des années quatre-vingts, Nguyen Duc Dan s’est
retrouvé seul devant la tâche de créer un enseignement et une recherche
universitaires en statistique linguistique. Heureusement, ses efforts ont été
vite récompensés, car des circonstances favorables s’y sont prêtées de manière
inattendue.
L’ouverture
du pays vers le monde extérieur, amorcée dans les années quatre-vingts,
s’accentue de plus en plus au fur et à mesure que le commerce international
s’intensifie en amenant un nombre sans cesse croissant d’étrangers désireux
d’apprendre le vietnamien, les uns pour agrémenter leur long séjour, les autres
pour leurs propres intérêts professionnels. Ce nouveau contexte économique a
joué en faveur de la statistique linguistique qui, jusque-là, faisait figure de
parente pauvre de la linguistique orthodoxe. Le besoin d’un enseignement
rationnel et efficace du vietnamien langue étrangère s’est fait sentir
impérieusement, surtout parce qu’on a affaire à un nouveau public qui se
comporte en véritable client, plus exigeant, moins patient et souvent moins
cultivé que les diplomates et les intellectuels dont on avait l’habitude. Les
concepteurs de nouvelles méthodes ne peuvent plus se permettre d’appréciations
approximatives sur tout ce qui est impliqué dans le processus d’apprentissage.
Il leur faut des données précises et concrètes, d’où l’intérêt des vastes
enquêtes statistiques sur le vocabulaire. Cet investissement devrait constituer
une solide garantie du succès pédagogique et commercial de l’entreprise.
Par bonheur,
les difficultés techniques et financières qui s’étaient dressées naguère devant
les projets de ce genre ne sont plus que de mauvais souvenirs. Dans cette
entreprise, les linguistes et les pédagogues sont généreusement secondés par
leurs collègues informaticiens. L’arrivée des micro-ordinateurs, dont la
puissance et la convivialité ne cessent de croître et les prix de diminuer, a
modifié la situation de manière radicale. On se voit maintenant offrir des
moyens de travail dont la première génération des statisticiens du vocabulaire
vietnamien n’osait pas rêver. Le temps semble lointain où Nguyen Duc Dan et ses
étudiants s’acharnaient à compter et à recompter, à effectuer et à vérifier de
longues séries de calculs élémentaires. Les ordinateurs de la nouvelle
génération nous libèrent de toutes ces tâches fastidieuses et peu fiables.
Les
informaticiens, de leur côté, ont vu tout l’intérêt qu’ils pouvaient avoir à
venir en aide aux linguistes. Ils ont été les premiers parmi les scientifiques
purs et durs à saisir l’importance des Sciences du langage, importance destinée
à croître en même temps que les outils de calcul se multiplient et se
perfectionnent. Au point où nous en sommes aujourd’hui, aucun pas en avant dans
le traitement automatique du langage naturel ne peut se faire en méconnaissance
des lois qui régissent son organisation. La quasi-absence des logiciels en
langue vietnamienne et/ou destinés au traitement du langage prouve que les
informaticiens ne sont pas encore à la hauteur des exigences d’un marché riche
de potentialités. Des pertes cuisantes ont été subies même par des firmes de
renommée internationale telles que Microsoft dans sa tentative de vietnamiser
les logiciels sous Windows. Les causes de ces échecs sont nombreuses, mais on
peut en mentionner tout de suite une de taille : issus d’un système de
formation à la spécialisation cloisonnée, nos ingénieurs ne possèdent qu’une
connaissance très rudimentaire du fonctionnement de la langue, et les firmes,
en économisant les frais de consultations linguistiques, se condamnent par
avance à n’obtenir que des produits inutilisables.
La
banalisation des communications en réseau (Internet, Intranet...) depuis
quelques années accentue davantage la nécessité d’une coopération étroite entre
linguistes et techniciens. Il n’est pas besoin d’être un grand prophète pour se
rendre compte que bien des problèmes vitaux vont se poser à l’exploitation de
la Toile dans les décennies qui suivent. Il est urgent de disposer des moyens
capables de tamiser ce flux considérable de données, d’analyser, d’indexer, de
repérer les documents qui suscitent l’intérêt des services, des entreprises,
des utilisateurs individuels etc. Dans ce contexte, la connaissance des
caractères statistiques du langage en général, du vocabulaire en particulier
prend une résonance exceptionnelle qui justifie plus que jamais ce
questionnement fondamental, car ces caractères influencent l’efficacité des
structures de données et des algorithmes utilisés dans les logiciels d’analyse
et de recherche.
Notre
travail ambitionne de fournir des éléments de réponse à ces questionnements.
Tel qu’il a été clairement défini par le titre, l’objet de notre travail porte
sur l’aspect quantitatif du vocabulaire et le domaine d’investigation est le
vietnamien.
Cette
langue, comme chacun le sait grâce aux travaux en typologie linguistique,
présente des particularités qui la rendent typique parmi les langues isolantes
et en font une réalité très différente de ce qu’on rencontre habituellement
dans les langues indo-européennes sur lesquelles a été fondée la lexicométrie
classique. Dans le contexte actuel de la recherche, il est tout à fait légitime
de se demander si les théories, les modèles, les propositions qui ont été
validés sur les langues indo-européennes conservent toute leur puissance sur
une langue aussi « exotique » que le vietnamien. La question est
importante à plus d’un titre et ses intérêts multiples se conçoivent aisément.
Outre les observations pratiques qui rendraient service aux chercheurs engagés
dans le traitement automatique du langage ou l’enseignement du vietnamien, cette
étude devrait nous offrir un point de départ vers d’autres perspectives
comparatives. Celles-ci nous permettraient d’envisager les choses avec plus
d’objectivité, de déterminer avec précision, en les quantifiant, les éléments
universels et les éléments propres aux langues particulières. Ceci n’est
possible bien sûr qu’à condition qu’un certain degré de concordance entre nos
résultats et ceux de nos prédécesseurs sur les langues indo-européennes
permette d’accorder quelque confiance à l’universalité des modèles classiques.
Mais enfin, que les modèles de la lexicométrie classique se vérifient ou non
sur cette réalité nouvelle qu’est le vocabulaire vietnamien, cette quête
constitue toujours un pas en avant vers des profondeurs qui n’ont pas fini de
nous livrer leurs secrets.
Organisation du travail
Cinq
chapitres forment la structure du travail que nous soumettons ici.
Dans le
premier temps de la recherche, nous nous donnons pour tâche de présenter
l’outil qui va nous permettre d’effectuer nos investigations. Il s’agit de
notre dictionnaire de fréquence du vietnamien sur lequel nous travaillons
depuis 1991 et auquel nous nous référons constamment dans cette thèse sous le
sigle DFV. Ce dictionnaire, comme tous ceux du genre, est une suite ordonnée
d’informations dont les deux principales sont l’unité lexicale et sa fréquence
d’occurrence dans le corpus étudié. Notre dictionnaire possède cependant des
particularités que n’avaient pas ses prédécesseurs dans le domaine
vietnamien : sa consultation est entièrement automatisée, simple et
rapide, sur les ordinateurs personnels et les corpus disponibles sont mieux
alimentés que ceux qui ont servi à nos prédécesseurs. Le nouveau dictionnaire
est doté en outre de la plupart des fonctionnalités spécifiques en statistique lexicale
: constitution du corpus, indexation des textes, tri et classement, mise à jour
des listes de fréquences, calculs statistiques etc.
Le chapitre
premier, intitulé Problèmes linguistiques du mot vietnamien,
cherche à définir l’unité d’inventaire de notre dictionnaire. Nous retenons
pour notre usage les définitions essentielles de la lexicométrie
classique : le lexique (formé d’unités lexicales virtuelles
appelées lexèmes) est une entité relevant de l’organisation de la
langue et se distingue du vocabulaire, ensemble des vocables
(unités lexicales mises en œuvre dans le discours), les mots sont
des unités de texte attestées.[1] Ceci étant posé, nous
commençons le chapitre premier par un développement critique consacré aux critères
de définition et de délimitation du mot vietnamien. Sans prétendre exposer en
toute complexité les problèmes linguistiques du mot vietnamien, ce chapitre
tente de mettre en évidence certains critères fondamentaux et de situer le
cadre théorique dans lequel nous effectuons notre choix. Ce travail débouche
sur une série de propositions que nous allons mettre en œuvre dans notre
logiciel tout en demeurant conscient des limites de notre solution.
Le deuxième
chapitre présente le corpus du DFV, riche de seize millions d’occurrences, et
la nature des tableaux statistiques que l’usager du dictionnaire peut en tirer.
Une attention particulière est portée aux types de données quantitatives dont
nous nous servirons lors de la seconde phase du présent travail.
Nous
arrivons ensuite à ce qui constitue le cœur de notre travail et qui contient
nos observations et nos réflexions sur l’aspect quantitatif du vocabulaire
vietnamien. Comme les thèmes abordés dans ce domaine sont très vastes et très
complexes, il est hors de question, dans le cadre d’un travail comme celui-ci,
de traiter de tout ou d’entrer dans tous les détails. Parmi les multiples
questions qui entrent dans le champ immense de la lexicométrie, nous nous
bornerons à étudier seulement les faits d’ordre structurel en insistant
particulièrement sur les problèmes de l’organisation quantitative du
vocabulaire. Voici, dans leurs grandes lignes, les questions que nous allons
traiter, groupées en trois chapitres :
Nous
étudions dans le chapitre III ce qu’il est convenu d’appeler les
caractères statistiques du mot. Ce chapitre comprend deux sections.
La première
vise à mettre en évidence la matérialité du mot, une dimension souvent négligée
dans les études du mot vietnamien. A la lumière de la théorie de l’information,
nous chercherons à caractériser l’essence du débat passionnant et passionné
autour de ce qu’on appelle le monosyllabisme du vietnamien. A
l’aide de preuves quantifiées, nous espérons apporter notre contribution à une
meilleure compréhension de ce qui sépare jusqu’ici les théories qui se veulent
essentiellement linguistiques.
La seconde
section est consacrée aux problèmes soulevés autour du vocable et de ses
variantes. Son intérêt est double. Elle fournit en premier lieu une description
quantitative des principaux phénomènes qui alimentent les discussions survenues
dans le traitement lexicographique des variantes. Cette description
quantitative sert également à appuyer la stratégie de catalogage mise en œuvre
dans notre dictionnaire de fréquence.
Le quatrième
chapitre est consacré à l’étude de la richesse (ou
l’effectif) du vocabulaire. Apparaissent à ce stade des
problèmes à la résolution desquels les modèles mathématiques peuvent rendre de
grands services. Notre attention porte surtout sur la description de la
richesse évolutive du vocabulaire, c’est-à-dire la façon dont l’effectif du
vocabulaire se développe au long du texte. Nous y traitons un certain nombre de
modèles de la croissance du vocabulaire depuis leurs hypothèses fondamentales jusqu’aux
tests d’adéquation. En même temps nous accordons un intérêt non moins soutenu à
la richesse du vocabulaire, tant au niveau du texte intégral qu’au niveau du
segment. Ces investigations sur les différents niveaux de l’organisation du
texte ainsi que sur son histoire visent à démontrer que le vocabulaire est le
lieu où se réalise un équilibre dynamique semblable à celui que les biologistes
et les écologues ont observé dans des milieux aux ressources limitées.
Cette idée
continue d’animer nos investigations dans le chapitre V qui aborde le stade
ultime de la complexité. L’étude de la diversité du vocabulaire
réunira les considérations sur la richesse au souci de savoir comment cette
richesse s’organise, se structure dans une tranche de texte, dans le déroulement
du texte et enfin au niveau du texte intégral. Cette entreprise est, on s’en
doute facilement, tellement compliquée qu’elle ne peut pas être traitée non
seulement de façon complète mais même simplement de façon satisfaisante. Il
nous a fallu nous résigner à un exposé synthétique des idées et des modèles qui
ont fait date dans l’histoire de la lexicométrie et qu’il est intéressant de
vérifier sur un nouveau terrain comme la langue vietnamienne. Parmi ces
monuments incontournables figurent la fameuse loi de Zipf (1935) et les modèles
de Mandelbrot (1953), Simon (1955), Waring - Herdan (1964), etc. bref, tout ce
qui touche de près ou de loin aux distributions des fréquences lexicales.
Questions de méthodologie et limites du travail
Dans le
traitement du sujet nous avons largement suivi les approches préconisées par
les Pères fondateurs de la lexicométrie : Guiraud (1954), Herdan (1966), Muller
(1968)... Leurs œuvres nous ont fourni, il est vrai, les fondements théoriques
du présent travail.
Dans cette
optique, le lexique est assimilé à une urne dans laquelle il y a des boules
identiques à tous points de vue sauf l’étiquette servant à discriminer les
lexèmes. Selon la loi des grands nombres, si l’on répète la même
expérience un grand nombre de fois dans des circonstances identiques, la
fréquence relative du résultat converge vers la probabilité d’apparition de
l’événement considéré. En d’autres termes, au fur et à mesure que s’accroît la
taille de l’échantillon, sa structure tend à ressembler de plus en plus à celle
de la population d’où l’échantillon est tiré. S’appuyant sur ce principe, la
lexicométrie classique postule que si l’on considère une grande collection de
productions langagières comme semblable, à certains points de vue essentiels, à
des tirages successifs de boules d’une urne lexicale, il est possible d’accéder
à la connaissance de la composition de l’urne à travers les observations
expérimentales.
Cette
assimilation des phénomènes vivants du langage à des séries de boules présente
à coup sûr une image plus ou moins grossière de la réalité. Des tentatives ont
été faites dans le but d’affiner la notion d’urne lexicale et de la rendre plus
rigoureuse et plus opérante. Nous n’allons donc pas rouvrir ici le débat
épistémologique sur la légitimité de l’approche probabiliste en statistique
lexicale. Le développement de ce thème impliquerait la rédaction d’une autre
thèse, et, là encore nous avons les ouvrages de Muller (1968), Brunet (1978),
Dolphin (1979) qui permettent de cerner les divers aspects de la question. Nous
nous contenterons simplement d’affirmer la position théorique que nous devons à
nos prédécesseurs tout en demeurant conscient des limites imposées par une
telle approche et des risques qui en découlent.
Comme nous
l’avons dit dès l’entrée en matière, notre travail ne prétend nullement à une
analyse exhaustive de toutes les questions qui se rattachent aux caractères
statistiques du vocabulaire. Cela tient bien sûr à la fois aux conditions
matérielles du travail et à l’ampleur de la matière, sans oublier le fait que
le choix initial de l’approche y est pour beaucoup. Ce travail ne dépassera pas
le cadre restreint que s’est assigné la lexicométrie classique, encore qu’il
soit centré principalement sur cette problématique de la richesse et de la
diversité qui ne couvre certes pas toute la recherche sur les caractères
statistiques du vocabulaire. Bien d’autres voies d’exploration sont évidemment
possibles et effectivement envisagées à l’heure actuelle dans les grands
laboratoires de lexicométrie, tels ceux de Saint-Cloud et de Nice. Elles
concernent les techniques de la statistique multidimensionnelle, capables
d’apporter de fructueux développements qu’il serait souhaitable d’incorporer
dans un travail comme le nôtre. Or rien de tel ne sera fait dans notre travail.
Nous nous rendons parfaitement compte de cette lacune bien regrettable.
Cela étant
dit, nous nous sommes efforcé d’aller aussi loin que faire se peut dans la
recherche de solutions aux problèmes posés. Cette préoccupation nous a conduit
à l’utilisation fréquente des modèles statistiques, en particulier ceux
proposés par les Sciences de la vie.
A vrai dire, cette approche n’est pas révolutionnaire. Les
chercheurs en Sciences humaines, les linguistes entre autres, n’ont jamais hésité
à tirer un profit maximum des méthodes
utilisées dans les Sciences de la vie. Celles-ci ont eu leur part belle dans le
développement de nos savoirs sur le mot et le vocabulaire, qu’on ne saurait
passer sous silence. Souvenons-nous que bon nombre de Pères fondateurs de la
lexicométrie classique (Zipf (1935), Simon (1955), Herdan (1958) etc.) se sont
fait publier dans un premier temps dans des revues de biologie. Depuis lors,
les Sciences de la vie n’ont jamais cessé de proposer de nouveaux outils de travail
et des thèmes de réflexion qui stimulent le développement de la lexicométrie.
L’étude des mots-thèmes de Dugast
(1981c) est fondée sur la loi de Poisson et la notion de répartition
régulière / irrégulière / aléatoire, bien
connues dans les manuels d’écologie.
Les indices de connexion
lexicale s’inspirent dans une large mesure des travaux en écologie. Les
écologistes, confrontés à la problématique de la diversité, ont développé des
mesures sophistiquées dont l’ensemble constitue ce que Sokal et al. (1963)
appellent la taxonomie numérique ou taximétrie. A
l’origine, c’était Jaccard (1908), inventeur d’un coefficient
d’association portant son nom en floristique, rebaptisé indice de connexion lexicale par Muller (1977 : 147 ) et Luong
(1994). L’indice d’indépendance lexicale de Luong (1994), que
Brunet (1994) propose comme une mesure de la connexion lexicale, a été puisé
aussi dans le livre de Sokal et al. (1963), selon les aveux de Luong.
Un grand nombre de modèles de la
croissance du vocabulaire s’inspirent des travaux sur la croissance dans le
monde du vivant. Herdan (1960) reprend le modèle de Huxley (1932). Somers
(1959) reconnaît sa dette envers Preston (1948) via le livre de Aitchison et
al. (1957) etc.
De nombreuses distributions de
fréquences lexicales ont été utilisées d’abord dans l’étude des distributions
d’espèces. Irwin (1963) constitue une source d’emprunt pour Herdan (1964),
Muller (1965), Dolphin (1979) et Ratkowski (1979). Les travaux menés par Simon
(1955), Good et al. (1956), Efron et al. (1976), Mandelbrot (1977) etc.
traitent de l’écologie et de la lexicologie en même temps.
Nous n’allons pas simplifier
abusivement les choses en identifiant la réalité linguistique à un organisme
vivant comme les linguistes du dix-neuvième siècle l’ont fait, mais nous ne
nous lancerons pas non plus dans la discussion contre la pernicieuse coupure
généralement pratiquée entre les Sciences humaines et les Sciences de la
nature. Pour nous, c’est la même logique qui prévaut, quel que soit le domaine
de la connaissance. Vocabulaire, population, peuplement, ce sont là des
systèmes destinés à évoluer dans des milieux aux ressources souvent limitées.
Dans ces conditions, certains modèles empruntés aux Sciences de la vie – et singulièrement
à l’écologie – s’appliquent aussi bien au vocabulaire.
Les modèles
en statistique lexicale, qu’ils viennent des Sciences de la vie comme ceux de
Huxley (1932), Preston (1948) etc. ou même parfois des Sciences physiques comme
celui de Mandelbrot (1953), tout en soulignant l’affinité profonde des savoirs
humains, demeurent forcément simplificateurs et imparfaits. Les modèles, si
compliqués qu’ils soient, ne sont jamais que des représentations abstraites et
réductrices de la réalité. Ils nous permettent certes d’avancer dans la
compréhension de cette réalité, mais il serait vain de vouloir accéder à une
connaissance parfaite. Leur apport, important et parfois unique, consiste
simplement à rassembler nos connaissances sur le sujet et à les formaliser en
un système d’hypothèses rigoureuses.
Quelques mots enfin sur la place des mathématiques dans
ce travail. Notre thèse traite des questions linguistiques. Pour cela, elle est
organisée autour des questions principales qui se sont posées dès notre entrée
en matière. Les démonstrations mathématiques n’ont pas leur place ici. Les
développements mathématiques seront réduits au strict minimum nécessaire à la
présentation rigoureuse des concepts et des hypothèses. Quant aux tableaux
statistiques et aux calculs numériques, nous ne les considérons nullement comme
devant supplanter la réflexion linguistique, mais nous les envisageons plutôt
comme un support objectif, et non exclusif, à une analyse des phénomènes. Tous
les faits chiffrés ne sont que des exemples, dont la liste aurait pu être
rallongée ou raccourcie à volonté et aurait conduit à composer une annexe dont
les dimensions dépasseraient le texte proprement dit, ce qui serait tout à fait
absurde quand le travail de vérification peut être effectué aisément à partir
du logiciel de consultation.
No comments:
Post a Comment