Sur le Vocabulaire dans

La Recherche

J'ai mis la main sur un excellent ouvrage au sujet du vocabulaire utilisé dans La Recherche:

"Le Vocabulaire de Proust" par Etienne BRUNET, Editions Slatkine Champion 1983. C'est un ensemble de trois livres qui présente une analyse statistique très détaillée du vocabulaire utilisé dans La Recherche: combien de mots distincts, quelle fréquence ...

L'auteur annonce fièrement que cette étude a été réalisée sur un ordinateur I.B.M. à l'aide de logiciels qu'il a lui-même écrit dans les langages suivants: PL1, Cobol, Fortran (!) et Basic (Jesus), logiciels qu'il peut même vous anvoyer si vous lui en faites la demande...

Le premier tome décrit les résultats de l'étude statistique tandis que les deux autres tomes sont tout bonnement des dictionnaires (569,415 mots) qui donnent , en face de chaque mot, le numéro de toutes les pages et des paragraphes où il apparaît. Voici, pour les lecteurs de notre PST adoré, quelques résultats de cette étude.

Occurences

La Recherche du Temps Perdu compte en tout 1,267,069 occurences de noms communs, et 42,707 occurences de noms propres. Plus précisément, voici les détails de ces occurences:
 
Swann
Jeunes Filles
Guermantes
Sodome
Prisonnière
Fugitive
Temps Retrouvé
Total
mots

# occurences

176,357
217,281
237,655
215,179
164,683
111,162
144,752
1,267,069
noms communs

# distincts

9,029
9,826
10,265
9,866
8,633
6,419
8,240
18,322
noms propres

# occurences

4,718
5,469
9,138
9,534
5,301
3,530
5,017
42,707
noms propres

# distincts

569
721
1,040
1,084
629
368
710
2,976
De plus, une phrase est définie domme un ensemble de mots délimité par les signes . ? et !. Comme La Recherche compte 35,677 (.), 2,756 (!) et 2,448 (?), il y a donc (sortez vos calculatrices

1,267,069 / (35,677 + 2,756 + 2,448) = 30,994 mots par phrase dans La Recherche.

A tire de comparaison, E.Brunet donne les longueurs moyennes des phrases chez J.J. Rousseau et Chateaubriand : elles valent respectivement 27.71 and 22.23. De façon étonnante, les phrases de Proust ne sont donc pas SI longues... Notons par ailleurs que le tiret - n'est pas considéré ici comme un marqueur de phrase.

Les Mots les plus représentatifs

Afin de déterminer les mots les plus représentatifs de l'oeuvre de Proust, E. Brunet a considéré un corpus de mots utilisés dans les oeuvres contemporaines de celle de Proust, et voici ce qu'il a trouvé

1: Duchesse 2: Princesse 3: Baron 4: Duc and 5: Plaisir

sont, par rapport à ce corpus, les mots les plus caractéristiques dans l'oeuvre de Proust.

Les Mots les plus Utilisés

voici, avec leurs nombres d'occurences, les mots les plus utilisés dans La Recherche:
 
rang
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
word
de
que
être
avoir
la
à
et
ne
je
le
l'
il
un
les
ce
occurences
73,135
44,093
33,559
29,833
28,885
27,468
25,209
23,620
21,720
21,652
19,471
17,963
17,881
16,234
15,819
rang
16
17
18
19
20
---
29
---
37
---
78
---
103
---
128
word
qui
une
pas
elle
en
 
comme
 
pouvoir
 
femme
 
aimer 
 
plaisir
occurences
15,644
14,729
14,583
14,221
14,202
 
7,622
 
6,286
 
2,035
 
1,451
 
1,107

A l'évidence, les mots les plus utilisés sont les conjonctions, adverbes tels que de, que ... c'est pourquoi je cite ici les premiers "non-triviaux" à savoir "comme", "pouvoir" (37), "femme" (78) et "plaisir" (128). Il est à remarquer que ces trois derniers mots permettent des combinaisosn intéressantes...

Mots inventés (happaxes)

Voici enfin les mots que Proust a inventés dans La Recherche (happax):
 
aboutonner anticaillautisme brouillonné colorable dormant désengoués
adomestiquer antirévisionnisme cacographié complexement débarquage désignateur
aérolithique antiseptisé cambronnesque condoléancer déclassant désignatif
agraphie apatrié catéchismer contagieusement décommandant désorchestrée
ajourer assouvissable charlatante contresignant délaisseur ébourrifage
albumen baballe charlisme conventionalisme délinéamenté écourtement
allumettier balnéation choquable copiable démarquant émietteur
androcéphale barbotis cinématographié copiateur dématérialisant emmittouflement
annihilateur bizarroïde ciroplaste créné désencombrant émollié
anthémis bouloir coiffage crêpelage désenflant empelopsis
encaoutchouté étuver gribiche infectement limogé migrainer
encauchemardé ferrailleux grougement infleurissable linéamenté monténégriser
enfarinement fixure gynophile insexualité lissage morphinomanie
engrillagées funiculeur homogenéiser installage losanger multisonore
enjuponnement galonnard homonymat instantanéisant louisphilippement musculeusement
enrhumable garceur hypogéen julot malaxation nacrer
épastrouillant gâtine inaboli jupière manoeuvreur napoléonide
époilant géminant incriminateur jusquauboutiste mendéliste nautre
équarissure golfeur incueillissable langueur mélancolieusement nervuré
escroqueur gourdiflot inefficacement léonardesque mendelssohnien nervurer
neutraliste patoiseur pollinisé prohébreu radiotélépathie reluqué
ocellure pédalé postdater prosectomie réadaptant rétroflexion
odontalgiste pépettes potinage quadrilobe recalage retrousseur
pailleronisme pistant poudrederizé questation recroisetté ripailleur
palestrinisant plâtrant préhistoriquement quitus réinventé routiné
parcellé pointillis profaneur racoquiné relationné sabraque
sauvoir striant traînaillant usable volapük
scintillateur supplicateur transvertébration varaigne
somnescence suréminence trimorphe veinure
sorbonicole tamoul trompailler ventueux
sorboniforme tigelé turnérien vibratilité
sportulaire toppatelle ultralégitimiste vignette

Et voici quelques extraits de la Recherche où apparaissent ces happax:
 

... tandis que Françoise me criait: "Allons, aboutonnez voir votre paletot et filons"
-"Comment est celui qui est ancêtre de Babal ? demanda M. de Guermantes
-Vous voudriez voir sa baballe", dit Mme de Guermantes d'un air sec
 pour montrer qu'elle méprisait elle-même ce calembour.
Peut-être, d'autre part, en artiste sinon en corrompu,
Swann eût-il en tous cas éprouvé une certaine volupté à accoupler
à lui, dans un de ces croisements d'espèces comme
 en pratiquent les mendélistes ou comme en raconte la mythologie,
 un être de race différente, archiduchesse ou cocotte,
à contracter une alliance royale ou à faire une mésalliance.
"Ce serait ravissant de voir notre jeune ami palestrinisant
et exécutant même une aria de Bach"

Un nouveau jeu

Voici un nouveau jeu : construisez, avec vos amis, des phrases utilisant le plus d'happaxes possible. Exemple:
 
"Le julot ripailleur a reluqué le coiffage léonardesque de la jupière mais
s'est fait catéchismer par un escroqueur jusquauboutiste et palestrinisant"
"Le golfeur turnérien était en outre un garceur retrousseur de jupières"