I found a very interesting work about Vocabulary in Proust's Remembrance:
"Le Vocabulaire de Proust" by Etienne BRUNET, Editions Slatkine Champion 1983. This set of three books is nothing but an extensive statistical study of the vocabulary in Remembrance: how many different words, how often ...
The author proudly claims that this study was processed on an I.B.M. computer using software that he wrote himself in PL1, Cobol, Fortran (God!) or Basic (Jesus), software that he can even send to you if you ask it...
The first book describes the results of this statistical study, whereas the two remaining books are simply dictionaries (with 569,415 entries) that describe, for each word, the page numbers where it appears. Here are for the readers of our holly PST, some striking facts I noticed.
The whole Remembrance includes 1,267,069 occurences of common words, and 42,707 occurences of names. More precisely, hereare the detailed occurences:
Swann |
Jeunes Filles |
Guermantes |
Sodome |
Prisonnière |
Fugitive |
Temps Retrouvé |
Total |
words # occurences |
176,357 |
217,281 |
237,655 |
215,179 |
164,683 |
111,162 |
144,752 |
1,267,069 |
words # distinct |
9,029 |
9,826 |
10,265 |
9,866 |
8,633 |
6,419 |
8,240 |
18,322 |
names # occurences |
4,718 |
5,469 |
9,138 |
9,534 |
5,301 |
3,530 |
5,017 |
42,707 |
names # distinct |
569 |
721 |
1,040 |
1,084 |
629 |
368 |
710 |
2,976 |
Moreover, a sentence is defined as a set of words delimited by the three signs . ? !. Given that Remembrance involves 35,677 dots (.), 2,756 exclamation marks (!) and 2,448 interrogation marks (?), there are thus
1,267,069 / (35,677 + 2,756 + 2,448) = 30,994 words per sentence in Proust's Remembrance.
As a comparison, E.Brunet gives the average length of a sentence in J.J. Rousseau and in Chateaubriand works : they equal respectively 27.71 and 22.23. Surprisingly enough, Proust's sentences are not THAT long... Note moreover that the dash - is not considered in this calculus as a sentence delimiter.
In order to determine the most characteristic words of Remembrance, E. Brunet considered a corpus of litterary works from the same era, and found that
1: Duchesse 2: Princesse 3: Baron 4: Duc and 5: Plaisir
are, compared with this corpus, the most characteristic words.
Here are, with their number of occurences, the most used words in Remembrance:
rank |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
14 |
15 |
word |
de |
que |
être |
avoir |
la |
à |
et |
ne |
je |
le |
l' |
il |
un |
les |
ce |
occurences |
73,135 |
44,093 |
33,559 |
29,833 |
28,885 |
27,468 |
25,209 |
23,620 |
21,720 |
21,652 |
19,471 |
17,963 |
17,881 |
16,234 |
15,819 |
rank |
16 |
17 |
18 |
19 |
20 |
--- |
29 |
--- |
37 |
--- |
78 |
--- |
103 |
--- |
128 |
word |
qui |
une |
pas |
elle |
en |
comme |
pouvoir |
femme |
aimer |
plaisir |
occurences |
15,644 |
14,729 |
14,583 |
14,221 |
14,202 |
7,622 |
6,286 |
2,035 |
1,451 |
1,107 |
Obviously, the most frequent words are small conjunction words as de, que ... so that I gave the first non trivial of them, namely "comme", "pouvoir" at rank 37, "femme" at rank 78 and "plaisir" at rank 128. Note the interesting mixing that can be done with these three last words.
In Remembrance, Proust has invented words. Here they are:
aboutonner |
anticaillautisme |
brouillonné |
colorable |
dormant |
désengoués |
adomestiquer |
antirévisionnisme |
cacographié |
complexement |
débarquage |
désignateur |
aérolithique |
antiseptisé |
cambronnesque |
condoléancer |
déclassant |
désignatif |
agraphie |
apatrié |
catéchismer |
contagieusement |
décommandant |
désorchestrée |
ajourer |
assouvissable |
charlatante |
contresignant |
délaisseur |
ébourrifage |
albumen |
baballe |
charlisme |
conventionalisme |
délinéamenté |
écourtement |
allumettier |
balnéation |
choquable |
copiable |
démarquant |
émietteur |
androcéphale |
barbotis |
cinématographié |
copiateur |
dématérialisant |
emmittouflement |
annihilateur |
bizarroïde |
ciroplaste |
créné |
désencombrant |
émollié |
anthémis |
bouloir |
coiffage |
crêpelage |
désenflant |
empelopsis |
encaoutchouté |
étuver |
gribiche |
infectement |
limogé |
migrainer |
encauchemardé |
ferrailleux |
grougement |
infleurissable |
linéamenté |
monténégriser |
enfarinement |
fixure |
gynophile |
insexualité |
lissage |
morphinomanie |
engrillagées |
funiculeur |
homogenéiser |
installage |
losanger |
multisonore |
enjuponnement |
galonnard |
homonymat |
instantanéisant |
louisphilippement |
musculeusement |
enrhumable |
garceur |
hypogéen |
julot |
malaxation |
nacrer |
épastrouillant |
gâtine |
inaboli |
jupière |
manoeuvreur |
napoléonide |
époilant |
géminant |
incriminateur |
jusquauboutiste |
mendéliste |
nautre |
équarissure |
golfeur |
incueillissable |
langueur |
mélancolieusement |
nervuré |
escroqueur |
gourdiflot |
inefficacement |
léonardesque |
mendelssohnien |
nervurer |
neutraliste |
patoiseur |
pollinisé |
prohébreu |
radiotélépathie |
reluqué |
ocellure |
pédalé |
postdater |
prosectomie |
réadaptant |
rétroflexion |
odontalgiste |
pépettes |
potinage |
quadrilobe |
recalage |
retrousseur |
pailleronisme |
pistant |
poudrederizé |
questation |
recroisetté |
ripailleur |
palestrinisant |
plâtrant |
préhistoriquement |
quitus |
réinventé |
routiné |
parcellé |
pointillis |
profaneur |
racoquiné |
relationné |
sabraque |
sauvoir |
striant |
traînaillant |
usable |
volapük |
scintillateur |
supplicateur |
transvertébration |
varaigne |
somnescence |
suréminence |
trimorphe |
veinure |
sorbonicole |
tamoul |
trompailler |
ventueux |
sorboniforme |
tigelé |
turnérien |
vibratilité |
sportulaire |
toppatelle |
ultralégitimiste |
vignette |
Now, here are some excerpts including these words:
... tandis que Françoise me criait: "Allons, aboutonnez voir votre paletot et filons"
-"Comment est celui qui est ancêtre de Babal ? demanda M. de Guermantes
-Vous voudriez voir sa baballe", dit Mme de Guermantes d'un air sec pour montrer qu'elle méprisait elle-même ce calembour.
Peut-être, d'autre part, en artiste sinon en corrompu, Swann eût-il en tous cas éprouvé une certaine volupté à accoupler à lui, dans un de ces croisements d'espèces comme en pratiquent les mendélistes ou comme en raconte la mythologie, un être de race différente, archiduchesse ou cocotte, à contracter une alliance royaleou à faire une mésalliance.
"Ce serait ravissant de voir notre jeune ami palestrinisant et exécutant même une aria de Bach"
Here is a new game you can play with your friends: build a sentence that uses as most as possible of these words. Example:
"Le julot ripailleur a reluqué le coiffage léonardesque de la jupière mais s'est fait catéchismer par un escroqueur jusquauboutiste et palestrinisant"
"Le golfeur turnérien était en outre un garceur retrousseur de jupières"