1. Question
d’exhaustivité
2.
Catalogues en-ligne utilisables et inutilisables
3. Corpus
échantillon
4.
Traitement des fichiers par TACT, logiciel d’indexation et d’interrogation
interactive des données textuelles
4.1. Termes
fréquents
4.2. Termes
complexes et mots « suspects »
4.3. Termes
peu fréquents
5.
Traitement des fichiers séparés
6.
Utilisation des moteurs de recherche pour vérifier le statut terminologique des
néologismes
7. En guise
de conclusion
1. Question
d’exhaustivité
Deux ans de la recherche ont montré qu’on ne peut pas parler de
l’exhaustivité de la liste des termes extraits de l’Internet dont il y avait
question au cours du colloque de Toronto. http://www.chass.utoronto.ca/french/foire2000/colloque/sonina.htm
En tout cas, sûrement pas, quand il
s’agit de la terminologie de la mode : la mode était toujours très changeante,
mais l’Internet l’a fait encore plus insaisissable! Le travail avec le corpus vestimentaire
plus large que celui de la chaussure a prouvé que pendant le temps nécessaire à
créer des échantillons de base et de saturation et à les traiter, le contenu des
sites web change considérablement. Comment peut-on espérer à recevoir une liste
exhaustive même pour la période limitée avec cet état des
choses?
D’autre part la comparaison des donnés
extraites des sources électroniques (catalogues en-ligne) et des celles des
sources textuelles (catalogues imprimés) permet de parler d’une exhaustivité
relative des listes électroniques. Non seulement le dépouillement du catalogue
imprimé de « Palais de la Chaussure » n’a rien ajouté à la liste reçue
des sources électroniques au cours de la recherche précédente mais la liste des
termes imprimés s’est affirmée plus pauvre et plus traditionnelle. Les
catalogues imprimés donnent l’impression d’être beaucoup plus soignés en
comparaison avec leurs confrères électroniques. Cependant, la nonchalance
orthographique des sources électronique ne peut que rendre un bon service à un
lexicologue : elle met en relief toutes les nouveautés en démontrant cet
état d’oscillation de forme des termes non-lexicalisés. En plus, les auteurs des catalogues
en-ligne semblent être beaucoup moins puristes que ceux des catalogues imprimés
et ils utilisent plus d’emprunts, ce qui reflète mieux, paraît-il, l’état actuel
de la langue.
Décidément,
il paraît qu’on ne peut parler que de la liste des termes
« électroniques » qui,
sans prétendre à être exhaustive, serait, néanmoins, suffisante à faire
une recherche sur le fonctionnement et le développement de la terminologie de la
mode vestimentaire, tout en étant plus complète et plus riche que la liste des
termes « imprimés ».
2. Catalogues
en-ligne utilisables et inutilisables
Puisque la recherche préliminaire sur l’exemple
du domaine de la chaussure a justifié l’utilisation des catalogues électroniques
comme des sources idéales pour créer le corpus-échantillon, la nouvelle
investigation a été commencée par la prospection des catalogues convenables en
utilisant les méthodes élaborées en l’an 2000.
Comme pendant la recherche précédente, beaucoup de sites se sont montrés
peu commode ou même inutilisable pour une recherche terminologique mais pour
d’autres raisons. Tel est le site Promod http://www.promod.com/odyssee/src/home.asp?lg=FR&ck=o
qui semble être commode pour acheter en-ligne grâce à son moteur de recherche,
mais qui n’offre que des images comme résultat. Pour obtenir le nom et la
description de chaque modèle il faut cliquer sur chaque image ce qui prend trop
de temps en comparaison avec des sites qui procurent de brèves descriptions pour
chacun de plusieurs vêtements représentés sur la même page et, donc, permettent
de copier plusieurs termes à la fois. Par exemple, le catalogue de la
Redoute offre le plus souvent une page de neuf images de vêtement
accompagnées de leurs noms, de courtes descriptions de leurs traits
caractéristiques, de leur marque et prix : http://www.laredoute.fr/redoutefr/sBoutique/1,1170,,00.html
Le
catalogue Quelle http://www.quelle.fr/default_femmes.asp
souvent permet de copier à la fois plus de 60 descriptions qui ne contiennent
que juste ce qu’il faut pour une recherche terminologique (même pas de marque et
pas de prix!) – « Le tailleur-jupe bi-stretch se fait remarquer » -
mais, malheureusement, les vêtements ne sont pas classés par le produit mais
plutôt par le style ou par usage – Détente, Maternité, Ville, Lingerie-Nuit,
Soirée, etc. – ce qui fait ce catalogue inutilisable pour la création des
fichiers séparés pour chaque type de vêtement « vestes »,
« jupes », « pantalon »… Rien n’est parfait dans ce monde
virtuel!
3. Corpus échantillon
Finalement,
six catalogues électroniques ont été choisis pour la création de
corpus-échantillon de base, plus catalogue Quelle pour corpus de
saturation :
Damart (France +
USA +GB)
La Redoute
(moteur de recherche : donne une liste de produits)
http://www.laredoute.fr/redoutefr/sBoutique
www.lamodefrancaise.tm.fr/Laredoute/60-70/mes/marques/
www.lamodefrancaise.tm.fr/Laredoute/70-80/mes/graphisme/
Trois
Suisses (rubriques, pages courtes – 6 items)
Quelle
(allemand + français France)
http://www.quelle.fr/default_femmes.asp
Saint James
(France, bilingue)
http://www.saint-james.fr/index.asp
Sport
village (bilingue, mais court)
http://www.sports-village.com/frdef/_clic2.cfm?affiche_types=0&categorie_id=251
Camaïeu
(français France)
Le corpus
échantillon de base a été créé à partir des catalogues en ligne cités
ci-dessus : ce corpus se compose du fichier spécial pour les termes
génériques et des fichiers séparés pour chaque terme générique. La création de
ces fichiers séparés était possible grâce à l’existence des rubriques spéciales
pour des vêtements principaux dans la plupart des catalogues électroniques ce
qui permettait d’extraire des termes de chaque sous-arbre terminologique
séparément. Les données des catalogues comme Quelle qui ne classifient pas leur
marchandise selon le produit, ont constitué le corpus échantillon de saturation.
Ce corpus servira à vérifier la plénitude des données du corpus échantillon de
base.
4.
Traitement des fichiers par TACT, logiciel d’indexation et d’interrogation
interactive des données textuelles
Les tables des matières des catalogues en-ligne qui classifient leur
marchandise par le produit ont été copiées-collées dans un fichier spécial pour les termes
génériques. (Generi.doc) Ce fichier traité par le TACT a permis
de qualifier certains termes comme génériques et d’autres comme utilisés
occasionnellement comme tels. Deux critères principaux ont été utilisés :
fréquences et distribution. Si un terme se rencontre dans les tables des
matières de deux catalogues différents au moins, il peut être reconnu générique
pour le groupement des catalogues choisis, et, puisque ces catalogues sont
considérés comme corpus-échantillon pour la terminologie vestimentaire
contemporaine, pour cette terminologie en général.
Le dépouillement des sept catalogues choisis pour la recherche a donné 24
courtes listes des mots utilisés pour nommer des « rayons » virtuels
des ventes. Chacun des catalogues utilisables de ce point de vue en a donné au
moins trois : pour les vêtements de femme, pour les vêtements d’homme et
pour les vêtements d’enfant. Après être soumis à l’opération de TACT procurant
une liste de mots complète [complete word-list] le fichier contenant ces courts
inventaires a été transformé en un long répertoire
(GENERI.LST) avec les fréquences affichées à droite.
4.1. Termes
fréquents
Les termes affirmant la fréquence plus haute
que 3 peuvent être reconnus comme génériques immédiatement puisque évidemment
ils ont été utilisés dans les tables de matière de plus d’un catalogue. Tels
sont les termes :
accessoires . . . . . . . .
8
bermudas. . . . . . . . . .
8
blouson . . . . . . . . . .
4
blousons. . . . . . . . . .
7
cardigans . . . . . . . . .
4
chaussettes . . . . . . . .
4
chaussures. . . . . . . .
.15
chemise . . . . . . . . . .
4
chemises. . . . . . . . . .
6
chemisiers. . . . . . . . .
6
corsaires . . . . . . . . .
4
jeans . . . . . . . . . . .
4
jupes . . . . . . . . . . .
7
lingerie. . . . . . . . . .
7
maillots. . . . . . . . . .
6
manteaux. . . . . . . . . .
4
pantalon. . . . . . . . . .
5
pantalons . . . . . . . .
.11
parka . . . . . . . . . . .
1
parkas. . . . . . . . . . .
6
polo. . . . . . . . . . . .
3
polos . . . . . . . . . . . 9
pull. . . . . . . . . . . .
5
pulls . . . . . . . . . . .
9
pyjamas . . . . . . . . . .
5
robes . . . . . . . . . . .
9
sac . . . . . . . . . . . .
3
sacs. . . . . . . . . . . . 2
short . . . . . . . . . . .
3
shorts. . . . . . . . . . .
7
sweat . . . . . . . . . . .
4
sweats. . . . . . . . . . .
6
sweat-shirts. . . . . . . . 2
tee-shirt . . . . . . . . .
6
tee-shirts. . . . . . . . .
2
t-shirts. . . . . . . . . .
4
veste . . . . . . . . . . . 4
vestes. . . . . . . . . . .
4
Pour chacun de ces termes un fichier séparé a
été créé. La fréquence affichée à droite à aidée beaucoup en montrant combien de
rubriques contenant les descriptions des modèles concrets de chaque vêtement il
fallait chercher dans les catalogues. Par exemple, puisque le terme
« veste(s) » montre la fréquence 4+4=8 il faut que son fichier
contienne les résultats du dépouillement de 8 rubriques, et cela ne vaut pas la
peine d’en chercher plus dans ces catalogues. Le fichier dans lequel les tables
de matière ont été copiées-collées a aussi facilité ce travail.
4.2. Termes complexes
et mots « suspects »
Certains termes de la liste de fréquences
apparaissaient douteux : ils semblaient être déplacés parmi les prétendants
au statut générique ou paraissaient être composants des termes complexes. Il
fallait bien vérifier les contextes des mots fréquents comme « bain »,
« nuit », « ville » qui sont définitivement des parties des
termes complexes, ainsi que des mots peu fréquents mais évidemment déplacés
comme « coats » or « shirts ».
Chaque
terme « suspect » a été interrogé à l’aide de TACT du point de vue de
ses contextes – opération facile et immédiate – le simple appui sur les touches
‘insérer’ et ‘entrer’ pendant le parcours de la liste des fréquences offre
instantanément toutes les distributions du terme en question.
Les anglicismes « coats » et « shirt » semblent être vraiment inapproprié dans la liste extraite des tables des matières – Pourquoi utiliserait-on un mot anglais au lieu des beaux français « manteau » et « chemise »? – leurs contextes expliquent tout immédiatement : il s’agit des termes « duffle coats » et « tee shirt » écris sans trait d’union.
Des quinze occurrences
(Chaussures.LST) du terme « chaussures » sept fois il se
rencontre seul, trois fois dans le contexte « Chaussures de sport »,
deux fois comme « Chaussures Loisirs », encore deux fois comme
« Chaussures ville » et une fois comme « Chaussures
Running ». Cependant, aucun groupe de mots ne peut pas être ajouté à la
liste des termes génériques : toutes les occurrences de « chaussures
de sport » et « chaussures ville » viennent du même catalogue 3suisses –
celui-là des rubriques Femme, Sport, Bébé, celui-ci de celles Homme, Garçon et
filles; les deux groupes « chaussures loisir » proviennent du
catalogue St-James des rubriques Freestyle et Ville.
Le terme « lingerie-nuit » listé
après « lingerie » incite à vérifier les contextes de celui-ci :
ce qui démontre que de ces sept occurrences il est isolé trois fois et quatre
fois il forme le groupe « lingerie de nuit » qui doit être ajouter à
la liste des termes génériques. Le mot « maillots » apparaît cinq fois
comme « maillots de bain » et une fois comme « maillots de
corps », donc, il s’agit du terme « maillots de bain » et non de
celui « maillots ».
Une astuce trouvée au cours de la
recherche : pour repérer tous les termes complexes formés à l’aide de la
préposition de il suffit de demander à TACT à afficher tous les contextes de « de »
(De.LST) listé avec la
fréquence de 20 – Et voilà, ils sont tous sur la même page. Ce qui permet de
vérifier la plénitude de la liste des termes complexes encore une
fois.
4.3. Termes peu
fréquents
Les termes qui affichent la fréquence 2 ou 3 ont été examinés du point de
vue de leurs contextes et de leur distribution.
caleçons.
. . . . . . . . . 2
caracos . . . . . . . . . .
3
casquette . . . . . . . . .
2
ceintures . . . . . . . . .
2
chaussant . . . . . . . . .
2
chaussants. . . . . . . . .
1
chaussons . . . . . . . . .
2
collants. . . . . . . . . .
2
culottes. . . . . . . . . .
2
ensembles . . . . . . . . .
3
pantacourt. . . . . . . . .
2
pantacourts . . . . . . . .
1
polaire . . . . . . . . . . 3
slips . . . . . . . . . . .
2
sous-pull . . . . . . . . . 2
sous-vêtements.
. . . . . . 3
soutiens-gorge. . . . . . .
2
sur-chemise . . . . . . . .
1
surchemises . . . . . . . .
1
surfwear. . . . . . . . . .
2
survêtement
. . . . . . . . 2
survêtements.
. . . . . . . 1
tailleurs . . . . . . . . .
3
tops. . . . . . . . . . . . 2
Parfois les
contextes identiques des deux ou trois occurrences du terme sont suffisants pour
voir que tous les deux ou tous les trois proviennent du même catalogue. Dans ce
cas le mot se trouve éliminé immédiatement des prétendants à être inclus dans la
liste des termes génériques. Dans les cas moins évidents, il faut revenir au
fichier des tables des matières pour vérifier la distribution et garder les
termes qui ont été mentionnés dans deux catalogues différents. Il est suffisant
de voir que dans un catalogue le terme en question est mentionné une fois
seulement pour arrêter la recherche de ces autres distributions – cela va de soi
que la deuxième fois il se rencontre dans un autre catalogue électronique. C’est souvent le cas des vêtements
exclusivement féminins, comme « caraco » qui ne peut se rencontrer que
dans le rayon « femme ». Par contre, des vêtements unisexes à la
fréquence 2 se prouvent très souvent provenant du même catalogue, comme
« chaussons » ou « sous-pull » qui sont cités sous la
rubrique Femme et sous celle Homme dans la table des matières du catalogue
Damart qui se spécialise sur les vêtements confort et, donc, offre un rayon
entier des chaussons et des sous-pulls qui ne sont pas tellement values par
d’autres sociétés de vente. La même distribution caractérise le terme
« sur-chemise » ou « surchemises » : malgré leur
orthographe et leur forme grammaticale différentes les deux variantes
proviennent des rubriques Homme et Femme du même catalogue Damart. Les deux
variantes « chaussant » et « chaussants » proviennent du
catalogue la Redoute mais des rubriques Homme et Sport, ce qui réaffirme le fait
que les catalogues en-ligne ne sont pas trop soignés du point de vue de
l’orthographe ou de l’uniformité. Ils ne sont trop puristes non plus :
l’anglicisme « tops » a été employé dans deux catalogues, La Redoute
et 3 Suisses, et, donc, a été reconnu comme terme
français.
Finalement, la liste ci-dessous a été réduite à
une liste plus courte des termes qui peuvent être inclus dans la liste des
termes génériques :
caleçons.
. . . . . . . . . 2
caracos . . . . . . . . . .
3
ensembles . . . . . . . . .
3
pantacourt. . . . . . . . .
2
pantacourts . . . . . . . .
1
sous-vêtements.
. . . . . . 3
survêtement
. . . . . . . . 2
survêtements.
. . . . . . . 1
tailleurs . . . . . . . . .
3
tops. . . . . . . . . . . . 2
Certains termes avec la fréquence 2 ont été éliminés de la liste pour la
seule raison que leurs rubriques n’offrent pas beaucoup de matériel pour la
création du fichier séparé : les termes comme « slip »,
« culotte », « soutiens-gorge » et leurs dépendants ont été
copiés dans le fichier « lingerie » ou « sous-vêtements »,
comme le terme « ceintures » dans le fichier
« accessoires ». Ainsi était le destin de tous les autres termes qui
ont démontré la fréquence faible et qui ne se sont rencontrés que dans un
catalogue : leurs « rayons » ont été copiés dans les fichiers de
leurs hyperonymes. D’autre part le seul fait que ces termes ont été utilisés
pour nommer les rubriques des catalogues peut être suffisant pour reconnaître le
statut terminologisé ou lexicalisé des anglicismes, puisque ce fait veut dire
qu’ils sont considérés comme absolument compréhensible pour les acheteurs
francophones.
5. Traitement des
fichiers séparés
Tous les fichiers séparés ont été traités par TACT de la même manière que
le fichier des termes génériques qui était choisi comme exemple pour cette
communication virtuelle pour la raison d’être le plus court et contenant des
termes largement connus. Pour le traitement des fichiers séparés de chaque terme
générique l’opération de contextualisation a été la plus importante : elle
permettait de repérer des termes complexes qui décris des modèles concrets des
vêtements et constituent la plupart des termes de la mode.
6. Utilisation des moteurs de recherche pour vérifier le statut terminologique des néologismes
Les néologismes – comme pantacourt,
pantailleur – ont été examinés du point de vue de leur
terminologisation à l'aide de l'exploitation des moteurs de recherche (google,
yahoo) et cette épreuve basé sur le matériel « dilué » a permis de reconnaître
pour certains termes leur caractère terminologique confirmé par un grand nombre
d’occurrences dans des documents de nature différente. Par exemple,
pantacourt est définitivement un terme parce que les moteurs de
recherche donnent un grand nombre de résultats : Le 28 janvier 2002, Google
- 518, Yahoo – 144. Pantailleur ne peut être considéré que comme
un canadianisme pas encore terminologisé, parce que les résultats de recherche
sont beaucoup plus modestes : Google et Yahoo – 2 (les deux viennent de
sites canadiens : une page d’un magazine de mode québécois et l’autre d’une
société de vente canadienne – http://www.multimania.com/dodue/mode/additionelle.htm
;
http://www.finds-stores.com/lauracanada/fr/inthespotlight/Holiday_2001.pdf)
7. En guise de
conclusion
Comme pendant la recherche précédente, l’Internet a rendu un grand
service pour la constitution du corpus échantillon des termes de la mode et le
logiciel TACT a beaucoup facilité le traitement de ce corpus pour en créer une
base de données.
Deux opérations procurées par ce logiciel TACT se sont montrées les plus importantes pour la création des bases de données : l’une donne la liste des termes avec leur fréquence, l’autre cite toutes les occurrences du terme en question avec ses contextes.
La première opération est utile pour relever
des termes simples génériques, elle transforme des documents contenant des
descriptions de vêtements copiées-collées en vrac en une longue colonne de mots
avec leurs fréquences affichées à droite. Cette opération est surtout applicable
aux documents qui contiennent des informations retirées des tables des matières
des catalogues ou des sources qui n’offrent pas de possibilité à choisir un type
de vêtement concret, comme « veste » ou « pantalon » par
exemple, mais proposent des pages comme « en ville » ou
« sport/loisir » englobant toutes sortes d’habillements
correspondants.
La deuxième opération est absolument nécessaire pour repérer des termes complexes. Les documents contenant des données spécialisées concernant un seul type de vêtement, comme par exemple « veste », se retrouvent modifiés par TACT en une longue « page » dont le centre est occupé par la colonne qui ne répète sur chaque ligne que l’hyperonyme « veste » en question, à gauche et à droite de cette colonne toutes les cooccurrences de l’hyperonyme sont citées – cinq mots de chaque coté. Ce type de document facilite beaucoup le travail de repérage et de comptage des termes complexes.
S. Sonina,
(University of Toronto)
Toronto, 17 mai 2002