Autour des méthodes quantitatives

De la source à la base de données

Neuf commandements et demi

Ce texte est issu de mon expérience pratique (échecs, déconvenues…) et surtout de discussions nombreuses avec différents collègues et participants de mes séminaires, en particulier Claire Zalc, Nicolas Barreyre (qui a trouvé le sous-titre) et Björn-Olav Dozo. Cette page a évidemment vocation à évoluer de façon continue, tant il est difficile d’édicter des règles générales en la matière. Ce sont juste de petits conseils, en fait… Et il reste deux commandements à trouver, donc à vos suggestions !

La situation envisagée ici est la suivante : je dispose d’une source (de n’importe quel type) ; comment passer à une base de données, c’est-à-dire, indépendamment du logiciel utilisé, à une organisation des données en lignes et colonnes ? (organisation qui permet ensuite tout traitement statistique, graphique, ou tout simplement de s’y retrouver un peu dans les données, même si on ne veut faire « que du quali »)

Il est clair que le modèle sous-jacent ici est la base de données prosopographique (une ligne par individu, une colonne par caractéristique de cet individu), que j’ai le plus souvent pratiquée. Mais si les individus sont des livres, des bibliothèques ou des institutions, cela ne change pas grand-chose.

Je conseille souvent aux débutants de fabriquer leurs bases de données en Excel (quitte à passer ponctuellement par Access pour lier plusieurs bases), parce qu’il me semble à l’expérience que c’est le logiciel le plus facile à prendre en mains pour la plupart des gens. Mais les conseils donnés ici sont applicables ailleurs, même quand je me permets de faire référence à des fonctions d’Excel.

Fondamentalement, une base de données, c’est du texte séparé par des espaces ou tabulations (entre les colonnes) et des retours chariot (entre les lignes). Vous pouvez me croire, j’en ai déjà entré en utilisant des versions préhistoriques de Word, quand je n’avais pas Excel sur mon portable. Et c’est le format qui permet à coup sûr de passer d’un logiciel de statistiques à un autre. Reste à bien choisir quoi mettre dans les lignes et dans les colonnes.

Il est très dangereux d’agréger dans une même colonne (« profession » par exemple) des données d’origines hétérogènes. En général, quelques mois ou années après, on voudra savoir d’où venait telle ou telle indication (pour la confronter à une autre, contradictoire, par exemple), et le lien avec la source sera perdu. C’est encore plus grave si la base de données doit être rendue publique (mise en ligne, par exemple).

Suggestion : faire au départ une base (ou feuille de calcul) par source, en indiquant la source soit dans les propriétés du document (Fichier/Propriétés), soit sous forme de commentaire (Insertion/Commentaire) dans la première cellule du tableau Excel, ou toute solution de ce type. Autres possibilités : faire une colonne par source (par exemple « profession selon la source 1 », « profession selon la source 2 », etc.), ou encore, si on doit avoir des sources hétérogènes dans une même colonne, recourir au commentaire (Insertion/Commentaire) pour chaque cellule, ou bien avoir à côté une deuxième colonne intitulée « Sources des informations de la colonne précédente ». Il sera toujours temps, ensuite, de créer une base de données plus synthétique à partir de tout cela. L’essentiel est de garder, quelque part, trace de l’origine de chaque donnée.

À noter qu’il en va de même si, plutôt que de travailler sur plusieurs sources hétérogènes, vous travaillez sur « la même source à plusieurs dates » (almanach, liste de membres d’une organisation…). Il faut garder trace, dans ce cas, de la date de chaque information. Par exemple, une colonne « adresse en 1825 », une colonne « adresse en 1826 », et ainsi de suite (en fait, plusieurs colonnes à chaque fois, cf. infra…).

Ces intitulés doivent être en tête de colonne, donc dans la première ligne du tableau. Ils doivent remplir une et une seule ligne.

S’ils ont l’air de déborder des cases, ne vous inquiétez pas, c’est juste une question d’affichage (vous avez droit à 256 caractères en Excel). Augmentez la largeur de la colonne ou utilisez plusieurs lignes d’affichage dans une même cellule (Atl+Entrée pour passer à la ligne à l’intérieur d’une cellule Excel).

Ne répétez pas non plus la ligne d’intitulés de place en place, sous prétexte que vous allez imprimer sur plusieurs pages. Il y a des fonctions faites pour ça.

Ne mettez pas non plus, par exemple, la désignation de la source en première ligne et les intitulés de colonnes en deuxième ligne (cf. ci-dessus pour mettre les indications sur la source ailleurs).

Le fait que la première ligne contienne les noms des variables et qu’elle soit unique (tout le reste, ce sont les données proprement dites) conditionne l’utilisation de fonctions comme le tri, le filtre ou le tableau croisé qui vont vous servir à coder, recoder et explorer vos données.

Autrefois (années 1970 par exemple), on n’avait que très peu d’espace pour entrer les données (peu de colonnes, peu de caractères par colonne) et il fallait tout de suite « coder la source » : remplacer par exemple « cardeuse de lin » par « ouvrière », ou plutôt par le code « 8 »…

Aujourd’hui, on n’a aucune raison de faire ça. Il faut donc absolument garder trace du maximum d’information fournies par la source, dans leur formulation originelle. Il sera toujours temps ensuite, généralement dans un autre fichier (ou autre feuille de calcul du même classeur Excel, ou autres colonnes de la même feuille de calcul…), de coder les informations pour les rendre plus aisément quantifiables en regroupant des intitulés voisins. L’essentiel, c’est que l’opération soit réversible (possibilité de revenir aux formulations de la source) et que le codage soit modifiable, améliorable (nécessité de faire des catégories plus ou moins détaillées selon le type de traitement, statistique ou graphique, auquel on les destine).

Cette expression empreinte de sagesse populaire recouvre une vérité profonde : il est plus facile, a posteriori, de regrouper l’information que de la diviser. Autrement dit, si vous avez fait des colonnes « M./Mme/Mlle », « nom », « prénom1 », « prénom2 », « prénom3 », « titre de noblesse », « nom de jeune fille » et « pseudonyme », par exemple, il sera toujours temps ensuite si nécessaire de créer une colonne « identifiant synthétique de la personne ». Entre-temps, vous pourrez commodément classer par ordre alphabétique de nom. De même, on a toujours intérêt à entrer une date en trois colonnes (jour, mois, année – cela évite notamment qu’Excel se précipite pour employer le format « Date », ce qui a des conséquences désastreuses pour les dates d’avant 1900), ou encore à entrer une adresse en séparant numéro, type de voie, nom de la voie, code postal (ou nom du département) et nom de la ville.

Cela paraît absurde au début, mais c’est toujours la meilleure solution à l’usage. Cela ne prend guère plus d’énergie, en fait, et cela évite de se retrouver incapable, par exemple, d’utiliser la fonction tri sur des années (eh oui, le tri se fait sur le premier caractère, donc sur le numéro du jour si vous avez entré la date dans une seule colonne). L’information contenue dans chaque colonne n’a pas besoin d’être passionnante et les colonnes ne coûtent pas cher (une feuille Excel en contient 256 et rien ne vous empêche de continuer sur une autre feuille s’il vous en faut plus, à condition d’avoir un identifiant individuel permettant de pister le même individu dans toutes ces feuilles – cf. infra). D’une part, on est parfois surpris, ensuite, de ce qui peut servir (donc pourquoi se priver d’entrer le jour ou le mois pour ne garder que l’année ?). D’autre part, il sera toujours possible de regrouper l’information plus tard (en particulier avec la fonction « Concaténer » d’Excel), en cas de besoin.

En particulier en matière de prosopographie, si la définition des colonnes du tableau, comme on vient de le voir, ne coule pas de source, on pourrait penser que le cas des lignes est plus simple : une ligne par personne physique. Or, souvent, la réalité est plus compliquée.

En effet, les informations de la source ne sont pas relatives à une personne physique dans l’absolu, mais dans un certain rôle social et/ou à une certaine date.

De plus, on a souvent envie ou besoin de relier les informations sur une personne à celles qui portent sur d’autres types d’entités : sa famille, ses œuvres (tableaux, livres…), les organisations dont elle est membre, ou encore les relations auxquelles elle prend part (ex. une ligne par mariage, par transaction marchande…), etc.

Pour cela, il faut construire des bases de données relationnelles, ce qui implique à un moment un petit passage par Access (ou logiciel similaire). Mais on peut déjà prendre le temps de réfléchir, avec un papier et un crayon, aux types d’individus concernés, ceux auxquels s’appliquent les variables qui nous intéressent. Cela gagnera du temps ensuite…

Encore une remarque qu’on vous fait toujours en début de recherche, qui vous paraît la marque d’un excès irrationnel de rigueur, que vous oubliez… et que vous vous mordez les doigts ensuite d’avoir oubliée. Oui, il faut attribuer à chaque individu (personne, mais aussi le cas échéant livre, organisation, relation…) sur lequel vous relevez des variables un identifiant univoque (un seul individu par identifiant).

Par commodité, cet identifiant est souvent un nombre. En revanche, rien n’oblige à ce que tous les nombres soient utilisés : si vous vous apercevez ultérieurement que ceux que vous avez appelés l’individu 13 et l’individu 27 sont en réalité une seule et même personne, vous recodez les deux en « 13 » (ou les deux en « 27 »), et il manquera un « 27 » (ou un « 13 »), ce qui n’a aucune importance. On pourrait tout aussi bien utiliser des lettres. Simplement, les nombres posent moins de problèmes pratiques bêtes (accents, majuscules…). Bien sûr, l’identifiant ne remplace pas la colonne « nom » (et les colonnes « prénom » et autres), qui vous permet de savoir de qui il est question : il s’y ajoute.

Pourquoi cette manie de l’identifiant ? Il permet de s’assurer qu’on trie toujours selon le même principe : par exemple différent logiciels vont ordonner différemment « Le Tonnelier » et « Lemercier » en tri alphabétique, alors que si ce sont les individus « 13 » et « 27 », ils viendront toujours dans le même ordre. Pour la même raison de non-ambiguïté, les identifiants numériques sont plus sûrs pour opérer des liens entre bases de données (si vous voulez lier la base « peintres » et la base « tableaux », la base « dirigeants » et la base « syndicats », les bases « mariage », « marié » et « mariée », par exemple).

On a vu qu’il n’y avait pas besoin de coder tout de suite, lors de la saisie. Corollaire : il faut coder plusieurs fois, de plusieurs façons (en utilisant la multiplication des colonnes, les fonctions de tri et de recopie automatique ou encore la fonction « Remplacer », c’est très simple et rapide).

Proposition : pour les choses dont vous êtes sûr qu’elles devront être codées à un moment ou un autre (ex. profession ou « qualité »), vous pouvez toujours créer, à côté de la colonne où vous entrez l’intitulé exact fourni par la source, une colonne « codage provisoire » (pas forcément remplie pour tous les individus) où vous notez vos premières idées d’intitulé plus englobant. Ensuite, vous pouvez trier selon ce « codage provisoire » pour vous rendre compte de ce qui ne va pas (intitulés trop larges ou pas assez, deux intitulés différents pour la même chose…). À ce moment-là, n’effacez pas votre colonne « codage provisoire », mais créez à côté une colonne « codage 1 » un peu plus systématique, puis répétez l’opération autant de fois que nécessaire… y compris des années après !

Autre problème lié au codage : on y pense trop souvent comme à une « partition », c’est-à-dire comme à l’action de mettre des objets dans des boîtes (chaque objet va dans une et une seule boîte). Or on peut faire des choses plus subtiles. Par exemple, on peut utiliser des codages binaires : banquier, oui ou non ; négociant, oui ou non ; industriel, oui ou non (3 colonnes). Un tel codage autorise les cumuls de qualités ou d’appartenances, souvent fréquents dans la réalité (banquier-négociant…). Il sera toujours temps ensuite, si nécessaire pour tel ou tel traitement des données, de créer une colonne « synthèse profession » selon tel ou tel principe de priorité (soit on garde les cumuls en en faisant des sortes de professions à part, soit on crée des règles de priorité du type « si on est banquier et autre chose, on est codé « banquier » »… l’imagination doit régner !).

Du coup, vous voyez bien que le codage est déjà une interprétation (il est toujours bon de le répéter). Veillez donc à choisir des intitulés aussi peu connotés que possible – ou du moins qui ne soient pas connotés de façon opposée au mode de codage que vous avez choisi. C’est facile à dire, je sais… Disons que si vous avec utilisé d’autres critères que ceux des PCS de l’INSEE, par exemple, appeler une catégorie « professions intermédiaires » n’est pas une bonne idée, car votre lecteur pensera à la PCS. Là encore, vive l’inventivité !