Séminaire ENS 2005-2006

Attention : la partie de ce site consacrée aux méthodes quantitatives n'est plus régulièrement mise à jour depuis 2007. Merci de vous référer maintenant sur ce sujet au site plus ergonomique et plus riche Méthodes quantitatives pour l'historien
.

Quelques stratégies pour le traitement quantitatif de données historiques

... c'est-à-dire explorer les données, mettre un peu d'ordre dans leur complexité pour les rendre plus intelligibles, dégager et opposer des profils, pointer des ressemblances et des dissemblances, distinguer des structures et des cas exceptionnels ; ou encore décrire une évolution en comparant des situations à plusieurs dates – tout cela pouvant conduire à des hypothèses sur des causalités.

En général, ces techniques autorisent un paramétrage très souple, et ne fournissent pas un et un seul résultat (pas de « carte à l'échelle 1 de la réalité »). Il faut en être conscient, le dire au lecteur et essayer plusieurs paramétrages.

Comptages des effectifs pour chaque modalité de chaque variable, calculs de fréquences (pourcentages), tris croisés (« tableaux croisés dynamiques »), éventuellement graphiques représentant tout cela : il faut toujours en passer par là et y revenir après des explorations plus « compliquées ». Cela inclut le fait de revenir aux cas individuels pour bien comprendre de quoi on parle (utilisation des fonctions « tri », « requête » ou « filtre » dans une base de données). Quelques conseils sur ces points ici, ici ou encore et sur le présent site.

Ne pas oublier de garder un sens des effectifs et de la significativité des écarts, par exemple en calculant systématiquement des khi-deux, en ne donnant pas trop de décimales... Comment faire ? voir http://perso.wanadoo.fr/cibois/SitePhCibois.htm et/ou http://www.u707.jussieu.fr/biostatgv/.

Données portant sur un nombre moyen ou grand d'individus (à partir de quelques dizaines), mais surtout portant sur un grand nombre de variables pour chaque individu (au moins cinq ou six, souvent bien plus). On recherche les corrélations entre variables – et les proximités entre groupes de variables et individus.

Jouer sur les paramétrages, en particulier le choix des variables actives vs. supplémentaires, le fait de projeter des individus ou groupes d'individus sur le plan factoriel.

En revenir aux données (calculs de tris croisés) et explorer les résultats chiffrés de l'analyse (poids sur chaque axe...) sans s'en tenir à une interprétation purement graphique.

Bibliographie ici.

Les objets étudiés sont des textes (mots, phrases, textes, corpus) ; pour le reste, on utilise des techniques classiques : exploration des données (comptages...), analyse factorielle (très souvent) et parfois classification automatique ou analyse en termes de réseaux.

Il faut un corpus suffisamment vaste pour que la technique apporte quelque chose ; on étudie ses contrastes internes, il faut donc un degré suffisant de comparabilité pour que la réponse ne soit pas évidente (taille des textes assez similaire, pas trop de changements massifs de sujet, d'époque, de type d'énonciation, etc.).

Ne pas hésiter à changer d'échelle (recherche de grandes classes de vocabulaire / de l'environnement d'un mot précis / de citations typiques...).

Bibliographie ici.

Données portant sur des relations entre des individus. Possibilité de traiter n'importe quel type de lien (pas seulement le « lien social »), mais nécessité de bien définir au préalable à quel(s) type(s) de lien(s) on s'intéresse. N'interdit pas (au contraire) de croiser les données sur les « liens » et sur les « attributs individuels ». Deux grands types :

  • données sur les liens immédiats autour d'une collection d'individus : analyse égocentrée (comparaison de « réseaux individuels » selon différents critères : étendue, variété, densité...).

  • données [à peu près] exhaustives sur les liens ou les non-liens entre toute une population d'individus pris deux à deux : analyse structurale (analyse à plusieurs échelles de « la structure du réseau » : centre/périphérie, hiérarchies, cliques, positions individuelles différenciées... ; comparaisons entre réseaux correspondant à différents types de liens, à différentes dates...).

Dans les deux cas, possibilité d'un travail sur de petites ou de grandes populations. Dans les deux cas, se méfier des surinterprétations possibles des graphiques. Il n'y a jamais de représentation unique : en essayer plusieurs (graphiques de plusieurs types et matrices) et les compléter par des indicateurs chiffrés (densité, centralisation, centralités des individus, etc.).

Plusieurs bibliographies sur ce site, principalement ici ; indications pratiques surtout ici.

Données portant sur des séquences (suite d'événements ou d'états, de postes occupés, etc.) se déroulant dans le temps et suffisamment complexes (possibilités d'aller et retours, de cumuls...) pour ne pas s'analyser simplement sans recours à cette technique (en termes de durée moyenne ou médiane par exemple). Peut s'appliquer à des petits ou des grands nombres d'individus.

Technique utilisant des classifications automatiques : le but est de dégager des similarités entre séquences, puis de les regrouper en grands « profils » en fonction de ces similarités. Nombreuses possibilités de paramétrage dans la définition des similarités : on n'obtient pas un classement unique, il s'agit plutôt d'un outil d'exploration, heuristique.

Bibliographie ici.

... c'est-à-dire tester la pertinence de différentes hypothèses sur les corrélations entre variables, avec l'idée d'explorer, in fine, des causalités.

Asymétrie entre une variable expliquée (caractéristique, comportement, changement d'état, résultat final...) et des variables explicatives (du moins, dont on pense qu'elles influencent d'une façon ou d'une autre la variable expliquée) : il faut savoir ce que l'on cherche à comprendre et avoir une idée a priori sur ce qui peut jouer. De ce fait, comme pour les descriptions, les résultats sont très sensibles au choix de paramètres : il n'y a pas un et un seul bon modèle, mais plusieurs, plus ou moins bien ajustés aux données, et que l'ordinateur ne fournit pas spontanément.

Notion importante : le « toutes choses égales par ailleurs » : on essaye d'isoler, de séparer, des effets « purs » de différentes variables sur la variable expliquée.

Méthodes proposant des « tests de significativité » quasi binaires (on sait, en théorie, si chaque variable joue ou non) mais qu'il ne faut pas déifier : nécessité de revenir aux données, en particulier pour comprendre l'amplitude des effets (un effet significatif peut être très faible). Ces tests supposent en général une population assez importante (souvent au moins une centaine d'individus – variable toutefois selon les méthodes) pour obtenir des résultats interprétables.

Servent à étudier les relations entre des variables quantifiables ; moins souples que les régressions logistiques (dans nombre de cas, elles ne peuvent pas s'appliquer) mais toujours utiles dans certains cas. Voir Charles H. Feinstein, Mark Thomas, Making History Count. A Primer in Quantitative Methods for Historians, Cambridge, Cambridge University Press, 2002.

En étudiant des probabilités et non pas directement des grandeurs observées, elles permettent de traiter des variables qualitatives, non quantifiables (typiquement, la variable à expliquer est binaire : réussir ou non, présenter ou pas tel trait ou comportement...).

Faire attention à ne pas commenter seulement la significativité des variables, mais aussi le sens et l'amplitude de leurs effets (utilisation des odds ratio, d'individus simulés...). Jouer sur les « modalités de référence » par rapport auxquelles les effets sont calculés. Réfléchir à la nécessité de construire des « effets croisés ».

Effectifs trop petits (moins de 100 individus, par exemple) : ne pas tester trop de variables, de toute façon on ne verra que les effets très massifs. Effectifs très grands (milliers d’individus) : baisser les seuils de significativité et travailler sur l’amplitude des effets, sans quoi tout sera « significatif ».

Bibliographie ici.

Données : relations entre les mêmes (ou presque les mêmes) personnes à différentes dates. Il faut au moins deux dates. Pas de limite inférieure au nombre de personnes ; calculs longs, donc limites supérieures vite atteintes.

But : expliquer la création, la rupture ou le changement d'orientation de liens entre les « dyades » du réseau (dyade = deux individus et leur lien ou non-lien) par des facteurs structuraux (réciprocité, transitivité...) ou liés aux attributs individuels (homophilie, plus grande attraction de certains types d'individus...).

Siena utilise la simulation, donc des mathématiques assez différentes de celles de la régression logistique, mais les résultats se lisent de façon similaire, avec les mêmes précautions d'emploi.

voir http://stat.gamma.rug.nl/siena.html

Données longitudinales : on cherche à expliquer un changement d'état (ex. se marier, obtenir un emploi...), et surtout la durée qu'il met à survenir, par d'autres variables, qui peuvent être immuables dans le temps (ex. sexe, lieu de naissance...) ou renvoyer elles-mêmes à des changements d'état, continus ou discrets (ex. âge, perte d'un emploi...).

Technique très proche de la régression logistique (mêmes conditions globales d'emploi) mais modifiée pour prendre en compte les spécificités des données longitudinales, en particulier l'évolution de la « population soumise au risque » de connaître l'événement qu'on souhaite expliquer (cette population peut changer à cause des décès, des passages dans un autre état qui interdit de connaître l'événement recherché...). Pour obtenir des résultats intéressants, ce qui compte est moins l'effectif total d'individus concernés que l'effectif de ceux qui connaissent l'événement qu'on cherche à expliquer (au moins une centaine).

Bibliographie ici.

Méthode permettant de formaliser avec une certaine rigueur des conclusions sur des hypothèses causales lorsqu'on ne dispose que d'un petit nombre de cas (de quelques-uns à quelques dizaines). Fondée sur la logique (notions de conditions nécessaires ou suffisantes, inclusions, exclusions...) et non sur les lois des grands nombres. Plus d'informations ici : http://www.compasss.org (et des articles utilisant l'AQQC, y compris en français, sont en ligne : on peut les retrouver avec « AQQC » dans un moteur de recherche !).

Mise en ligne le 23 mai 2006.