Des
statistiques à la Statistique
Il y a statistiques
et Statistique. "Les statistiques" - familièrement: les
"stats" - ce sont les données chiffrées
(moyennes,
pourcentages, indices de toute sorte) des mass media et qu'on rencontre
aujourd'hui dans tous les secteurs possibles et imaginables: statistiques
officielles (INSEE), sondages, etc. "La statistique" - au
singulier, voire
avec la majuscule (la "Statistique") - c'est la
discipline qui a pour objet les méthodes qui
permettent d'analyser les données statistiques. C'est de "la Statistique" que
relèvent mes travaux.
Avant de poursuivre,
évoquons deux faits massifs qui
surplombent toute analyse: d'une part, l'écrasante
domination,
dans la période contemporaine (de 1945 à nos
jours), de
la statistique anglo-saxonne; voir la statistique
quasi-monopole anglo-saxon; d'autre part, le phénomène de l'hyperspécialisation,
qui fragmente une même discipline
(comme la
statistique) en sous-spécialités
isolées.
Statistique académique et statistique des chercheurs
La statistique est une métadiscipline, qui
travaille
sur des matériaux extérieurs à la
discipline. De
par sa nature-même, elle est à la
jonction de deux
modes de pensée, celui des mathématiques et celui
des
domaines empiriques. Chez les pères fondateurs de la
statistique, les deux versants étaient toujours
présents;
ils sont aujourd'hui bien séparés, avec
d'une part
une statistique
académique, d'autre part une
statistique des
chercheurs.
La statistique
académique
est celle qui est enseignée dans les
départements de
mathématiques des universités, et les cours
"théoriques" des institutions telles que (en
France)
l'INSEE ou l'INSERM; cette discipline se veut une théorie déductive,
et s'auto-qualifie
de "statistique
mathématique", à l'instar de la
physique
mathématique.
La statistique des
chercheurs est
celle qu'on pratique dans les laboratoires
et les
études empiriques, des sciences de la nature aux
sciences sociales. La statistique des chercheurs est essentiellement normative: c'est
l'instance d'administration légitime de la
preuve scientifique, contrôlée par les referees
des revues
scientifiques. Précision: nous disons bien statistique
"des
chercheurs" et non pas "appliquée", car si en
droit elle
reconnaît les canons de la statistique académique,
elle ne
les applique guère dans les faits.
Ma conviction est que
tout en distinguant les deux versants, il faut maintenir l'unité de la
statistique (Sur les conséquences fâcheuses de l'actuelle division, voir Une première). Ce qui
justifie
la statistique, c'est son rôle
d'auxiliaire ("Hilfswissenschaft") des disciplines empiriques. La statistique
des chercheurs doit guider la
statistique théorique. La situation idéale
est celle
où le statisticien participe à une recherche empirique
d'envergure, en explicitant avec
les
chercheurs la problématique et les questions qui se posent, et en déterminant
les
procédures statistiques, existantes ou à
améliorer,
capables de répondre au mieux à ces questions.
C'est
en interaction avec les
problèmes de recherche que se sont
dégagées
progressivement les idées-forces
qui donnent sens à mes travaux.
Toutes mes contributions ont tendu à construire une statistique des chercheurs autonome.
Fondements de la statistique, histoire
de la statistique
La statistique est une
discipline
récente et en devenir, hautement dépendante des
instruments de calcul. Il n'est pas
étonnant que la statistique ait eu constamment
des problèmes
d'identité.
A l'origine branche du calcul des probabilités, elle a failli, aux grandes
heures
de la Recherche Opérationnelle, être
absorbée
par la "science des décisions". A l'heure actuelle, elle
tendrait plutôt à devenir une annexe de
l'algorithmique
(domaine à coup sûr aujourd'hui plus
créatif).
Les idées-forces
renvoient
aux fondements
de la statistique; mais cette
dernière appellation
évoque des travaux spécialisés, en
marge
d'une discipline dont le contenu serait "désormais
bien
fixé". Le statut des
idées-forces, au contraire, est de susciter une
restructuration
des chapitres traditionnels de la
statistique.
Il en va de
même pour l'histoire
de la statistique, à
laquelle m'ont initié G.Th. Guilbaud et B. Bru: cf. Rouanet
& Bru (1994b). A l'heure d'Internet, parcourir le Journal
électronique de
l'histoire de la probabilité et de la statistique
est pour moi un vrai plaisir. Cependant, je l'avoue,
l'épistémologie n'est pas mon fort. Si
l'histoire me fascine,
c'est
(pour reprendre une formule de Marc Ferro à propos
de l'histoire en général),
"pour autant que son étude permet de comprendre les
problèmes de notre temps". Plutôt que de
scruter les
prémices des tendances aujourd'hui dominantes, je
cherche
à (re)découvrir
des voies délaissées, que les outils du temps
présent peuvent rendre praticables.
A
l'évidence, certains cadres théoriques ont
été élaborés jadis pour contourner
l'obstacle du calcul: par exemple
le modèle normal. D'autres cadres
étaient restés à
l'état
d'ébauche: par
exemple les procédures de classification, ou les
modèles
de permutation. Aujourd'hui que l'obstacle du calcul
est repoussé,
que l'ère des tables
est révolue (ou devrait l'être), on peut, on doit
privilégier, à mon sens, une
démarche
directe pour aborder les problèmes
réels qui
justifient le recours à la statistique. Au fait,
quels
étaient les problèmes que cherchaient
à
résoudre Binet, ou Durkheim?
Qu'auraient-ils fait
s'ils avaient eu les ordinateurs, avec leurs colossales bases de
données et leurs fabuleux moyens de calcul?
Statistique en Sciences Humaines
Mes travaux ont
surtout concerné la statistique en sciences humaines,
de la psychologie
aux sciences sociales, autrement dit les behavioral sciences,
bordées
d'un côté par les sciences
bio-médicales, de l'autre par
les sciences économiques. Du point de vue de la
statistique, ce champ est très homogène: il y a une statistique en sciences humaines, mais il n'y a
pas
réellement une "statistique pour psychologues", une
"statistique
pour sociologues", etc.
A mon sens, la place de
la
statistique dans une recherche devrait être
toujours
conforme au schéma suivant:
Problème de recherche --> Données
pertinentes --> Analyse
statistique --> Résultats
statistiques --> Conclusions de recherche
Les
données
pertinentes doivent constituer un
inventaire représentatif du domaine
étudié;
c'est l'exigence d'exhaustivité au sens de
Benzécri, proche de la
notion de champ chez
Bourdieu. L'analyse
statistique doit soit apporter une réponse aux
questions
de la recherche, soit montrer en quoi les données sont
insuffisantes pour y répondre. Respecter ce
schéma
devrait faciliter l'examen
critique d'une
recherche, en permettant de préciser à
quel(s)
niveau(x) ont pu être commises d'éventuelles
bavures:
1) Des
données pertinentes ont pu être
omises; 2)
l'analyse statistique effectuée est
insuffisante; 3)
les conclusions de la recherche excèdent les
conclusions
autorisées par les résultats de l'analyse
statistique
(sur-interprétation).
Dans la statistique
académique, où les données -
fussent-elles des real
life data - ne sont souvent
invoquées que pour illustrer des techniques,
en faisant fi de toute problématique de recherche,
les contre-exemples flagrants à l'exigence
d'exhaustivité abondent. Bornons-nous à
évoquer un
article de Goodman
(1991), qui croit pouvoir discuter des mérites
comparés des
méthodes sur un simple tableau 4x5 de
mobilité
sociale, détaché de tout contexte. Dans son
Commentaire, le très écouté
statisticien D.R. Cox relève
avec sagacité:
«A key question concerns how the models are to be
adapted
to address detailed substantive questions (…) for example,
there
may be
further dimensions or concomitant observations on the individuals
concerned.».
Deux distinctions essentielles
Par delà la
diversité des disciplines, deux distinctions sont
essentielles:
1) Celle entre données
expérimentales (les facteurs
d'intérêt sont contrôlés) et données
d'observation (les facteurs d'intérêt
sont seulement observés).
2) Celle entre procédures descriptives (les conclusions
portent sur les données) et procédures
inductives alias d'inférence
statistique (les
conclusions vont au delà des données); avec en
arrière-plan, le problème
éternel du
rôle des probabilités en statistique.
Textes et publications
La liste de mes
textes et publications est consultable d'une part selon l'ordre chronologique, d'autre part selon les thèmes (domaines). Certains textes sont à dominante mathématique, susceptibles d'interpeller des
mathématiciens intéressés
par les applications; D'autres sont des études
de
cas
(données
réelles insérées dans une
problématique), où la démarche statistique est exposée "en situation", directement lisible
par des chercheurs (pas forcément versés en
mathématiques).
Organisation des modules des
rubriques "Travaux statistiques"
Ces modules visent à servir d'introduction aux publications.
La
rubrique Idées-forces
comporte les modules suivants (avec
leurs sous-modules): Formalisation,
géométrique,
descriptive-inductive,
spécifique, probabilités.
La rubrique Domaines comporte les modules suivants (avec leurs sous-modules): Modèles stochastiques, Analyse de variance (et données structurées), Inférence combinatoire, Inférence bayésienne, Analyse Géométrique des Données, Régression.
Ces rubriques sont suivies des rubriques portant sur les réalisations: Logiciels, Enseignement et Diffusion, et de la rubrique Notes de lecture.
Rubrique "Personalia"
La rubrique Parcours scientifique donne des détails personnels sur ma carrière.
Comme indiqué dans la page d'Accueil, la rubrique Mes loisirs, avec les Feuilles du mois, est en marge de mes travaux scientifiques.
Sous-modules:
Hyperspécialisation.
La statistique quasi-monopole anglo-saxon.
Une
première : la statistique médicale sur
la sellette
|