PREFACE : statistiques et Statistique

[English version: 
PREFACE:  STATISTICS AND STATISTICS]

Statisticians should fit the needs of the users, not the reverse! - J.W. Tukey

Des statistiques à la Statistique

Il y a statistiques et Statistique. "Les statistiques" - familièrement: les "stats" - ce sont les données chiffrées (moyennes, pourcentages, indices de toute sorte) des mass media et qu'on rencontre aujourd'hui dans tous les secteurs possibles et imaginables: statistiques officielles (INSEE), sondages,  etc.  "La statistique" - au singulier, voire avec  la  majuscule (la "Statistique")  - c'est  la  discipline qui a pour objet les méthodes qui permettent d'analyser les données statistiques C'est de "la Statistique" que relèvent  mes travaux.

 Avant de poursuivre, évoquons deux  faits massifs qui surplombent toute analyse: d'une part, l'écrasante domination, dans la période contemporaine (de 1945 à nos jours), de la statistique anglo-saxonne; voir la statistique quasi-monopole anglo-saxon; d'autre part, le phénomène de l'hyperspécialisation, qui fragmente  une même discipline  (comme  la statistique)  en sous-spécialités isolées.


Statistique académique et statistique des chercheurs

La statistique est une métadiscipline, qui travaille sur des matériaux extérieurs à la discipline. De par sa nature-même, elle  est à la jonction de deux modes de pensée, celui des mathématiques et celui des domaines empiriques. Chez les pères fondateurs de la statistique, les deux versants étaient toujours présents; ils sont  aujourd'hui bien séparés, avec d'une part une  statistique académique, d'autre part  une statistique des chercheurs.
La statistique académique est celle qui est  enseignée dans les départements de mathématiques des universités, et les cours "théoriques" des  institutions telles que (en France) l'INSEE ou l'INSERM; cette discipline se veut une théorie déductive, et
s'auto-qualifie de "statistique mathématique", à l'instar de la physique mathématique.
La statistique des chercheurs est  celle qu'on  pratique dans les laboratoires et les études empiriques,  des sciences de la nature aux sciences sociales. La statistique des chercheurs est essentiellement normative: c'est l'instance d'administration légitime de la preuve scientifique, contrôlée par les referees des revues scientifiques. Précision:
nous disons bien statistique "des chercheurs" et non pas  "appliquée", car si en droit elle reconnaît les canons de la statistique académique, elle ne les applique guère dans les faits. 
 
Ma conviction est que tout en distinguant   les deux versants,  il faut  maintenir l'unité de la statistique (Sur les conséquences fâcheuses de l'actuelle division, voir  Une première).  Ce qui justifie la   statistique, c'est son rôle d'auxiliaire ("Hilfswissenschaft") des disciplines empiriques. La statistique des chercheurs doit guider la statistique théorique La situation idéale est celle où le statisticien participe à une recherche empirique  d'envergure,  en explicitant avec les chercheurs la problématique et  les questions qui se posent, et en déterminant les procédures statistiques, existantes ou à améliorer, capables de répondre au mieux à ces questions.  C'est en interaction avec les problèmes de recherche  que se sont dégagées  progressivement  les  idées-forces qui donnent  sens à mes travaux.
Toutes mes contributions ont tendu à construire une statistique des chercheurs autonome.

Fondements de la statistique, histoire de la statistique

La statistique est une discipline récente et en devenir, hautement dépendante des instruments de calcul.  Il n'est pas étonnant que la statistique ait eu constamment  des problèmes d'identité. A l'origine branche du calcul des probabilités, elle a failli, aux grandes heures de la Recherche Opérationnelle,  être absorbée par la "science des décisions". A l'heure actuelle, elle tendrait plutôt à devenir une annexe de l'algorithmique (domaine à coup sûr aujourd'hui plus créatif).
Les idées-forces renvoient aux  fondements de la statistique; mais cette dernière appellation évoque des travaux spécialisés, en marge  d'une discipline dont le contenu serait  "désormais bien fixé". Le statut des idées-forces, au contraire, est de susciter une restructuration  des chapitres traditionnels de la statistique.
Il en va de même pour l'histoire de la statistique, à laquelle m'ont initié G.Th. Guilbaud et B. Bru: cf. Rouanet & Bru (1994b). A l'heure d'Internet, parcourir le Journal électronique de l'histoire de la probabilité et de la statistique est pour moi un  vrai plaisir. Cependant, je l'avoue,  l'épistémologie  n'est pas mon fort. Si  l'histoire me fascine, c'est (pour reprendre une formule de Marc Ferro à propos de  l'histoire en général), "pour autant que son étude permet de comprendre les problèmes de notre temps".  Plutôt que de scruter les prémices  des tendances aujourd'hui dominantes, je cherche à (re)découvrir  des voies délaissées, que les outils du temps présent peuvent rendre praticables.
  A l'évidence,  certains  cadres théoriques ont été élaborés jadis pour  contourner l'obstacle du calcul:  par exemple le modèle normal. D'autres cadres  étaient  restés à l'état d'ébauche:   par exemple les procédures de classification, ou les modèles de permutation.  Aujourd'hui que l'obstacle du calcul est repoussé, que l'ère des tables est révolue (ou devrait l'être), on peut, on doit  privilégier, à mon sens,  une  démarche directe  pour aborder  les problèmes réels qui justifient  le recours à la statistique. Au fait, quels étaient les problèmes que cherchaient à résoudre Binet, ou Durkheim?  Qu'auraient-ils  fait s'ils avaient eu les ordinateurs, avec leurs colossales bases de données et leurs  fabuleux moyens de calcul?

Statistique en Sciences Humaines

Mes travaux ont  surtout concerné la statistique en  sciences humaines, de la psychologie aux sciences sociales, autrement dit les behavioral sciences, bordées d'un côté par les sciences bio-médicales, de l'autre par les sciences économiques. Du point de vue de la statistique, ce champ est très homogène: il y a une statistique en sciences humaines, mais il n'y a pas réellement une "statistique pour psychologues", une "statistique pour sociologues", etc.
A mon sens, la place de la statistique dans une recherche devrait être toujours conforme au schéma suivant:

Problème de recherche --> Données pertinentes --> Analyse statistique --> Résultats  statistiques  --> Conclusions de recherche
 
Les données pertinentes doivent  constituer un inventaire représentatif du domaine étudié; c'est l'exigence d'
exhaustivité au sens de Benzécri, proche de  la notion de champ chez Bourdieu. L'analyse statistique doit soit apporter une réponse aux questions de la recherche, soit montrer en quoi les données sont insuffisantes pour y répondre. Respecter ce schéma devrait faciliter l'examen critique d'une recherche,   en permettant de préciser à quel(s) niveau(x) ont pu être commises d'éventuelles bavures:  1) Des données pertinentes  ont pu être  omises; 2) l'analyse statistique effectuée est insuffisante;  3) les conclusions de la recherche  excèdent les conclusions autorisées par les résultats de l'analyse statistique  (sur-interprétation).

Dans la statistique  académique,  où les données - fussent-elles  des real life data   - ne sont  souvent invoquées que pour  illustrer des techniques, en faisant fi de toute problématique de recherche, les  contre-exemples flagrants à l'exigence d'exhaustivité abondent. Bornons-nous à évoquer un article de  Goodman (1991), qui croit pouvoir  discuter des mérites comparés des méthodes  sur un simple  tableau 4x5 de mobilité sociale, détaché de tout contexte. Dans son Commentaire, le très écouté statisticien D.R. Cox relève  avec sagacité:   «A key question concerns  how the models are to be adapted to address detailed substantive questions (…) for example, there may be further dimensions or concomitant observations on the individuals concerned.».   

Deux distinctions essentielles

Par delà la diversité des disciplines, deux distinctions sont essentielles:
 
1) Celle entre  données expérimentales (les facteurs d'intérêt sont contrôlés) et  données d'observation (les facteurs d'intérêt sont seulement observés).
 
2) Celle entre procédures descriptives (les conclusions portent sur les données) et  procédures inductives
alias d'inférence statistique (les conclusions vont au delà des données); avec en arrière-plan, le problème éternel  du rôle des probabilités en statistique.

Textes et publications
 La liste de mes textes et publications est consultable d'une part selon l'ordre chronologique, d'autre part  selon les thèmes (domaines). Certains textes sont à dominante mathématique, susceptibles d'interpeller des mathématiciens intéressés par les applications; D'autres sont des études de cas  (données réelles insérées dans une problématique),   où la démarche statistique est exposée "en situation", directement lisible par des chercheurs (pas forcément versés en mathématiques).

Organisation des modules des  rubriques "Travaux statistiques"

Ces modules  visent  à servir d'introduction aux publications.

La rubrique Idées-forces comporte les modules suivants  (avec leurs sous-modules):  Formalisation, géométriquedescriptive-inductive,   spécifique, probabilités.

La rubrique Domaines comporte les modules suivants  (avec leurs sous-modules): Modèles stochastiques, Analyse de variance (et données structurées), Inférence combinatoire, Inférence bayésienne, Analyse Géométrique des Données, Régression.

Ces rubriques  sont suivies des rubriques portant sur les réalisations:  Logiciels, Enseignement et Diffusion, et de la  rubrique Notes de lecture.

Rubrique "Personalia"

La rubrique Parcours scientifique donne des détails personnels  sur ma carrière. 

Comme indiqué dans la page d'Accueil, la rubrique Mes loisirs, avec les Feuilles du mois,  est en marge de mes travaux scientifiques. 



Sous-modules:

Hyperspécialisation.


La statistique  quasi-monopole anglo-saxon.


Une première : la statistique médicale sur la sellette



Retour à la page d'accueil

Début de page