Premier pilier : Procédures descriptives 

 En statistique, il est d'usage  de distinguer selon leur visée,  "statistique descriptive"  (les conclusions ne vont pas au delà des données) et "inférence statistique" (les conclusions vont au delà des données);  mais  au niveau des procédures, la distinction reste toujours "informelle"  (Dans la "somme" de Kendall & Stuart, 1976, aucune des deux locutions ne figure à l'index des trois volumes).
 Nous avons proposé la caractérisation opérationnelle suivante (cf.  Rouanet, Le Roux, Bert, 1987, p. 27,  Le Roux & Rouanet, 2004, p. 299) des procédures descriptives:
Une  procédure descriptive est une procédure qui ne dépend pas de la taille des données; une statistique descriptive est une statistique qui peut être  obtenue par une procédure descriptive.
Autrement dit, une statistique descriptive ne  dépend que des distributions de fréquences ("relative frequencies"); si les effectifs sont doublés la statistique est invariante. Des exemples de statistiques descriptives sont la moyenne, la variance, le coefficient de corrélation.
En revanche, les statistiques de test usuelles, telles que le t de Student, le khi-deux, le rapport F de l'Analyse de variance, ou le seuil de signification observé (p-value) ne sont pas des statistiques descriptives. Si les observations d'un échantillon sont dupliquées, l'effectif passant de n à 2n: le t de student est multiplié par la racine carrée de 2, le  khi-deux est doublé, le F est doublé et la p-value diminue (pour un effet non-nul), le résultat est davantage significatif.
De fait, il est en général très simple de passer d'une statistique descriptive à une statistique de test. Par exemple, pour  un tableau de contingence, on passe de la statistique  phi-deux (carré moyen de contingence, statistique descriptive d'écart à l'indépendance) à la statistique de test khi-deux (qui teste la nullité de l'écart) par la formule  
khi-deux =  n   phi-deux  [1]
 Cette formule est la clef de l'articulation  entre  procédures descriptives et inférence statistique. Toutes les méthodes statistiques produisent avant tout des statistiques descriptives (moyenne, variance, valeurs propres, coordonnées principales...), qui peuvent, par une formule analogue à la formule [1] ci-dessus, être combinées avec les effectifs pour fournir des procédures inductives.

Intérêt de la caractérisation opérationelle
L'absence de distinction  opérationnelle entre  procédures  descriptives et inférentielles est une source de confusion constante dans l'interprétation des résultats statistiques. On interprète le khi-deux d'un tableau de contingence comme "une mesure de l'écart à l'indépendance", ou on se sert des p-values pour "comparer descriptivement" des échantillons d'effectifs différents, ce qui proprement est un non-sens. Voir le khi-deux. La confusion vient de loin. Dès  les temps héroïques,  des  statisticiens éminents signalaient, face à la  vague déferlante des  tests  de signification, la nécessité vitale de disposer de statistiques permettant  d'estimer les écarts. Voir  Mahalanobis, ou encore Guttman, qui a constamment  mis en garde à l'égard des statistiques de test qui n'estiment aucun paramètre. Ces mises en garde n'ont  guère été entendues, et sont plus que que jamais d'actualité: aujourd'hui comme naguère sévit la "significance fallacy" (écart non-significatif tenu pour écart négligeable). 
La caractérisation opérationnelle  des procédures descriptives, en donnant un statut clair à la statistique descriptive, devrait  contribuer à  couper court à ces confusions, et suggérer la démarche en deux temps: la description d'abord, l'inférence ensuite. Dans son ouvrage Pourcentages et tableaux statistiques, Que Sais-je n° 3337, 1998, PUF, Michel Novi  s'en est servi pour la classification des procédures.

Statistiques descriptives sophistiquées
 La caractérisation des statistiques descriptives est la même pour les statistiques descriptives sophistiquées  produites par  l'intermédiaire d'un  modèle paramétrique. Ainsi dans la régression linéaire, sous le modèle normal usuel, les estimations des paramètres obtenues par la méthode du maximum de vraisemblance (coefficients de régression, mais aussi variance du terme d'erreur)  sont techniquement des statistiques descriptives.  Il en va de même pour les estimations (valeurs prédites) d'une  régression logit. Ce fait  amène à poser la question: Est-il possible d'obtenir des caractérisations directes (i.e. sans passer par l'intermédiaire d'un modèle) de ces statistiques descriptives? Pour la régression linéaire, on sait depuis des siècles (Legendre)  que la réponse est affirmative:  les estimations des moindres carrés  (rappelées dans la Première idée-force) n'exigent nullement le détour par un  modèle paramétrique. Pour la régression logit,  on peut  dans la même ligne montrer  que les prédictions du modèle logit constituent un tableau logit-additif ayant les mêmes marges que le tableau initial.


                                       
  
Début de page