Premier pilier : Procédures descriptives En statistique,
il est
d'usage de distinguer selon leur visée,
"statistique
descriptive" (les conclusions ne vont pas au delà
des données) et "inférence
statistique" (les conclusions vont au delà des
données); mais au niveau des procédures,
la distinction
reste toujours "informelle" (Dans la "somme" de Kendall
& Stuart, 1976, aucune
des deux locutions ne figure à l'index des trois
volumes).
Nous
avons proposé la
caractérisation opérationnelle suivante (cf.
Rouanet, Le Roux, Bert, 1987, p. 27, Le Roux &
Rouanet, 2004, p. 299)
des procédures descriptives:
Une
procédure descriptive est une procédure
qui ne
dépend pas de la taille des données; une statistique descriptive
est une
statistique qui peut être
obtenue par une procédure descriptive.
Autrement
dit, une
statistique
descriptive ne dépend que des
distributions de
fréquences ("relative frequencies"); si les effectifs sont
doublés la statistique est invariante. Des
exemples de statistiques
descriptives sont la
moyenne, la variance, le coefficient de corrélation.
En revanche,
les statistiques de test usuelles, telles que le t de
Student, le khi-deux, le rapport F de l'Analyse de
variance, ou le
seuil de signification observé (p-value) ne sont pas
des
statistiques descriptives.
Si les observations d'un échantillon sont
dupliquées, l'effectif passant de n à 2n:
le t de student est multiplié par la racine
carrée de 2,
le khi-deux est doublé, le F est doublé
et la p-value diminue (pour
un effet non-nul), le résultat est davantage significatif.
De fait, il est en général très simple de passer d'une statistique descriptive à une statistique de test. Par exemple, pour un tableau de contingence, on passe de la statistique phi-deux (carré moyen de contingence, statistique descriptive d'écart à l'indépendance) à la statistique de test khi-deux (qui teste la nullité de l'écart) par la formule khi-deux = n
phi-deux [1]
Cette
formule est la clef de l'articulation
entre procédures
descriptives et inférence statistique. Toutes les
méthodes statistiques
produisent avant tout des statistiques descriptives (moyenne, variance,
valeurs propres, coordonnées principales...), qui peuvent,
par
une formule analogue à la formule [1]
ci-dessus, être combinées avec les effectifs pour
fournir des procédures inductives.Intérêt de la caractérisation opérationelle L'absence
de
distinction opérationnelle entre
procédures descriptives et
inférentielles est
une source de confusion constante
dans l'interprétation des résultats
statistiques.
On interprète le
khi-deux d'un tableau de contingence comme "une mesure de
l'écart à l'indépendance", ou on se
sert des p-values
pour "comparer descriptivement" des échantillons d'effectifs
différents, ce qui proprement est un non-sens. Voir le
khi-deux. La confusion vient de loin.
Dès les temps
héroïques, des statisticiens
éminents signalaient, face à la
vague déferlante des
tests de signification, la
nécessité vitale de disposer de statistiques
permettant d'estimer
les écarts. Voir Mahalanobis, ou encore Guttman,
qui a constamment mis en garde à
l'égard des
statistiques de test qui n'estiment aucun paramètre. Ces
mises en garde n'ont guère
été entendues, et sont plus que que jamais
d'actualité: aujourd'hui comme naguère
sévit la "significance fallacy"
(écart
non-significatif tenu pour écart
négligeable).
La
caractérisation opérationnelle des
procédures descriptives, en donnant un statut clair
à la statistique descriptive, devrait contribuer
à
couper court à ces confusions, et
suggérer la
démarche en deux temps: la description d'abord,
l'inférence ensuite. Dans son ouvrage Pourcentages et tableaux
statistiques, Que Sais-je n° 3337, 1998, PUF,
Michel Novi s'en est servi pour la classification des
procédures.
Statistiques
descriptives sophistiquéesLa caractérisation des statistiques descriptives est la même pour les statistiques descriptives sophistiquées produites par l'intermédiaire d'un modèle paramétrique. Ainsi dans la régression linéaire, sous le modèle normal usuel, les estimations des paramètres obtenues par la méthode du maximum de vraisemblance (coefficients de régression, mais aussi variance du terme d'erreur) sont techniquement des statistiques descriptives. Il en va de même pour les estimations (valeurs prédites) d'une régression logit. Ce fait amène à poser la question: Est-il possible d'obtenir des caractérisations directes (i.e. sans passer par l'intermédiaire d'un modèle) de ces statistiques descriptives? Pour la régression linéaire, on sait depuis des siècles (Legendre) que la réponse est affirmative: les estimations des moindres carrés (rappelées dans la Première idée-force) n'exigent nullement le détour par un modèle paramétrique. Pour la régression logit, on peut dans la même ligne montrer que les prédictions du modèle logit constituent un tableau logit-additif ayant les mêmes marges que le tableau initial. |
Début de page |