Statistique et Probabilités

STATISTIQUE ET PROBABILITES

Fréquences et probabilités: un même calcul des proportions

Fréquence n'est pas probabilité. Une fréquence est une proportion d'observations; une probabilité est la mesure d'une incertitude sur un événement. Mais d'un point de vue formel, fréquences et probabilités sont l'une et l'autre des mesures positives de masse totale unité. Cette remarque a été faite de longue date, sous des plumes diverses voire inattendues; voir les Notes de lecture Paul Valéry, Maurice Allais. Si l'on désigne par calcul des proportions les règles de calcul de cette structure mathématique commune, fréquences et probabilités relèvent d'un même calcul des proportions, ainsi que nous l'avons développé dans Rouanet (1982).
On passe des fréquences aux probabilités à l'aide du tirage au sort. Si dans une population de 100 conscrits parmi lesquels 20 "ont une instruction supérieure" on tire au sort un conscrit, la probabilité d'obtenir un individu d'"instruction supérieure" est de 20/100 (= 20%). La conversion naïve des fréquences en probabilités est une pratique langagière des plus communes. La conversion naïve inverse existe aussi: un chirurgien au lieu de dire à son patient: "L'opération a 90 pour 100 de chances de réussir", lui déclarera : "Sur 100 cas comme le vôtre, l'opération réussit 90 fois". Ces abus de langage ne tirent pas à conséquence, tant que - le paradoxe n'est qu'apparent - on s'en tient à la statistique descriptive, où n'interviennent que des fréquences.
En inférence statistique, où interviennent à la fois de véritables fréquences (proportions d'observations) et de véritables probabilités (mesures d''incertitude), la distinction entre fréquence et probabilité devient impérative. Par exemple, on connaît la fréquence dans un échantillon des votes favorables à un candidat, on s'interroge sur la valeur inconnue de la fréquence correspondante dans la population; le problème est d'évaluer la probabilité que la fréquence dans la population dépasse 1/2. Dans cette situation, parler indistinctement de fréquences (ou de probabilités) relèverait de la confusion mentale et anéantirait tout espoir de seulement poser le problème.
En somme, il est indispensable: d'une part de percevoir clairement les propriétés formelles communes aux fréquences et aux probabilités, qui constituent la syntaxe du calcul des proportions; d'autre part de dissocier, dans les constructions de l'inférence statistique, les deux sémantiques: fréquences et probabilités.
L'idée d'un même calcul des proportions intervenant sous diverses formes et interprétations dans les procédures statistiques pourrait être notre cinquième idée-force (ou notre troisième pilier).

Langage et notation non-probabilistes des variables

En calcul des probabilités on parle de "distributions de probabilité" et de "variables aléatoires". En calcul des proportions, il suffit d'omettre les qualificatifs "de probabilité" et "aléatoire". Ainsi on parlera de distribution normale, de variable normale réduite z, etc. Les notations usuelles peuvent être conservées, la lettre p étant lue non plus comme "probabilité", mais comme "proportion" : Exemple: p(z>1.96) = 0.025, qu'on lira "La proportion des valeurs de la variable normale réduite z supérieures à 1.96 est égale à 0.025, etc . Voir le chapitre Distributions in Rouanet & Le Roux (1990).

Les probabilités en inférence statistique; trois cadres d'inférence

L'insertion des probabilités en inférence statistique renvoie au problème du fondement des probabilités, et conduit à définir divers cadres d'inférence statistique. En effet, toute procédure d'inférence statistique comporte:
. un algorithme, qui stipule la marche à suivre pour pratiquer la procédure;
. un cadre de justification et d'interprétation, qui donne sens à la procédure.

Les cadres d'inférence diffèrent selon le mode d'intervention des probabilités.

. Le cadre combinatoire. L'intervention minimale consiste à ne retenir des probabilités que la syntaxe du calcul des proportions; elle définit le cadre que nous appelons combinatoire (ou ensembliste).

Les deux cadres classiques, dans lesquels la probabilité intervient avec sa sémantique, sont les suivants:

. Le cadre fréquentiste. La probabilisation porte exclusivement sur les observations, conditionnellement à des valeurs hypothétiques des paramètres; sémantiquement les probabilités sont conçues comme des fréquences "in the long run". Dans sa version radicale, le cadre fréquentiste exclut toute probabilité sur les paramètres, et partant toute probabilité des hypothèses.
Le cadre fréquentiste, mis en place à la fin du 19ème siècle, reste encore le cadre dominant de la statistique académique actuelle; mais il va à l'encontre des exigences raisonnables de la statistique des chercheurs. Pour une critique, voir le module Fondements, et notre Dialogue.

. Le cadre bayésien. La probabilisation porte aussi bien sur les observations que sur les paramètres. Le cadre bayésien est un enrichissement du cadre fréquentiste; il restitue la sémantique naturelle des probabilités et permet les probabilités des hypothèses.
Le cadre bayésien, plus ancien que le cadre fréquentiste (il remonte à Bayes et Laplace au 18ème siècle), est resté longtemps en position dominée; il connaît aujourd'hui des développements considérables. Cf. Inférence bayésienne.

Trois interprétations d'un même algorithme

Les résultats obtenus par un même algorithme peuvent être interprétés différemment selon le cadre d'inférence. Comme exemple, prenons la comparaison de deux moyennes par un t de Student. Supposons qu'on trouve une différence observée d positive, avec un seuil observé unilatéral p= .01 (la p-value). Les trois cadres d'inférence conduisent aux interprétations respectives suivantes:

. Cadre ensembliste: la proportion des échantillons (sous-ensembles d'une distribution normale) dont la différence des moyennes est supérieure à la valeur d est égale à p = .01.

. Cadre fréquentiste. Si la différence des moyennes parentes (paramètre) est nulle, la probabilité d'observer une différence supérieure à d est égale à p= .01.

. Cadre bayésien. La probabilité que la différence parente soit négative est égale à p= .01.