|
1. Première idée-force : formelle - Les piliers de la formalisation - Note complémentaire sur la formalisation |
STATISTIQUE ET PROBABILITES Fréquences et probabilités: un même calcul des proportions Fréquence n'est pas probabilité. Une
fréquence est une proportion d'observations; une probabilité est la mesure d'une incertitude sur un
événement. Mais d'un point de vue formel, fréquences
et probabilités sont l'une et l'autre
des mesures positives de masse totale unité. Cette remarque a
été faite de longue date, sous des plumes
diverses voire inattendues; voir les Notes de lecture Paul Valéry, Maurice Allais. Si l'on désigne par calcul des proportions
les règles de calcul de cette structure mathématique commune,
fréquences et probabilités relèvent d'un
même calcul des proportions, ainsi que nous l'avons développé dans Rouanet (1982). Langage et notation non-probabilistes des variables En calcul des probabilités on parle de "distributions de probabilité" et de "variables aléatoires". En calcul des proportions, il suffit d'omettre les qualificatifs "de probabilité" et "aléatoire". Ainsi on parlera de distribution normale, de variable normale réduite z, etc. Les notations usuelles peuvent être conservées, la lettre p étant lue non plus comme "probabilité", mais comme "proportion" : Exemple: p(z>1.96) = 0.025, qu'on lira "La proportion des valeurs de la variable normale réduite z supérieures à 1.96 est égale à 0.025, etc . Voir le chapitre Distributions in Rouanet & Le Roux (1990).Les probabilités en inférence statistique; trois cadres d'inférence L'insertion des probabilités en
inférence statistique renvoie au problème du fondement des probabilités, et conduit à définir divers cadres d'inférence statistique. En effet, toute procédure d'inférence statistique comporte: Les cadres d'inférence diffèrent selon le mode d'intervention des probabilités. . Le cadre combinatoire. L'intervention minimale consiste à ne retenir des probabilités que la syntaxe du calcul des proportions; elle définit le cadre que nous appelons combinatoire (ou ensembliste). Les deux cadres classiques, dans lesquels la probabilité intervient avec sa sémantique, sont les suivants: . Le cadre fréquentiste.
La probabilisation porte exclusivement sur les observations,
conditionnellement à des valeurs hypothétiques
des paramètres; sémantiquement les probabilités
sont conçues comme des
fréquences "in the long run". Dans sa version radicale, le cadre
fréquentiste exclut toute probabilité sur les
paramètres, et partant toute probabilité des
hypothèses. . Le cadre bayésien.
La probabilisation porte aussi bien sur les observations que sur les
paramètres. Le cadre bayésien est
un enrichissement du cadre fréquentiste; il restitue la sémantique naturelle des probabilités et permet les probabilités des
hypothèses.
Les résultats
obtenus par un même algorithme peuvent
être
interprétés différemment selon le
cadre d'inférence. Comme exemple, prenons la comparaison de deux moyennes par un t de Student. Supposons qu'on trouve une différence observée d positive, avec un seuil observé unilatéral p= .01 (la p-value). Les trois cadres d'inférence conduisent aux interprétations respectives suivantes:
. Cadre ensembliste: la proportion des échantillons (sous-ensembles d'une distribution normale) dont la différence des moyennes est supérieure à la valeur d est égale à p = .01. . Cadre fréquentiste. Si la différence des moyennes parentes (paramètre) est nulle, la probabilité d'observer une différence supérieure à d est égale à p= .01. . Cadre bayésien. La probabilité que la différence parente soit négative est égale à p= .01. |
Début de page |