1. Première idée-force :
formelle - Les piliers de la
formalisation - Note complémentaire
sur la formalisation |
STATISTIQUE ET PROBABILITES Fréquences et probabilités: un même calcul des proportions Fréquence n'est pas probabilité. Une
fréquence est une proportion d'observations; une
probabilité est la mesure d'une incertitude sur un
événement. Mais d'un point de vue formel, fréquences
et probabilités sont l'une et l'autre
des mesures positives de masse totale unité. Cette remarque a
été faite de longue date, sous des plumes
diverses voire inattendues; voir les Notes de
lecture Paul Valéry, Maurice
Allais. Si l'on désigne par calcul
des proportions
les règles de calcul de cette structure
mathématique commune,
fréquences et probabilités relèvent d'un
même calcul des
proportions, ainsi que nous l'avons développé
dans Rouanet
(1982). Langage et notation non-probabilistes des variables En calcul des probabilités on parle de "distributions de probabilité" et de "variables aléatoires". En calcul des proportions, il suffit d'omettre les qualificatifs "de probabilité" et "aléatoire". Ainsi on parlera de distribution normale, de variable normale réduite z, etc. Les notations usuelles peuvent être conservées, la lettre p étant lue non plus comme "probabilité", mais comme "proportion" : Exemple: p(z>1.96) = 0.025, qu'on lira "La proportion des valeurs de la variable normale réduite z supérieures à 1.96 est égale à 0.025, etc . Voir le chapitre Distributions in Rouanet & Le Roux (1990).Les probabilités en inférence statistique; trois cadres d'inférence L'insertion des probabilités
en
inférence statistique renvoie au problème du fondement des probabilités,
et conduit à
définir divers cadres
d'inférence statistique. En effet, toute procédure
d'inférence statistique comporte: Les cadres d'inférence diffèrent selon le mode d'intervention des probabilités. . Le cadre combinatoire. L'intervention minimale consiste à ne retenir des probabilités que la syntaxe du calcul des proportions; elle définit le cadre que nous appelons combinatoire (ou ensembliste). Les deux cadres classiques, dans lesquels la probabilité intervient avec sa sémantique, sont les suivants: . Le
cadre fréquentiste.
La probabilisation porte exclusivement sur les observations,
conditionnellement à des valeurs hypothétiques
des paramètres; sémantiquement les probabilités
sont conçues comme des
fréquences "in the long run". Dans sa version radicale, le cadre
fréquentiste exclut toute probabilité sur les
paramètres, et partant toute probabilité des
hypothèses. . Le
cadre bayésien.
La probabilisation porte aussi bien sur les observations que sur les
paramètres. Le cadre bayésien est
un enrichissement
du cadre fréquentiste; il restitue la
sémantique naturelle des probabilités et
permet les probabilités des
hypothèses.
Les résultats
obtenus par un même algorithme peuvent
être
interprétés différemment selon le
cadre d'inférence. Comme exemple, prenons la
comparaison de deux moyennes par un t
de Student. Supposons qu'on trouve une différence
observée d positive,
avec un seuil observé unilatéral p= .01 (la p-value).
Les trois cadres d'inférence conduisent aux
interprétations respectives suivantes:
. Cadre ensembliste: la proportion des échantillons (sous-ensembles d'une distribution normale) dont la différence des moyennes est supérieure à la valeur d est égale à p = .01. . Cadre fréquentiste. Si la différence des moyennes parentes (paramètre) est nulle, la probabilité d'observer une différence supérieure à d est égale à p= .01. . Cadre
bayésien (moyennant une distribution initiale
non-informative). La
probabilité que la différence parente soit négative
(c'est-à-dire de sens contraire à la différence
observée) est égale à p= .01 (interprétation
laplacienne du seuil).
|
Début de page |