DOMAINES 

1. Modèles stochastiques d'apprentissage   
2. Analyse de la variance & Données structurées
3. Inférence  Combinatoire - Test du hasard
4. Inférence bayésienne - Inférence fiduciaire
5. Analyse Géométrique  des données
6. Régression

Modules en amont:  Piliers de la formalisationStatistique et Probabilités

 INFERENCE COMBINATOIRE

Vers un nouveau cadre d'inférence à part entière

 Vers la fin des années 1970, dans la ligne de mes travaux sur l'Analyse de la variance en statistique des chercheurs,   je poursuivais l'investigation des conditions de validité des procédures en abordant l'échantillonnage au hasard; condition si redoutable que non seulement les  chercheurs expérimentalistes, mais même les referees   n'osent guère la mettre  sur le tapis - condition essentielle pourtant, dans le cadre fréquentiste.
Cette investigation m'a amené à mettre en place un nouveau cadre d'inférence à part entière: le cadre combinatoire,  ou ensembliste,  méritant de figurer en amont des cadres classiques: fréquentiste et bayésien.

Une petite  histoire de surdoués (dialogue à peine imaginaire)

  Mss X, qui suit un groupe d'enfants surdoués,  constate que la performance moyenne du groupe à un test d'intelligence  est nettement supérieure à la moyenne de référence d'une distribution normale étalonnée. Elle compare cette moyenne à la valeur de référence par un  t de Student,  et trouve un résultat très significatif. Elle conclut que la supériorité de la moyenne du groupe est bien établie. 

En l'absence du statisticien-maison, elle communique sa trouvaille au statisticien de garde. Celui-ci,  d'obédience neyman-peasonnienne stricte,  fronce les sourcils et s'enquiert:
"-- Est-ce que vos  surdoués sont un échantillon aléatoire  d'une  population normale  de surdoués? 
 --  Non, pas du tout. 
-- Alors votre test n'est pas valide!
-- Comment cela? J'ai fait ce que j'ai toujours fait, et personne n'y a  jamais rien trouvé à redire! 
-- Si votre groupe de surdoués n'est pas un échantillon aléatoire d'une population, vous ne pouvez pas porter de conclusion sur la moyenne de la population des surdoués.
-- Mais je ne porte pas  de conclusion sur la moyenne d'une population de surdoués, je cherche à situer la moyenne de mes surdoués par rapport à une distribution normale de référence! 
-- Grand bien vous fasse! "

Le  test de typicalité, premier paradigme de l'inférence ensembliste

Si dans  la  procédure  familière du  test de Student de comparaison d'une moyenne à une valeur donnée, on laisse  de côté le cadre aléatoire usuel, en ne gardant que l'algorithme et en réinterprétant les probabilités comme des proportions d'échantillons ("échantillon" pris simplement au sens de sous-ensemble), la p-value  devient   la proportion des échantillons d'une distribution normale dont la moyenne est plus éloignée de la valeur donnée que la moyenne observée. En d'autres termes, au lieu de supposer ("assumption") que les données sont un échantillon au hasard d'une distribution normale, le test t ensembliste établit le degré de typicalité des données, selon la moyenne,  vis-à-vis d'une distribution normale de moyenne donnée, sans la moindre "assumption". 

Il est clair qu'il ne s'agit pas d'un simple "changement de langage".  En effet, alors que pour le test  sous le modèle aléatoire traditionnel,  on est bien  en peine  de trouver un exemple qui soit à la fois "réel, intéressant et plausible" (pour paraphraser  une boutade de D. Freedman), le test ensembliste, comme le montre l'exemple précédent, fournit une réponse à des questions  réelles, intéressantes et plausibles,  dans des contextes où le modèle aléatoire est douteux voire absent. 

Inférence ensembliste et procédures descriptives

Le cadre d'inférence ensembliste rapproche les procédures d'inférence ensembliste des procédures descriptives. Toutefois,  bien que non-probabilistes (sémantiquement), les procédures d'inférence  ensembliste  ne sont pas des procédures descriptives, mais bien des procédures inductives, car elles dépendent des effectifs des données en jeu. C'est pourquoi la spécificité de l'inférence ensembliste  comme domaine à part entière, chaînon entre la statistique descriptive et la statistique inférentielle probabiliste,   ne pouvait être dégagée qu'une fois posée la caractérisation opérationnelle des procédures descriptives (premier pilier de la formalisation).

Modèle de permutation et tests d'homogénéité

Les tests d'homogénéité, sous le modèle  de permutation, fournissent  un autre paradigme de l'inférence ensembliste, pour lequel la dénomination de combinatoire est la plus appropriée.  

Dire que deux  groupes  de tailles n1 et n2 sont homogènes selon une caractéristique, disons la moyenne, c'est dire que l'affectation des individus aux groupes n'est pas pertinente pour cette caractéristique. D'où la procédure consistant à construire, à partir de la réunion des deux groupes, toutes les dichotomies possibles  en deux groupes de tailles n1 et n2;  pour chaque dichotomie, à  calculer la différence des moyennes; et à situer la différence observée par rapport à la distribution des différences.

Domaine de l'inférence combinatoire

On peut rattacher au domaine de l'inférence  combinatoire toutes les procédures  algorithmiques récemment développées telles que le halfsplit, jacknife, le bootstrap..., qui sans être des procédures descriptives (au sens de la caractérisation opérationnelle),  ne reposent pas (ou ne reposent pas réellement ...) sur un modèle aléatoire. Un bon exemple est celui des valeurs-tests en Analyse Géométrique des Données. 

En somme, les procédures  combinatoires sont  adaptées lorsque le modèle aléatoire est peu réaliste voire non-pertinent. Ce sont les méthodes non-paramétriques par excellence.

Guide de lecture

Voir  Rouanet & al (1982b) et   Rouanet, Bernard, Lecoutre (1986) pour une  introduction au test de typicalité. Voir   Rouanet, Bernard, Le Roux (1991, chapitres 4 et 5)  pour une présentation  détaillée des tests de typicalité et d'homogénéité. Voir Rouanet & Bert in Rouanet & al  (1998, chap.4) pour une discussion conceptuelle approfondie de l'inférence combinatoire. Voir Le Roux & Rouanet (2004) pour une présentation technique et des études de cas détaillées. 

Sous-module en aval: Test du hasard

Retour à la page d'accueil

Début de page