1.
Modèles stochastiques
d'apprentissage |
Modules en amont: Piliers de la formalisation, Statistique et Probabilités |
Vers un nouveau cadre d'inférence à part entière Vers la fin des
années 1970,
dans la ligne de mes travaux sur l'Analyse de
la variance
en statistique des chercheurs, je poursuivais
l'investigation des conditions de validité des
procédures en abordant l'échantillonnage
au hasard;
condition si redoutable que non seulement les chercheurs
expérimentalistes, mais même les referees
n'osent guère la mettre sur le tapis - condition
essentielle pourtant, dans le cadre fréquentiste. Une
petite histoire de surdoués (dialogue
à peine imaginaire) Mss X, qui suit un groupe d'enfants surdoués, constate que la performance moyenne du groupe à un test d'intelligence est nettement supérieure à la moyenne de référence d'une distribution normale étalonnée. Elle compare cette moyenne à la valeur de référence par un t de Student, et trouve un résultat très significatif. Elle conclut que la supériorité de la moyenne du groupe est bien établie. En l'absence du statisticien-maison, elle
communique sa trouvaille au statisticien de garde. Celui-ci,
d'obédience neyman-peasonnienne stricte, fronce les
sourcils et s'enquiert: Si dans la procédure familière du test de Student de comparaison d'une moyenne à une valeur donnée, on laisse de côté le cadre aléatoire usuel, en ne gardant que l'algorithme et en réinterprétant les probabilités comme des proportions d'échantillons ("échantillon" pris simplement au sens de sous-ensemble), la p-value devient la proportion des échantillons d'une distribution normale dont la moyenne est plus éloignée de la valeur donnée que la moyenne observée. En d'autres termes, au lieu de supposer ("assumption") que les données sont un échantillon au hasard d'une distribution normale, le test t ensembliste établit le degré de typicalité des données, selon la moyenne, vis-à-vis d'une distribution normale de moyenne donnée, sans la moindre "assumption". Il est clair qu'il ne s'agit pas d'un simple "changement de langage". En effet, alors que pour le test t sous le modèle aléatoire traditionnel, on est bien en peine de trouver un exemple qui soit à la fois "réel, intéressant et plausible" (pour paraphraser une boutade de D. Freedman), le test t ensembliste, comme le montre l'exemple précédent, fournit une réponse à des questions réelles, intéressantes et plausibles, dans des contextes où le modèle aléatoire est douteux voire absent. Inférence
ensembliste et procédures descriptives
Le cadre d'inférence ensembliste rapproche les procédures d'inférence ensembliste des procédures descriptives. Toutefois, bien que non-probabilistes (sémantiquement), les procédures d'inférence ensembliste ne sont pas des procédures descriptives, mais bien des procédures inductives, car elles dépendent des effectifs des données en jeu. C'est pourquoi la spécificité de l'inférence ensembliste comme domaine à part entière, chaînon entre la statistique descriptive et la statistique inférentielle probabiliste, ne pouvait être dégagée qu'une fois posée la caractérisation opérationnelle des procédures descriptives (premier pilier de la formalisation). Modèle de permutation et tests d'homogénéité Les tests d'homogénéité, sous le modèle de permutation, fournissent un autre paradigme de l'inférence ensembliste, pour lequel la dénomination de combinatoire est la plus appropriée. Dire que deux groupes de tailles n1 et n2 sont homogènes selon une caractéristique, disons la moyenne, c'est dire que l'affectation des individus aux groupes n'est pas pertinente pour cette caractéristique. D'où la procédure consistant à construire, à partir de la réunion des deux groupes, toutes les dichotomies possibles en deux groupes de tailles n1 et n2; pour chaque dichotomie, à calculer la différence des moyennes; et à situer la différence observée par rapport à la distribution des différences. Domaine de l'inférence combinatoire On peut rattacher au domaine de l'inférence combinatoire toutes les procédures algorithmiques récemment développées telles que le halfsplit, jacknife, le bootstrap..., qui sans être des procédures descriptives (au sens de la caractérisation opérationnelle), ne reposent pas (ou ne reposent pas réellement ...) sur un modèle aléatoire. Un bon exemple est celui des valeurs-tests en Analyse Géométrique des Données. En somme, les procédures combinatoires sont adaptées lorsque le modèle aléatoire est peu réaliste voire non-pertinent. Ce sont les méthodes non-paramétriques par excellence. Guide de lecture Voir Rouanet & al (1982b) et Rouanet, Bernard, Lecoutre (1986) pour une introduction au test de typicalité. Voir Rouanet, Bernard, Le Roux (1991, chapitres 4 et 5) pour une présentation détaillée des tests de typicalité et d'homogénéité. Voir Rouanet & Bert in Rouanet & al (1998, chap.4) pour une discussion conceptuelle approfondie de l'inférence combinatoire. Voir Le Roux & Rouanet (2004) pour une présentation technique et des études de cas détaillées. Sous-module en aval: Test du hasard |
Début de page |