1.
Modèles
stochastiques d'apprentissage |
ANALYSE DE LA VARIANCE ET DONNEES
STRUCTUREES Mes travaux sur
l'Analyse de la variance ont été
menés en collaboration étroite
avec mon très
regretté collègue Dominique
Lépine, chercheur au
laboratoire de Psychologie expérimentale de la Sorbonne.
J'ai raconté cette collaboration inoubliable
dans Douze ans de recherche
avec Dominique Lépine [Dominique
Lépine est aussi l'auteur d'un texte magistral
sur la place de la preuve dans le processus de recherche;
cf. Dominique
Lépine, théoricien de la dualité.]
Voir liste des Publications sur le thème Analyse de variance. Dès mon arrivée au laboratoire, en 1965, les chercheurs du laboratoire se sont tournés vers le "mathématicien-maison" pour qu'il les aide à "faire l'analyse de variance", c'est-à-dire à construire le tableau de l'ANOVA - la figure obligée de tout mémoire expérimental sérieux - avec la décomposition des sources de variation (effets principaux, intra et d'interaction, etc.) conduisant aux rapports F et aux p-values. Or les plans d'expérience utilisés par les chercheurs étaient souvent complexes; et je n'ai guère tardé à me rendre compte de l'insuffisance de la statistique mathématique pour répondre à toutes les demandes des chercheurs. Ma formation stanfordienne était pourtant la plus "uptodate" qui soit, avec le manuel de Scheffé The Analysis of Variance; mais ce manuel ne traitait que les plans les plus simples: sujets emboîtés dans des groupes ("between-subjects design"), et sujets croisés avec des traitements ("within-subjects design"); et encore, avec les lourds développements de l'approche matricielle (cf. Note complémentaire). De fait, les chercheurs ne consultaient pas les manuels de statistique mathématique, mais les copieux "cookbooks" rédigés à leur intention, où ils s'efforçaient de trouver l'"analyse-modèle" qu'il suffirait de calquer sur leurs données. Ce qu'attendaient les chercheurs, c'est que le statisticien les aide à trouver dans le cookbook la bonne "analyse-modèle". A vrai dire, le premier souci des chercheurs, c'était que leur analyse de variance ne soit pas jugée "incorrecte" par les redoutables "referees" des revues auxquelles ils soumettaient leurs travaux; d'où leurs inquiétudes rituelles: "Mes distributions ne sont pas normales; ai-je le droit de faire une analyse de variance? Ne vaudrait-il pas mieux un test non-paramétrique?" Sur certains points, j'étais en mesure de rassurer les chercheurs: "Non, le test F d'un effet fixe est robuste vis-à-vis des écarts à la normalité ; alors qu'avec un test non-paramétrique, vous perdriez la structure du plan, ce qui serait autrement plus grave". Pour d'autres questions, comme le choix des dénominateurs pour les rapports F, j'étais moins au clair. C'est ainsi que j'ai été amené à pénétrer dans la complexité des données expérimentales, et à me lancer dans deux lignes de travaux statistiques. La ligne de la robustesse: les "assumptions" revisitées Dans l'approche traditionnelle du General Linear Model, un modèle est posé au départ sur l'ensemble des données, avec tout un attirail d'"assumptions" assurant la validité des procédures d'inférence: normalité, homogénéité des variances, etc. J''ai donc été amené à "revisiter" les "assumptions" portant sur les variances; d'où un certain nombre de travaux, pour la plupart publiés dans Mathématiques en Sciences Humaines; voir Rouanet & Lépine (1974); et celui sur la condition de circularité (circularity assumption), que je vais détailler quelque peu. En scrutant les assumptions du plan S*T (sujets croisés avec traitements), plan très usuel, je m'aperçus que la condition traditionnelle de double homogénéité (des variances et des covariances), effectivement suffisante pour assurer la validité des tests, n'était nullement nécessaire, et pouvait être remplacée par une condition plus faible, que j'ai appelée circularity assumption. La publication de ce résultat dans l'article Rouanet & Lépine (1970), rédigé dans le style statistique traditionnel (formulations matricielles), m'a valu de la considération dans le milieu statistique anglo-saxon. Vers les analyses spécifiques. Dans l'article précédent, étaient introduites non seulement une condition de circularité globale, rendant valides tous les tests F, mais aussi pour chaque source de variation, une condition spécifique, moins contraignante que la condition de circularité globale, permettant une inférence valide pour cette source. Par exemple, dans un plan complexe où la condition de circularité globale est douteuse, la condition de circularité associée à l'effet principal d'un facteur peut être satisfaite, auquel cas il existe une inférence valide pour cet effet. Poursuivant plus avant cette ligne, en l'appliquant à toute source de variation exprimable à partir des facteurs du plan, j'en suis arrivé à l'idée d'inférence spécifique, applicable à toute question d'intérêt. La ligne de la formalisation En parallèle, Dominique Lépine et moi-même poursuivions une entreprise de formalisation de l'analyse de variance, que je résume ci-après. . Formalisation ensembliste, autour des deux relations élémentaires entre facteurs d'un plan d'expérience: . L''emboîtement: le facteur A est emboîté dans le facteur B si à toute modalité de AB, relation que nous avons notée A<B> "A emboîté dans B"); . Le croisement: pour chaque paire de modalités des facteurs A et B, on a au moins une observation, relation que nous avons notée A*B (lire "A et B croisés") (par croisement, nous entendons toujours le croisement complet). La formalisation ensembliste a conduit au langage des plans quasi-complets: ceux qui peuvent s'exprimer en termes des facteurs élémentaires par une formule impliquant les deux seules relations d'emboîtement et de croisement. Exemple : correspond une et une seule modalité du facteur (lire"Sujets S emboîtés dans le croisement de deux facteurs A et B et croisés avec deux autres facteurs C et D, avec C emboîté dans D": plan que nous notons S<A*B>*C<D>. . Formalisation linéaire, autour du concept formalisé de comparaison, avec la dualité entre "les données" et "les questions" (cf. deuxième pilier): voir Rouanet & Lépine (1976). Les concepts de base sont ceux de contraste et de comparaison. Dans la formalisation, un contraste sur le facteur A est un vecteur de l'espace vectoriel des mesures sur A de masse totale nulle, et une comparaison sur A est un sous-espace vectoriel de contrastes. Un protocole sur A (données numériques) est une variable sur A, l'espace des variables sur A étant le dual de celui des mesures sur A. A partir de ces concepts de base, on formalise la notion d'effet d'un facteur, puis celle de somme de carrés d'une comparaison, celles d'effet intra, noté par les parenthèses "( )"; et d'effet d'interaction, noté par le point "." De la sorte furent mises en place les pièces du "meccano" de l'analyse de variance, prêtes à être recomposées de toutes les façons. Langage des comparaisons La
combinaison des deux apports, ensembliste et
linéaire, a abouti à l'élaboration
d'un langage des
comparaisons,
permettant de "poser aux données" toutes les demandes
d'analyse exprimables en termes des facteurs du plan. Par exemple,
pour un plan de
formule S<A*B>*C<D>, on
pourra définir la
comparaison de formule A.B/d2,
désignant l'effet d'interaction
entre les facteurs A et B pour
la modalité d2 du
facteur D;
source de variation ne figurant pas dans le tableau standard, mais
pouvant être une question
d'intérêt de la recherche
(peut-être la plus importante). Notre
expérience a montré que que pour
les expérimentalistes, autant la
formalisation
pouvait apparaître "abstraite", autant le langage
des plans
et des comparaisons était d'une appréhension
intuitive. Voir l'article
Rouanet,
Lépine & al (1976).
Cette double formalisation
a abouti à une véritable reconstruction de
l'Analyse de Variance, qu'avant toute
publication j'exposai avec un enthousiasme
intrépide aux Mathematical
Psychology Meetings de Londres: voir Some algebraic aspects (1972).Le logiciel VAR3 Le logiciel VAR3 (1975), de Dominique Lépine, Henry Rouanet et Marie-Odile Lebeaux, a été la principale réalisation concrète de cette reconstruction. Dans le logiciel VAR3, l'utilisateur déclare d'abord une formule de plan, ensuite une liste de formules de demandes d'analyse. Le logiciel fournit d'une part le tableau standard, d'autre part les tests des comparaisons spécifiques. Le logiciel, implanté au CIRCE, a connu un large succès auprès des chercheurs en psychologie: en France mais aussi en Belgique, et jusqu'en Angeterre: dès 1975, Robert Baldy, ingénieur-informaticien au Psychiatry Institute de London University, l'avait implanté au centre informatique de Londres... Analyse des données structurées Dans les années 1980, les travaux sur l'Analyse de Variance ont été complétés avec mes collègues du Groupe Mathématiques et Psychologie: Bruno Lecoutre, Brigitte Le Roux et Jean-Marc Bernard. Nous avons procédé à la "greffe" des procédures bayésiennes, aux extensions multidimensionnelles, et à la mise en place de l'analyse des données structurées, c'est-à-dire à l'application de l'analyse des comparaisons aux données d'obervation, pour lesquelles les notions de facteur et de plan doivent être adaptées voire repensées. Langage d'interrogation de données (LID) et logiciel EyeLID Le langage d'interrogation de données (LID) est l'aboutissement de l'entreprise de structuration des données. Le logiciel EyeLID ("Eye" pour examen visuel des données) de Jean-Marc Bernard, Robert Baldy et H. Rouanet, qui met en oeuvre ce langage, aura été la réalisation concrète la plus marquante de ces dernières années. Une esquisse du logiciel et de ses possiblités, autour de sa caractéristique essentielle, la dérivation des protocoles. est présentée dans le module Réalisations, Logiciels, etc. EyeLID est devenu l'instrument incomparable d'analyse des données structurées, pour tous ceux qui partagent notre démarche statistique. Guide de lecture Pour une introduction notionnelle à l'Analyse des Comparaisons, voir la Préface à l'ouvrage de B. Lecoutre. Pour une introduction pratique, voir Rouanet, Lépine, Ehrlich, Marquer, Plas (1976), Bulletin de Psychologie. Pour un exposé d'ensemble, voir la référence Rouanet & Lépine, (1977); complétée par celle de Hoc (1983) et celle du numéro thématique de Bernard (1994c, Mathématiques et Sciences Humaines, téléchargeable depuis le site de la revue , Préface de H. Rouanet). Pour le logiciel EyeLID, voir Bernard, Baldy &. Rouanet (1989). Pour un article récent sur le langage des plans, voir Bernard, J.-M. & Savina Y. (2008), Retour sur la formalisation des plans expérimentaux. Bulletin de Psychologie, Tome 61 (2), n°494, 167-171. Pour un manuel anglo-saxon fortement inspiré de notre approche d'analyse des comparaisons, voir Hand & Taylor (1987) Multivariate Analysis of Variance and Repeated Measures, Chapman & Hall (partiellement téléchargeable sur le Web) |
Début de page |