DOMAINES 

1. Modèles stochastiques d'apprentissage   
2. Analyse de la variance & Données structurées
3. Inférence  Combinatoire - Test du hasard
4. Inférence bayésienne - Inférence fiduciaire
5. Analyse Géométrique  des données
6. Régression

ANALYSE DE LA VARIANCE ET DONNEES STRUCTUREES


Mes travaux sur l'Analyse de la variance ont été menés  en collaboration étroite avec mon très regretté collègue Dominique Lépine, chercheur au  laboratoire de Psychologie expérimentale de la Sorbonne. J'ai raconté cette collaboration inoubliable  dans  Douze ans de recherche avec Dominique Lépine [Dominique Lépine  est aussi l'auteur d'un texte magistral sur la  place de la preuve dans le processus de recherche; cf. Dominique Lépine, théoricien de la dualité.]
Voir liste des Publications sur le  thème Analyse de variance.

 Dès mon arrivée au laboratoire, en 1965,  les chercheurs du laboratoire se sont tournés vers le "mathématicien-maison" pour qu'il les aide à  "faire l'analyse de variance", c'est-à-dire à construire le tableau de l'ANOVA  -  la figure obligée de tout mémoire expérimental sérieux
-  avec la décomposition des sources de variation (effets principaux, intra et d'interaction, etc.) conduisant aux rapports F  et aux p-values. Or les  plans d'expérience utilisés par les chercheurs étaient souvent complexes;  et  je  n'ai guère tardé à me rendre compte de l'insuffisance de la statistique mathématique  pour répondre à  toutes les demandes des chercheurs. Ma formation stanfordienne était pourtant la plus "uptodate" qui soit, avec le manuel  de Scheffé The Analysis of Variance; mais ce manuel ne traitait que les plans les plus simples: sujets emboîtés dans des groupes ("between-subjects design"),  et sujets croisés avec des traitements ("within-subjects design"); et encore, avec les lourds développements de  l'approche matricielle  (cf.  Note complémentaire).
De fait, les chercheurs ne consultaient pas les manuels de statistique mathématique, mais  les copieux  "cookbooks" rédigés à  leur intention, où ils s'efforçaient de trouver l'"analyse-modèle"  qu'il suffirait de calquer sur leurs données. Ce qu'attendaient  les chercheurs, c'est que le statisticien  les aide à trouver dans le cookbook  la bonne "analyse-modèle".  A vrai dire, le premier  souci  des chercheurs, c'était que leur analyse de variance ne soit pas jugée  "incorrecte" par les redoutables "referees" des revues auxquelles ils soumettaient leurs travaux; d'où leurs inquiétudes rituelles:  "Mes distributions ne sont pas normales; ai-je le droit de faire une analyse de variance? Ne vaudrait-il pas mieux  un test non-paramétrique?" Sur certains points, j'étais en mesure de  rassurer les chercheurs: "Non, le test F d'un effet fixe  est  robuste vis-à-vis des écarts à la normalité ; alors qu'avec un test non-paramétrique, vous perdriez la structure du plan, ce qui serait  autrement  plus grave". Pour d'autres questions, comme le choix des  dénominateurs pour les rapports F, j'étais moins au clair.
C'est ainsi que j'ai été amené  à pénétrer dans  la complexité des données expérimentales,  et à me lancer dans deux lignes de travaux statistiques. 

La ligne de la robustesse: les "assumptions"  revisitées
 Dans l'approche  traditionnelle du General Linear Model, un modèle est posé au départ sur l'ensemble des données,  avec tout un  attirail d'"assumptions"  assurant la validité des procédures d'inférence:  normalité, homogénéité des variances, etc. J''ai donc été amené à "revisiter"  les "assumptions" portant sur les variances; d'où un certain nombre de  travaux,  pour la plupart  publiés dans Mathématiques en Sciences Humaines; voir Rouanet & Lépine (1974); et celui sur  la condition de circularité (circularity assumption), que je vais détailler quelque peu.
En scrutant les assumptions du plan S*T  (sujets croisés avec traitements), plan très usuel, je m'aperçus que la condition traditionnelle de double homogénéité   (des variances et des covariances),   effectivement  suffisante pour assurer la  validité des tests,  n'était nullement nécessaire, et pouvait être remplacée par une condition plus faible, que j'ai appelée  circularity assumption. La publication de ce résultat dans l'article
Rouanet & Lépine (1970), rédigé dans le style statistique traditionnel (formulations matricielles), m'a valu de la considération dans le milieu statistique anglo-saxon.

Vers les analyses spécifiques.  Dans  l'article précédent, étaient introduites non seulement une condition de circularité globale, rendant valides tous les tests F, mais aussi  pour chaque source de variation,  une condition spécifique,  moins contraignante que la condition de circularité globale, permettant une inférence   valide pour  cette source. Par exemple, dans un plan complexe où la condition de circularité globale est douteuse, la condition de circularité associée à l'effet principal d'un facteur peut être satisfaite, auquel cas il existe une inférence valide pour cet effet. 
Poursuivant  plus avant  cette ligne, en l'appliquant à   toute source de variation exprimable à partir des facteurs du plan, j'en suis arrivé  à l'idée d'inférence spécifique, applicable 
à toute question d'intérêt.

La ligne de la formalisation
En parallèle, Dominique Lépine et moi-même  poursuivions une entreprise de formalisation de l'analyse de variance,  que je résume   ci-après.

 . Formalisation ensembliste,  autour  des deux relations élémentaires entre facteurs d'un plan d'expérience:
       . L''emboîtement: le facteur A est emboîté dans le facteur B si à toute modalité de AB, relation que nous avons notée  A<B> "A emboîté dans B");  
     . Le croisement: pour chaque paire de modalités des facteurs A et B, on a au moins une observation, relation que nous avons notée  A*B (lire "A  et B croisés") (par croisement, nous entendons  toujours le croisement complet).
La formalisation ensembliste a conduit au langage des plans quasi-complets: ceux qui peuvent s'exprimer en termes des facteurs élémentaires par une formule impliquant les deux seules relations d'emboîtement et de croisement. Exemple :
 correspond une et une seule  modalité du facteur (lire"Sujets S emboîtés dans le croisement de deux facteurs A et B  et croisés avec deux autres facteurs C et D, avec emboîté dans D": plan  que nous notons  S<A*B>*C<D>.

. Formalisation linéaire,  autour du concept formalisé  de comparaison,  avec  la dualité  entre "les données" et "les questions" (cf. deuxième pilier): voir   Rouanet & Lépine (1976).  Les concepts de base sont ceux de contraste et de comparaison. Dans la formalisation, un contraste sur le facteur est un vecteur de l'espace vectoriel  des  mesures  sur A de masse totale nulle, et une   comparaison  sur  A est un sous-espace vectoriel de contrastes. Un protocole sur A  (données numériques) est une variable sur A,  l'espace des variables sur  A  étant  le dual de  celui  des mesures sur A. A partir de ces concepts de base, on formalise la notion d'effet d'un facteur, puis celle de somme de carrés d'une comparaison, celles d'effet intra, noté par les parenthèses "( )";  et d'effet d'interaction, noté par le point  "." De la sorte furent mises  en place  les pièces  du "meccano"  de l'analyse de variance, prêtes  à être recomposées
  de toutes les façons.

Langage des comparaisons

La combinaison des deux apports, ensembliste et linéaire, a abouti à l'élaboration d'un langage des comparaisons, permettant de "poser aux données" toutes les demandes d'analyse  exprimables en termes des facteurs du plan. Par exemple,  pour un  plan  de formule S<A*B>*C<D>, on pourra définir la comparaison de formule A.B/d2, désignant l'effet d'interaction entre les facteurs A et pour  la modalité d2 du facteur  D; source de variation ne figurant pas dans le tableau standard, mais pouvant être une  question d'intérêt de la recherche (peut-être la plus importante). Notre expérience a montré que que pour les expérimentalistes, autant la  formalisation  pouvait apparaître "abstraite", autant le  langage des plans et des comparaisons était d'une appréhension intuitive. Voir l'article Rouanet, Lépine & al (1976).
Cette double formalisation a abouti à une véritable reconstruction de l'Analyse de Variance, qu'avant toute publication   j'exposai avec un enthousiasme intrépide aux Mathematical Psychology Meetings de Londres:   voir Some algebraic aspects (1972).

Le logiciel VAR3

Le logiciel VAR3 (1975), de Dominique Lépine, Henry Rouanet et  Marie-Odile Lebeaux, a été la  principale  réalisation concrète de cette reconstruction. Dans  le logiciel VAR3, l'utilisateur déclare   d'abord  une formule de plan, ensuite une liste de  formules de demandes d'analyse. Le logiciel fournit d'une part le tableau standard, d'autre part les tests des comparaisons spécifiques.  
Le logiciel, implanté au CIRCE,  a connu un large  succès auprès des chercheurs  en psychologie: en France mais aussi en Belgique, et jusqu'en Angeterre: dès 1975, Robert Baldy, ingénieur-informaticien au  Psychiatry Institute de London University,  l'avait implanté au centre informatique de  Londres...
 
Analyse des données structurées

Dans les années 1980, les travaux sur l'Analyse de Variance ont été complétés  avec mes collègues du Groupe Mathématiques et Psychologie: Bruno Lecoutre, Brigitte Le Roux et Jean-Marc Bernard. Nous avons procédé à la "greffe" des  procédures bayésiennes, aux extensions multidimensionnelles, et à la mise en place de l'analyse des données structurées, c'est-à-dire à l'application de l'analyse des comparaisons aux données d'obervation,  pour lesquelles les notions de  facteur et de plan doivent être adaptées  voire repensées.

Langage d'interrogation de données (LID) et logiciel EyeLID
Le langage d'interrogation de données (LID) est l'aboutissement de l'entreprise de structuration des données. Le logiciel EyeLID ("Eye" pour examen visuel des données) de Jean-Marc Bernard, Robert Baldy et H. Rouanet, qui met en oeuvre ce langage, aura été la réalisation concrète la plus marquante de ces dernières années.
Une esquisse du logiciel et de ses possiblités, autour de  sa caractéristique essentielle, la dérivation des protocoles. est présentée dans le module Réalisations, Logiciels, etc.

EyeLID est devenu l'instrument incomparable  d'analyse des données structurées,  pour tous ceux qui partagent notre démarche statistique.



Guide de lecture
 
Pour une introduction notionnelle à l'Analyse des Comparaisons, voir la Préface à l'ouvrage de B. Lecoutre.  Pour une introduction pratique, voir  Rouanet, Lépine, Ehrlich, Marquer, Plas (1976), Bulletin de Psychologie. Pour un exposé d'ensemble, voir la référence  Rouanet & Lépine, (1977); complétée par celle de Hoc  (1983) et celle du numéro thématique de Bernard (1994c,  Mathématiques et Sciences Humaines, téléchargeable depuis le site de la revue
Préface de H. Rouanet). Pour le  logiciel EyeLID, voir     Bernard,  Baldy &. Rouanet (1989).
Pour un article récent sur le langage des plans, voir Bernard, J.-M. & Savina Y. (2008), Retour sur la formalisation des plans expérimentaux. Bulletin de Psychologie, Tome 61 (2), n°494, 167-171.
Pour un manuel anglo-saxon fortement inspiré de notre approche d'analyse des comparaisons, voir Hand & Taylor (1987) Multivariate Analysis of Variance and Repeated Measures, Chapman & Hall  (partiellement téléchargeable sur le Web)




Retour à la page d'accueil

Début de page