REALISATIONS : LOGICIELS, ENSEIGNEMENT ET DIFFUSION 1. Logiciels, diffusion et enseignement |
"L'ergonomie a montré combien les comportements sont
déterminés par les outils techniques; les idées de
l'Ecole Française d'Analyse des Données ne passeront dans
les pratiques qu'au prix de développement de logiciels."
Jean-Michel Hoc LOGICIELS Au fur et à mesure de la mise en place des méthodes, je me suis toujours employé à mettre à la disposition des chercheurs des logiciels susceptibles non pas de remplacer, mais de venir en complément des logiciels existants. J'ai eu la chance - n'étant pas moi-même formé à la programmation - d'avoir toujours autour de moi des personnes capables de "mettre sur ordinateur" les méthodes dans le cadre des moyens informatiques existants: centre de calcul du CIRCE dans les années 1960 et 1970, puis micro-informatique à partir des années 1980. De VAR3 à EyeLID Le langage des comparaisons, élaboré avec Dominique Lépine et implanté sur ordinateur par Marie-Odile Lebeaux (Var3, 1975), a été la première version d'un langage de demandes d'analyse à partir des facteurs d'un plan. A la fin des années 1980, une version plus élaborée de ce langage, devenu le Langage d'Interrogation de Données (LID), a conduit, avec l'extension aux données multivariées et l'adjonction d'un module graphique, au logiciel EyeLID ("Eye" pour "visualisation") dû à Jean-Marc Bernard, Robert Baldy et H. Rouanet. Conçu à l'origine en vue de l'analyse de variance multivariée (MANOVA), à l'issue d'un exposé de H. Rouanet à la Multivariate Section of the Royal Statistical Society en 1985, le logiciel EyeLID s'est révélé remarquablement efficace dans l'étude générale des données multivariées structurées: cf. Bernard, Le Roux, Rouanet, Schiltz (1989), et le numéro thématique de la revue Mathématiques & Sciences Humaines par J.M Bernard (1994) (téléchargeable à partir du site de la revue), avec la Préface de H. Rouanet. La caractéristique essentielle du logiciel EyeLID,
qui fait sa principale originalité par rapport à VAR3 - et à vrai dire par rapport à tous les logiciels
existants (à ma connaissance), est le langage de commande
des dérivations de protocoles. A partir du protocle de base I --> Variables, l'ensemble I étant muni d'une pondération, si J est
un facteur sur I , le logiciel
engendre le protocole dérivé par moyennage J---> Variables.
Le facteur J peut être un facteur simple, ou
composé à partir des facteurs simples A, B... à partir des relations d'emboîtement (e.g. A<B>), de croisement (A*B), ou de la simple relation de composition (A&B). Le protocole J---> Variables peut ensuite, au même titre que le protocole de base, faire l'objet de nouvelles dérivations. Outre
le moyennage, le logiciel permet toutes sortes de
dérivations telles que la restriction, les dérivations
pondérées et équipondérées, les
dérivations intra et d'interaction, faisant intervenir plusieurs
facteurs conjointement. Pour chaque protocole
dérivé, des demandes d'analyse peuvent être
formulées (encore dans le même langage) pour obtenir
les statistiques numériques pertinentes telles que sommes
de carrés et produits, variances et covariances, etc.,
ainsi que l'accès au module graphique, lequel permet à
son tour une exploration détaillée des nuages de points,
toujours à l'aide du même langage. La
description précédente ne donne qu'une faible idée
des possiblités d'EyeLID: les principales options du
logiciel, et le détail des demandes d'analyses, sont
décrites dans l'article Bernard, Baldy &. Rouanet (1989). La diffusion des méthodes et des logiciels a toujours constitué une place importante de mes activités: stages avec Dominique Lépine dans les années 1970, sur l'analyse de variance avec VAR3; stages avec Brigitte Le Roux, Jean-Marc Bernard et Philippe Bonnet dans les années 1980 et 1990, sur l'analyse géométrique des données avec ADDAD et EyeLID; stages avec Brigitte Le Roux, Frédéric Lebaron et Philippe Bonnet dans les années 2000, sur l'analyse géométrique des données avec SPAD... Ces stages ont certainement contribué à faire passer dans les pratiques l'usage de nos logiciels dans les laboratoires de sciences humaines (en particulier le programme VAR3 a été abondamment utilisé dans les laboratoires de psychologie expérimentale), mais pas nécessairement à faire vraiment reconnaître l'originalité des méthodes par les chercheurs, dans la mesure où c'étaient majoritairement les techniciens des laboratoires qui assistaient à ces stages: cf. le texte Division du travail. A cet égard, je pense qu'avec les stages à l'université d'Uppsala depuis 2006, expressément à l'intention des chercheurs et thésards - nous avons trouvé une "formule" plus efficace en trois volets: présentations statistiques, mise en oeuvre infomatique, et conférences sur la construction de l'espace social.
ENSEIGNEMENT Tout en étant au CNRS, j'ai toujours tenu à avoir des activités d'enseignement, en complément de mes activités de recherche. La plupart de mes enseignements ont concerné des étudiants de Sciences Humaines. Mais j'ai aussi participé à des enseignements pour des étudiants de mathématiques, notamment au niveau Maîtrise et DEA. Dans les années 1960 j'ai participé aux enseignements de l'Institut de Psychologie; dans les années 1970, au certificat de Psychologie Générale de l'Université René Descartes; dans les années 1980, au premier Cycle de Sciences humaines de cette université. J'ai assuré ces enseignements en collaboration avec de nombreux collègues ("cours en parallèle" et Travaux Dirigés): en premier lieu les enseignants-chercheurs du Groupe Mathématiques & Psychologie: Marie-Claude Bert et Brigitte Le Roux; et bien d'autres collègues de l'UFR de mathématiques, et des départements de psychologie et de sociologie. Mes enseignements m'ont permis d'incorporer les acquis de la recherche au fur et à mesure, de les roder en profitant des remarques de mes collègues. Ils ont abouti à des livres qui sont à la fois des ouvrages de synthèse et d'enseignement. Les étudiants de Sciences Humaines ont (en général) un bagage
mathématique plus léger que les étudiants en mathématiques, lesquels
acceptent plus volontiers les démonstrations
mathématiques. Mais entre les deux auditoires, je n'ai pas trouvé de différence
essentielle en ce qui concerne
l'appréhension des concepts statistiques. L'enseignement en sciences humaines, en invitant à se concentrer sur les concepts fondamentaux, pourrait donc constituer un authentique enseignement de statistique générale (au
sens où on parle de "Mathématiques
générales"), qu'à l'heure actuelle ne fournissent pas les cours de "statistique
mathématique".
Statistique en Sciences Humaines: la misère actuelle A l'heure actuelle, l'enseignement de la statistique en sciences humaines est fort éloigné d'un véritable enseignement de statistique générale. Pour apprendre la statistique à leurs étudiants, la plupart des départements de Sciences Humaines ont cru bon de se débarrasser des enseignants de formation mathématique, accusés d'excès de "rigueur mathématique"; ils font désormais appel à des "enseignants du cru", avec mission de se cantonner à "ce qui est utile" pour pouvoir lire les publications de recherche. L'objectif commun de ces manuels d'un nouveau genre est proclamé dans la page de garde de l'un d'entre eux: "Ne pas faire appel à la démonstration mathématique, mais développer de manière empirique (sic) les méthodes et concepts théoriques (resic) de la statistique." Le résultat de cette politique est souvent misérable. Voici ce qu'écrivait mon distingué collègue Jean-Luc Durand, dans sa revue critique du manuel en question: "L'auteur, devant les incompréhensions bien connues des étudiants, tend souvent à les reprendre à son compte, sous prétexte de simplification... La confusion, tout au long du livre, entre description et inférence, empêche d'expliciter les hypothèses testées et conduit à des conclusions inadmissibles. Même en laissant de côté toute considération mathématique, que dire d'une conclusion telle que la suivante: "L'échantillon des lycéens peut être considéré comme appartenant à la population dont il est extrait" (p.128). Comment ose-t-on proposer à des étudiants de pareils non-sens? Pour ma part, je déconseillerai formellement ce livre à mes étudiants."
La progression, telle qu'elle se dégage de mon expérience d'enseignement, me paraît claire pour les trois premiers niveaux:
Niveau 1. Procédures Statistiques Naturelles. L'enseignement doit s'appuyer sur les procédures
qu'on connaît déjà "avant de faire de
la statistique". Par exemple, calculer une moyenne pondérée de
notes; interpréter les pourcentages
de la vie courante et des medias (à ce premier niveau,
à préférer aux données
expérimentales). Concepts de base à acquérir absolument: la caractérisation opérationnelle des procédures descriptives (premier pilier de la formalisation); et les structures sous-jacentes aux procédures élémentaires.
Tout en encourageant une attitude critique vis-à-vis de l'interprétation des données, l'approche adoptée doit être résolument positive. La tentation à écarter à tout prix: le terrorisme,
consistant à brandir "les dangers de la statistique" pour mieux faire ensuite avaler des couleuvres à l'étudiant.
Manuel pertinent: Rouanet, Le Roux, Bert (1987) (Volume 1 de la série Dunod).
Niveau 2. Analyse inductive des données L'introduction à l'inférence doit toujours aller des données vers
les hypothèses, en développant le tryptique: l'inférence combinatoire d'abord (proportions d'échantillons), l'inférence probabilitste ensuite (conversion des proportions en probabilités), fréquentiste puis
bayésienne.
Manuel pertinent: . Rouanet, Bernard, Le Roux (1991) (Volume 2 de la série Dunod).
Manuel pertinent pour les niveaux 1-2:
. Rouanet, Le Roux (1995a) Exercices corrigés (Volume 4 de la série Dunod). Le problème des préalables mathématiques
Plus on avance dans les techniques statistiques, plus la question se pose des notions préalables de mathématiques. Dans les deux premiers manuels de la série Dunod, nous avons opté pour une présentation des concepts statistiques en privilégiant les ensembles finis. Quelques rappels de notions ensemblistes de base (qui ne sont plus enseignées au collège) peuvent être utiles. Parvenus à un certain point, il en ira de même de notions de base de calcul intégral (aire sous une courbe). Le problème des préalables se pose évidemment pour le Calcul des Probabilités, avec sa syntaxe (Calcul des Proportions) et sa sémantique (formalistion de l'incertitude): cf. Statistique et Probabilités. Il faut souhaiter qu'un manuel introductif voie le jour qui présenterait successivement les deux volets. En attendant, il me semble prudent de ne pas inclure de préalables probabilistes dans l'enseignement de statistique, mais de renvoyer (pour les résultats techniques tels que la convergence vers la distribution normale, etc.) à un bon texte classique de pur calcul des probabilités non suivi d'"application à la statistique"; la sémantique aléatoire (épreuves aléatoires, jeux de hasard, etc.), reste inoffensive tant qu'elle n'impose pas la problématique fréquentiste à l'inférence statistique. Niveau 3. Analyse des données expérimentales On aborde maintenant
la méthodologie proprement expérimentale, avec un
plan d'expérience et des facteurs sous le contrôle de
l'expérimentateur.
Textes pertinents:
. Rouanet & Lépine (1977) Introduction à l'Analyse des Comparaisons ; . Hoc (1983) L'analyse planifiée des données en psychologie; . Bernard (1994) L'analyse descriptive des données planifiées (numéro thématique téléchargeable à partir du site de Mathématiques & Sciences Humaines. Niveau 4. Analyse des données d'observation. A
ce niveau, l'idée-force géométrique, ainsi que la
dualité Mesures/Variables (deuxième pilier de la
formalisation) deviennent privilégiées. Il y aurait
un manuel introductif à rédiger, inspiré des ouvrages Rouanet & Le Roux (1993) (Analyse des données multidimensionnelles, Volume
3 de la série Dunod), et Le Roux & Rouanet (Geometric Data Analysis, 2004), qui sont la base de l'enseignement aux étudiants de maîtrise en Mathématiques.
La panoplie précédente pourrait être complétée par
un manuel qui rassemblerait les "études de cas" de
diverses publications. Cf aussi le projet Essai sur l'argumentation statistique.
|
Début de page |