IDEES-FORCES

1. Première idée-force : formelle -  Les piliers de la formalisation- Note complémentaire sur la formalisation
2. Deuxième idée-force : géométrique 
3. Troisième idée-force : descriptive-inductive
4. Quatrième idée-force : spécifique
5. Statistique et Probabilités - Fondements des probabilités - Trois cadres d'inférence statistique

PREMIERE IDEE-FORCE : FORMELLE

Statistique et mathématiques

 A l'évidence, les procédures statistiques font constamment appel à des  techniques numériques:   calcul  linéaire,  calcul différentiel et intégral, etc. Dès ce niveau, on peut  dire que la statistique repose sur les  mathématiques.
Cependant, comme on sait, le calcul  numérique ne constitue qu'une partie des mathématiques, qui sont fondées sur des structures (souvent dites "abstraites", par opposition à numériques),  telles que la théorie des ensembles ou l'algèbre linéaire. Or  ce que nous avons toujours  constaté, c'est que ce qui donne sens aux procédures statistiques, ce sont ces structures mathématiques. Ainsi,  plus profondément, on peut dire encore que  la statistique repose sur les mathématiques.

La formalisation, ou approche formelle de la statistique  - notre première idée-force -   consiste à  ancrer  directement les méthodes statistiques sur les structures mathématiques. Dans cette approche, les notions statistiques sont formalisées en tant que concepts d'une théorie mathématique constituée, comme la théorie des ensembles ou l'algèbre linéaire. La  théorie mathématique peut dès lors être utilisée directement pour poser et résoudre les problèmes statistiques et développer les procédures.  En bref, les structures commandent les procédures!

Un paradigme de l'approche formelle :  la méthode des moindres carrés

La méthode des moindres carrés fournit une illustation exemplaire de l'approche formelle (Rouanet & Le Roux, 1993, p.33). 

  • Le problème statistique : on se donne une famille de variables prédictrices et une variable à prédire ; on cherche la combinaison linéaire des variables prédictrices la plus corrélée avec la variable à prédire. 
  • Formalisation en termes d'algèbre linéaire:  les variables centrées sont formalisées comme les vecteurs d'un espace euclidien, muni de la covariance comme produit scalaire (d'où les concepts de distance, d'angle et de projection orthogonale); l'espace engendré par les variables prédictrices est un sous-espace de cet espace euclidien.
  • Le problème mathématique (traduction du problème statistique) : trouver le vecteur d'un sous-espace le plus proche (au sens de la métrique euclidienne) d'un vecteur donné.
  • La solution mathématique (classique en algèbre linéaire) : le vecteur cherché est la projection orthogonale du vecteur sur le sous-espace.
  • La solution statistique (retraduction en langage statistique): les coordonnées du vecteur projeté  deviennent les coefficients de régression, les équations donnant ces coordonnées deviennent les "équations normales"  classiques de la régression.

En somme, on formalise, puis on applique les théorèmes mathématiques. Il n'y a pas, à proprement parler, de "démonstration statistique".

Formalisation ensembliste

 Les structures ensemblistes, avec les opérations booléennes, applications, produit cartésien, groupes, etc. sont remarquablement adaptées à la formalisation des notions statistiques fondamentales. Un  premier acquis  de la formalisation ensembliste a été la caractérisation  opérationnelle  des procédures  descriptives: notre premier pilier de la formalisation. D'autres acquis de la formalisation ensembliste sont les suivants:

 . La réorganisation  de la traditionnelle "hiérarchie" des "échelles de mesure"   ("nominales, ordinales, intervalles) à partir des structures des données. Voir Tirons l'échelle; cf.  les chapitres  III et suivants de Rouanet, Le Roux, Bert (1987).

.  La structuration des données,  à la base des logiciels VAR3 et EyeLID: voir sous-section suivante.

. L'inférence ensembliste (ou combinatoire), basée sur les proportions d'échantillons, qui constitue le  premier stade  de l'inférence statistique,  improbable  chaînon   entre statistique descriptive et statistique inductive: cf. Inférence combinatoire, et  Rouanet, Bernard, Le Roux (1991).



Structuration des données

La structuration des données, avec le langage des plans et le langage  d'interrogation de données (LID) est sans doute  l'apport le plus important  de la formalisation dans nos travaux, il  mériterait un module à lui seul. Dès 1968 (Rogalski & al), nous écrivions ceci: "Les structures mathématiques sous-jacentes aux procédures statistiques se trouvent souvent en réalité plus proches des  intentions du chercheur que les procédures de calcul elles-mêmes; d'où l'intérêt pratique d'expliciter celles-ci."
 En bref, face à des données complexes,  la structuration  des données  permet de formuler les questions de recherche, préalablement à tout calcul statistique  et en préparant la voie à celui-ci.   
Le langage des plans  
(implanté dans le logiciel VAR3) est organisé à partir  des  relations entre les  facteurs d'un plan: emboîtement  (relation notée < >)  et   croisement  (notée *); il  met l'accent  sur la notion de comparaison.
Le langage
d'interrogation de données (LID) (implanté dans le logiciel  EyeLID), élargit le précédent, et met l'accent sur la  dérivation de protocoles.

 Voir Analyse de la Variance et Données structurées;
        et Réalisations: logiciels


Formalisation linéaire

 Pour la formalisation linéaire, qui remonte aux années 1960, nous sommes partis  du constat de l'omniprésence, en statistique, de l'algèbre linéaire, non seulement sous sa forme numérique  (calcul  matriciel) mais,  plus profondément, sous sa forme "abstraite": espaces vectoriels, produit scalaire, norme euclidienne, etc.  La formalisation linéaire a joué un rôle central dans nos travaux, avec  l'acquis fondamental de la dualité mesures/variables: notre deuxième pilier de la formalisation,   dont la fécondité s'est révélée considérable en Analyse de Variance, en Analyse Géométrique des Données  (fondement de la métrique du khi-deux), et en  régression,  où nous l'avons récemment mise en oeuvre.

Les piliers de la formalisation 

Note complémentaire  sur la Formalisation

Retour à la page d'accueil

Début de page