DOMAINES : REGRESSION

1. Modèles  stochastiques
2. Analyse de la variance & Données structurées
3. Inférence  Combinatoire - Test du hasard
4. Inférence bayésienne -  Inférence fiduciaire
5. Analyse Géométrique  des données
6. Régression

Il ya ce que nous savons,
et il y a ce que nous voudrions savoir.

   Régression: généralités


La régression  est  de loin   le domaine  le plus volumineux de la statistique, tant théorique qu'appliquée. C'est la méthode privilégiée de l'économétrie; et avec la pratique des sciences sociales calquée sur l'économétrie, "modèle économétrique" en vient à désigner tout modèle de régression même sans lien avec une problématique économique.

Le modèle-cadre d'une régression est défini par une variable à prédire (ou "dépendante", notation consacrée y),  et une  variable (régression simple) ou plusieurs variables  (régression multiple) dites variables prédictrices (ou "indépendantes"). L'objectif de la régression est de chercher les effets des variables indépendantes sur la  variable dépendante.

Aux procédures classiques de la régression linéaire, applicables aux variables numériques, sont venues récemment s'adjoindre la régression logistique et ses variantes, applicables aux variables catégorisées. Les considérations de ce module, formulées pour la régression linéaire, sont applicables (mutatis mutandis) aux diverses formes de régression.

En statistique des données expérimentales, la régression peut être considérée comme un cas particulier de l'analyse de variance, dans le cas de  variables indépendantes  numériques. Pour les données d'observation, des problèmes nouveaux apparaissent,  liés au fait  qu'en règle générale les variables prédictrices ne sont pas statistiquement indépendantes. C'est sur ces problèmes que se sont concentrés mes travaux.

Ce n'est que ces dernières années que j'ai entrepris d'étudier systématiquement la régression (dans le cadre des données d'observation), dans  la perspective de la statistique des chercheurs, à l'aide des  idées-forces.  Cette étude s'est  révélée  étonnamment féconde; je ne m'attendais pas  (étant donnée la quantité de travaux sur la régression) à pareille moisson de résultats inédits. 

La formalisation linéaire de la régression

En régression linéaire, en formalisant  l'espace des variables centrées  comme un espace vectoriel euclidien muni de la covariance comme produit scalaire (cf. Rouanet  & Le Roux (1993),  les propriétés statistiques de la régression découlent directement des propriétés des projections (orthogonales et obliques) classiques en algèbre linéaire. La construction fondamentale, dans le cas de deux variables prédictrices x1 et  x2, est représentée par la figure empruntée à Rouanet & Le Roux (1993) FigReg.

Premiers résultats

Effets de structure: rose des vents des effets

A  toute variable prédictrice on peut attacher d'une part  son effet conditionnel, défini par le coefficient de régression dans la régression multiple,  d'autre part son effet global, défini par le coefficient de régression simple sur cette variable. Lorsque les variables prédictrices sont corrélées, les effets conditionnels peuvent différer des effets  globaux, voire changer de signe.  Nous dénommons  ce phénomène  effet de structure, généralisant la notion d'effet de structure classique en économétrie. 

Nous avons procédé à l'étude du rapport Effet conditionnel / Effet global, ce qui conduit à définir dans l'espace des variables  des  zones d'atténuation (|effet conditionnel| < |effet global|), d'accentuation (|effet conditionnel| > |effet global|) et de renversement (effet conditionnel de sens opposé à l'effet global). Dans le cas de deux variables,   les zones ainsi délimitées dessinent une "rose des vents" des effets (d'après Rouanet & al, 2002). A notre connaissance, ce   résultat est inédit.  

Quasi-colinéarité et le dilemme "exhaustivité" vs "parcimonie"; paradoxe de Frédéric

Les difficultés liées à la quasi-colinéarité amènent  au dilemme exhaustivité (prendre un ensemble de variables pertinentes aussi complet que possible,  au risque de coefficients ininterprétables) vs parcimonie (prendre peu de variables mais qui peut-être ne sont pas les bonnes).  Dans un travail en cours, nous proposons des solutions.

Intégration de la régression dans l'Analyse Géométrique des Données: 

  Dans mes  travaux en cours sur la régression,  poursuivis avec Brigitte Le Roux, et depuis 2002 avec Frédéric Lebaron, nous travaillons à l'intégration de la régression dans l'Analyse Géométrique des Données (AGD).

En régression,  les variables sont formalisées comme des vecteurs d'un espace vectoriel,  alors qu'en AGD, les objets fondamentaux (modalités ou individus) sont formalisés comme des points  d'un espace géométrique. Mais du fait qu'un espace vectoriel  peut  être représenté par un espace géométrique, la formalisation linéaire  met  en  lumière les structures mathématiques communes à la  régression et à  l'Analyse Géométrique des Données.  

Implications en Sciences Sociales

Dans les sciences sociales, la régression a partie liée avec la "sociologie des variables", qui à l'heure actuelle  est  le "mainstream" des sciences sociales, et à laquelle Bourdieu s'est opposé vigoureusement, en préférant l'approche géométrique.  Plutôt que d'opposer deux "écoles concurrentes", l'intégration de la régression dans l'Analyse Géométrique des Données devrait conduire  à réinterpréter les résultats valables   de la  sociologie des variables en termes d'espace social.


Guide de lecture

  • Rouanet, Le Roux (1993) .  Analyse des Données Multidimensionnelles.  [On y trouve la représentation géométrique fondamentale des effets globaux et conditionnels  (projections orthogonales et obliques) (figure p. 94) ]
     
  • Rouanet H., Lebaron F., Le Hay V., Ackermann W, Le Roux B. (2002). Régression et Analyse géométrique des données: réflexions et suggestions, Mathématiques  et Sciences Humaines , p. 13-45. 

Notes complémentaires sur REGRESSION


Début de page