DOMAINES : REGRESSION |
![]() |
1. Modèles stochastiques |
![]() |
Il ya ce que nous savons,
et il y a ce que nous voudrions savoir.
Le modèle-cadre d'une régression est défini par une variable à prédire (ou "dépendante", notation consacrée y), et une variable (régression simple) ou plusieurs variables (régression multiple) dites variables prédictrices (ou "indépendantes"). L'objectif de la régression est de chercher les effets des variables indépendantes sur la variable dépendante. Aux procédures classiques de la régression linéaire, applicables aux variables numériques, sont venues récemment s'adjoindre la régression logistique et ses variantes, applicables aux variables catégorisées. Les considérations de ce module, formulées pour la régression linéaire, sont applicables (mutatis mutandis) aux diverses formes de régression. En statistique des données expérimentales, la régression peut être considérée comme un cas particulier de l'analyse de variance, dans le cas de variables indépendantes numériques. Pour les données d'observation, des problèmes nouveaux apparaissent, liés au fait qu'en règle générale les variables prédictrices ne sont pas statistiquement indépendantes. C'est sur ces problèmes que se sont concentrés mes travaux. Ce n'est que ces dernières années que j'ai entrepris d'étudier systématiquement la régression (dans le cadre des données d'observation), dans la perspective de la statistique des chercheurs, à l'aide des idées-forces. Cette étude s'est révélée étonnamment féconde; je ne m'attendais pas (étant donnée la quantité de travaux sur la régression) à pareille moisson de résultats inédits. La formalisation linéaire de la régression En régression linéaire, en formalisant l'espace des variables centrées comme un espace vectoriel euclidien muni de la covariance comme produit scalaire (cf. Rouanet & Le Roux (1993), les propriétés statistiques de la régression découlent directement des propriétés des projections (orthogonales et obliques) classiques en algèbre linéaire. La construction fondamentale, dans le cas de deux variables prédictrices x1 et x2, est représentée par la figure empruntée à Rouanet & Le Roux (1993) FigReg. Premiers résultats Effets de structure: rose des vents des effets A toute variable prédictrice on peut attacher d'une part son effet conditionnel, défini par le coefficient de régression dans la régression multiple, d'autre part son effet global, défini par le coefficient de régression simple sur cette variable. Lorsque les variables prédictrices sont corrélées, les effets conditionnels peuvent différer des effets globaux, voire changer de signe. Nous dénommons ce phénomène effet de structure, généralisant la notion d'effet de structure classique en économétrie. Nous avons procédé à l'étude du rapport Effet conditionnel / Effet global, ce qui conduit à définir dans l'espace des variables des zones d'atténuation (|effet conditionnel| < |effet global|), d'accentuation (|effet conditionnel| > |effet global|) et de renversement (effet conditionnel de sens opposé à l'effet global). Dans le cas de deux variables, les zones ainsi délimitées dessinent une "rose des vents" des effets (d'après Rouanet & al, 2002). A notre connaissance, ce résultat est inédit. Quasi-colinéarité et le dilemme "exhaustivité" vs "parcimonie"; paradoxe de Frédéric Les difficultés
liées à la quasi-colinéarité
amènent au dilemme exhaustivité (prendre un
ensemble de variables pertinentes aussi complet que possible, au
risque de coefficients ininterprétables) vs parcimonie (prendre
peu de variables mais qui peut-être ne sont pas les
bonnes). Dans un travail en cours, nous proposons des solutions. Dans mes travaux en cours sur la régression, poursuivis avec Brigitte Le Roux, et depuis 2002 avec Frédéric Lebaron, nous travaillons à l'intégration de la régression dans l'Analyse Géométrique des Données (AGD). En régression, les variables sont formalisées comme des vecteurs d'un espace vectoriel, alors qu'en AGD, les objets fondamentaux (modalités ou individus) sont formalisés comme des points d'un espace géométrique. Mais du fait qu'un espace vectoriel peut être représenté par un espace géométrique, la formalisation linéaire met en lumière les structures mathématiques communes à la régression et à l'Analyse Géométrique des Données. Implications en Sciences Sociales Dans les sciences sociales, la
régression a partie liée avec la "sociologie des
variables", qui à l'heure actuelle est le
"mainstream" des sciences sociales, et à laquelle Bourdieu s'est
opposé vigoureusement, en préférant l'approche
géométrique. Plutôt que d'opposer deux
"écoles concurrentes", l'intégration de la
régression dans l'Analyse Géométrique des
Données devrait conduire à
réinterpréter les résultats valables de
la sociologie des variables en termes d'espace social.
Notes complémentaires sur REGRESSION |
Début de page |