Exposé du GT de Statistique du 28 Septembre 2007.


Mahendra Mariadassou (INAPG Paris).
Robustesse des arbres phylogénétiques

On s'intéresse dans cette présentation à l'incertitude liée à la reconstruction d'un arbre phylogénétique à partir de séquences d'ADN. Le cadre de travail est celui du maximum de vraisemblance. La reconstruction d'un arbre s'effectue en trois temps, choix d'un modèle probabiliste d'évolution des séquences, calcul d'un score de vraisemblance pour chaque arbre et enfin sélection du meilleur arbre. Le calcul de la vraisemblance s'effectue à partir des séquences étudiées, qui sont de tailles finies, et introduit donc une composante aléatoire à la vraisemblance qui modifie, peut-être grandement, les scores et fausse le résultat de l'estimation.

Dans un premier temps, on borne les fluctuations à arbre donné du score empirique autour de sa vraie valeur. Dans un deuxième temps, on borne la probabilité qu'un arbre obtienne, "juste par chance", un meilleur score qu'un autre sur les données alors qu'il est en réalité moins bon. Les bornes sont obtenues en utilisant des outils de grande déviations et font intervenir le nombre d'espèces et la longueur des séquences étudiées. On obtient en particulier une borne supérieure sur la longueur des séquences nécessaire pour reconstruire le vrai arbre avec grande probabilité.