Exposé du GT de
Statistique du 28 Septembre 2007.
Mahendra
Mariadassou (INAPG Paris).
Robustesse des arbres phylogénétiques
On s'intéresse dans cette présentation à l'incertitude liée à la reconstruction
d'un arbre phylogénétique à partir de séquences d'ADN. Le cadre de travail est
celui du maximum de vraisemblance. La reconstruction d'un arbre s'effectue en
trois temps, choix d'un modèle probabiliste d'évolution des séquences, calcul
d'un score de vraisemblance pour chaque arbre et enfin sélection du meilleur
arbre. Le calcul de la vraisemblance s'effectue à partir des séquences
étudiées, qui sont de tailles finies, et introduit donc une composante
aléatoire à la vraisemblance qui modifie, peut-être grandement, les scores et
fausse le résultat de l'estimation.
Dans un premier temps, on borne les fluctuations à arbre donné du score
empirique autour de sa vraie valeur. Dans un deuxième temps, on borne la
probabilité qu'un arbre obtienne, "juste par chance", un meilleur
score qu'un autre sur les données alors qu'il est en réalité moins bon. Les
bornes sont obtenues en utilisant des outils de grande déviations et font
intervenir le nombre d'espèces et la longueur des séquences étudiées. On
obtient en particulier une borne supérieure sur la longueur des séquences
nécessaire pour reconstruire le vrai arbre avec grande probabilité.