Cet enseignement présente les principales méthodes utilisées pour évaluer, estimer et intégrer des modèles de langage dans un cadre stochastique. Les notions abordées sont successivement :
l’évaluation des modèles de langage (Perplexité, Taux d’erreur mot)
les classes d’équivalence d’historiques (L’approche n-gramme, le modèle cache, les modèles exponentiels) ainsi que des alternatives (Modèle par arbres de décision, grammaires probabilistes hors-contexte et grammaires probabilistes lexicalisées)
l’estimation des modèles de langage (Les distributions de probabilités, les différents types d’estimation: maximum de vraisemblance, maximum a posteriori, Good-Turing, …)
les méthodes de lissage (l’interpolation et le repli, les principales méthodes : Jelinek-Mercer, Katz, Witten-Bell, Kneser-Ney)
l’intégration dans un système de dialogue oral (facteur d’échelle, facteurs de pénalité, stockage et accès rapide)
autres exemples d’application (la correction orthographique et grammaticale, la traduction automatique : méthode par analogie)