Logoscope est un outil d’observation linguistique semi-automatisé qui scrute les sites internet de la presse francophone à la recherche de néologismes. Ces néologismes sont collectés chaque jour dans la presse française et sont librement accessibles en ligne à tout utilisateur
Babelnet est un dictionnaire encyclopédique multilingue et un réseau sémantique.
Babelfy est basé sur Babelnet 3.0 et permet une désambiguisation multilingue
Lexique st une base de données qui fournit pour 135 000 mots du français: les représentations orthographiques et phonémiques, la syllabation, la catégorie grammaticale, le genre et le nombre, les fréquences, les lemmes associés, …
GLAWI est un dictionnaire électronique libre du français encodé au format XML. Il s'agit d'une version structurée et normalisée du Wiktionnaire (l'édition française de Wiktionary)
NASARI (a Novel Approach to a Semantically-Aware Representation of Items) est une représentation de vecteurs sémantiques pour les synsets BableNet et pour les pages wikipéedia dans plusieurs langues.
Le projet Rhapsodie regroupe des échantillons sonores pour un total de 3 heures et 33000 mots. Ces échantillons sont accompagnés d’une transcription orthographique et d'une transcription phonétique alignées au son (frontières de mots, syllabes et phonèmes), d’annotations syntaxiques et prosodiques. On trouve également les treebanks correspondants.
Corpus Renom : entités nommées obtenues à partir de transcriptions réalisées sur les exemplaires originaux de l’époque (graphies non modernisées), issues du corpus de textes de la Renaissance BVH-Epistemon (Oeuvres de François Rabelais)
Democrat est un corpus en langue française annoté en expressions référentielles et chaînes de référence. Tous les siècles du 11e au 21e sont couverts, ce qui autorise des analyses diachroniques.
CHILDES est une base donnée construite pour étudier l'acquisition du langage par les enfants