Bienvenue dans ce cours de traitement du langage naturel ! L’objectif de ce cours est de comprendre les méthodes qui permettent de transformer le texte en features exploitables par des algorithmes de machine learning classiques, et les architectures et modèles qui correspondent le mieux à ce type de données. En l’occurence un ensemble de documents texte non-structurés.
Ce cours est donc divisé en 3 parties : une première qui traite de l'exploration, du nettoyage et de la normalisation du texte. Une seconde partie est dédiée au différents types de transformations qui vont nous permettre de mieux comprendre nos données textuelles et de créer des features que nous pourrons utiliser dans les algorithmes classiques de machine learning. La dernière partie sera consacrée à la classification du texte à l'aide de l'apprentissage automatique.
Prérequis :
Ce cours fait partie du parcours Data Scientist. Il se situe au croisement des mathématiques et de l'informatique. Pour en profiter pleinement, n'hésitez pas à vous rafraîchir la mémoire, avant ou pendant le cours, sur :
Part #1 - Traitez des données textuelles
1. Explorez des données texte
2. Nettoyez et normalisez des données texte
Activity: Effectuez un nettoyage et une analyse exploratoire de données texte
Part #2 - Transformez des données textuelles
1. Représentez votre corpus en "bag of words"
2. Effectuez des plongements de mots (word embeddings)
3. Modélisez des sujets avec des méthodes non superviséesQuiz: Partie 2
Part #3 - Effectuez une classification de données textuelles
1. Opérez une première classification naïve de sentiments
2. Allez plus loin dans la classification de mots
3. Traitez le langage à l'aide de réseaux de neurones
Activity: Classifiez du texte