Dans le cours Initiez-vous au machine learning, vous avez découvert les fondements de l'analyse de donnée automatisée. Dans ce deuxième cours, vous apprendrez à évaluer vos algorithmes pour les rendre plus performants.
De nombreux choix d'algorithmes d'apprentissage et de leurs hyperparamètres s'offrent aux Data Scientists. La nature du problème à résoudre permet en partie de guider ce choix. Par exemple, on n'appliquera pas un algorithme de classification à un problème de régression.
Néanmoins, il est nécessaire de savoir évaluer n'importe quel algorithme d'apprentissage sur son jeu de données, en évitant au mieux le biais de sur-apprentissage. Une évaluation rigoureuse des performances d'un algorithme est une étape indispensable à son déploiement.
Suivez ce cours pour apprendre à évaluer un modèle d'apprentissage supervisé afin de choisir le bon modèle pour votre problème, en évitant de tomber dans un des principaux pièges qui guettent les Data Scientists.
Prérequis :
Ce cours de Data Science se situe au croisement des mathématiques et de l'informatique. Pour en profiter pleinement, n'hésitez pas à vous rafraîchir la mémoire, avant ou pendant le cours, sur :
Part #1 - Évaluez vos modèles sans sur-apprentissage
1. Comprenez ce qui fait un bon modèle d’apprentissage
2. Mettez en place un cadre de validation croisée
3. TP – Sélectionnez le nombre de voisins dans un kNN
Activity: Implémentez une validation croisée
Part #2 - Évaluez un modèle de classification
1. Évaluez un algorithme de classification qui retourne des valeurs binaires
2. Évaluez un algorithme de classification qui retourne des scores
3. Comparez votre algorithme à des approches de classification naïves
Quiz: Partie 2
Part #3 - Évaluez un modèle de régression
1. Évaluez un algorithme de régression
2. Comparez votre algorithme à des approches de régression naïves
Activity: Sélectionnez le nombre de voisins dans un kNN pour une régression