
Bonjour à toutes et à tous, bienvenue dans ce cours consacré à l’apprentissage du langage de programmation SAS. Cette formation est destinée à un apprentissage éclair de SAS pour que dès la fin de ce cours, vous puissiez être opérationnel avec ce langage de programmation et réaliser vos propres projets d'analyse de données de façon indépendante.
Ce cours est dédié à un apprentissage de SAS par la pratique, c’est-à-dire qu’on fera ensemble tout un projet de Data Science de A à Z pour que vous puissiez au mieux assimiler l'analyse de données sur SAS sans aucun prérequis.
Parce-que oui, pour suivre ce cours, vous n’aurez pas du tout besoin d’avoir de connaissances préalables en programmation sur SAS ou même en informatique général. Nous allons tout voir ensemble de A à Z, c’est-à-dire de l’installation de SAS sur votre ordinateur, jusqu’à l’écriture de nos premiers algorithmes de data science. Vous pourrez donc suivre la formation pas à pas, tranquillement depuis chez vous, on avancera ensemble progressivement.
Dans cette formation, je vais synthétiser un maximum mes connaissances pour que vous puissiez devenir expérimenté avec ce langage de programmation avec un projet réel. Le projet que nous allons faire ensemble est en effet un projet qu’on pourrait parfaitement avoir en entreprise ou même pendant ses études universitaires. Vous verrez qu’à la fin de cette formation, vous pourrez reprendre les programmes que nous aurons écrit et les analyses que nous aurons faites pour les refaire dans d’autres projets.
Nous allons voir dans cette vidéo comment se créer un compte SAS OnDemand pour pouvoir programmer avec le langage de programmation SAS directement depuis le Cloud.
Dans cette vidéo, nous allons explorer l'interface de développement de SAS OnDemand pour y découvrir les différentes fenêtres qui sont à notre disposition pour programmer avec SAS.
Au cours de cette formation, nous allons réaliser un projet d'analyse de données, de Data Science et de Machine Learning avec SAS. Il s'agit d'un projet type entreprise/université, ce qui vous permettra de vous professionnaliser avec le langage de programmation SAS.
La première étape de tout projet d'analyse de données, de Data Science et de Machine Learning est l'importation des données. Nous allons voir dans cette vidéo deux méthodes pour importer des données :
En utilisant un fichier de données (type csv, xlsx...),
En important des données stockées dans un site internet.
Télécharger le code SAS du projet à ce stade de la formation.
Vous pouvez importer le fichier sur SAS On Demand en faisant un clique droit dans le dossier qui contient vos fichiers SAS > Télécharger les fichiers vers le serveur.
Sélectionner ensuite le fichier que vous souhaitez importer.
On retrouve dans la plupart des jeux de données en entreprise des données manquantes. Il est très souvent demandé à l'analyste de données de traiter ces données manquantes. Nous allons donc voir dans cette vidéo une option pour traiter les données manquantes facilement.
Nous allons voir dans cette vidéo comment recoder les colonnes catégorielles du tableau de données afin de faciliter nos analyses et avoir des modalités plus simples à interpréter.
Est-ce que le cours vous plaît ?
Une technique simple pour renommer le nom des colonnes facilement pour améliorer la lisibilité de celles-ci.
La dernière étape des prétraitements du tableau de données : nous allons modifier l'ordre des colonnes.
Télécharger le code SAS du projet à ce stade de la formation.
Vous pouvez importer le fichier sur SAS On Demand en faisant un clique droit dans le dossier qui contient vos fichiers SAS > Télécharger les fichiers vers le serveur.
Sélectionner ensuite le fichier que vous souhaitez importer.
Calcul des statistiques descriptives pour les colonnes catégorielles : effectifs et pourcentages.
Découverte des macros sur SAS pour automatiser des codes facilement.
Calcul des statistiques descriptives pour les colonnes quantitatives : moyenne, médiane, quartiles, écart-type, minimum et maximum.
Télécharger le code SAS du projet à ce stade de la formation.
Vous pouvez importer le fichier sur SAS On Demand en faisant un clique droit dans le dossier qui contient vos fichiers SAS > Télécharger les fichiers vers le serveur.
Sélectionner ensuite le fichier que vous souhaitez importer.
Pour introduire la création de graphique sur SAS, nous allons voir dans cette vidéo comment créer l'un des graphiques les plus utilisés dans le monde : le diagramme à barres.
Pour représenter une colonne quantitative, le graphique d'excellence est l'histogramme. Nous allons voir dans cette vidéo les bonnes pratiques pour créer un histogramme.
Une analyse bivariée est l'étude de la relation entre deux colonnes/variables afin de déterminer si celles-ci sont liées. Nous allons à partir de maintenant réaliser des analyses bivariées sur SAS pour déterminer si certaines de nos colonnes exercent une influence sur d'autres colonnes du tableau de données.
Les graphiques bivariées (ou graphiques croisés) sont un excellent moyen de vérifier graphiquement la présence d'une relation entre deux colonnes. Nous allons voir dans cette vidéo un type de graphique à utiliser lorsqu'on souhaite analyser une colonne catégorielle avec une colonne quantitative.
Les graphiques bivariées (ou graphiques croisés) sont un excellent moyen de vérifier graphiquement la présence d'une relation entre deux colonnes. Nous allons voir dans cette vidéo un type de graphique à utiliser lorsqu'on souhaite analyser deux colonnes quantitatives.
Télécharger le code SAS du projet à ce stade de la formation.
Vous pouvez importer le fichier sur SAS On Demand en faisant un clique droit dans le dossier qui contient vos fichiers SAS > Télécharger les fichiers vers le serveur.
Sélectionner ensuite le fichier que vous souhaitez importer.
Un test statistique, aussi appelé test d’hypothèses, est une procédure permettant de confronter deux hypothèses statistiques au sein d’une étude, et de déterminer l’hypothèse la plus probable et la moins probable. Il s'agit d'un excellent moyen pour déterminer l'association entre deux variables dans le cadre d'une analyse bivariée.
Avant de mettre en place les tests statistiques, nous allons chercher à déterminer à travers des effectifs et des pourcentages bivariés les relations entre les variables catégorielles.
Avant de mettre en place les tests statistiques, nous allons chercher à déterminer à travers des moyennes bivariées les relations entre les colonnes catégorielles et quantitatives.
Est-ce que le cours vous plaît ?
N'hésitez pas à me poser des questions si vous le souhaitez :)
Le test du Khi-Deux d'indépendance va nous permettre de déterminer si deux colonnes catégorielles sont liées. Le test nous permettra ainsi d'affirmer si une colonne catégorielle exerce une influence significative sur une autre colonne catégorielle.
Le test de Shapiro-Wilk nous permet de déterminer si une colonne/variable suit une distribution normale. Il s'agit d'une étape indispensable avant de tester l'indépendance d'une colonne quantitative. Nous expliquerons dans cette vidéo qu'est-ce qu'une distribution normale, puis comment appliquer le test de Shapiro-Wilk sur SAS.
Le test de Mann-Whitney nous permet de déterminer si une variable catégorielle et une variable quantitative sont liées dans le cas où les deux variables ne suivent pas une distribution normale. Nous allons voir dans cette vidéo comment appliquer le test sur SAS.
Le test de Student est l'équivalent du test de Mann-Whitney dans le cas où les deux variables que l'on souhaite analyser suivent une distribution normale. Nous allons voir dans cette vidéo comment appliquer le test.
Télécharger le code SAS du projet à ce stade de la formation.
Vous pouvez importer le fichier sur SAS On Demand en faisant un clique droit dans le dossier qui contient vos fichiers SAS > Télécharger les fichiers vers le serveur.
Sélectionner ensuite le fichier que vous souhaitez importer.
Introduction à la mise en place d'un algorithme de Machine Learning pour réaliser des prédictions : la régression logistique. Nous utiliserons cet algorithme au cours de cette partie pour prédire l'apparition de maladies cardiovasculaires chez des patients.
Un modèle peut être efficace sur les données qui ont servi à le construire, mais il peut à l’inverse, s’avérer inefficace sur des données nouvelles.
Par conséquent, nous allons procéder à une étape de prétraitement qui consiste à diviser le jeu de données en deux pour entraîner puis tester notre modèle. Le jeu de données d’entraînement (train) va nous permettre de préparer notre modèle de régression logistique afin de prédire correctement les valeurs prises par la variable Maladie. Le jeu de données de test (test) va quant à lui nous permettre de tester notre modèle de Machine Learning pour déterminer si celui-ci est suffisamment pertinent pour prédire les valeurs de la variable d’intérêt.
Nous allons dans cette vidéo mettre en place le modèle de Machine Learning pour pouvoir ensuite faire des prédictions sur l'apparition de maladies cardiovasculaires chez des patients.
Les prédictions réalisées par le modèle de Machine Learning peuvent être plus facilement interprétables à l'aide de quelques formatages avec SAS.
La matrice de confusion est une excellente méthode pour mesurer les performances d’un modèle. Cette matrice permet de mesurer à quelle fréquence les prédictions d’un modèle sont exactes par rapport à la réalité. Les prédictions correctes et incorrectes sont plus facilement apparentes et sont réparties par classes. Nous allons dans cette vidéo créer une matrice de confusion avec SAS.
Nous allons dans cette vidéo analyser les odds-ratios (ou rapports des cotes) pour évaluer le degré de dépendance des colonnes avec la variable d'intérêt.
La courbe ROC est un outil d’évaluation de modèles comparant le taux de vrais positifs avec le taux de faux positifs. Il s’agit d’un bon moyen visuel de mesurer la performance d’un modèle. Plus l’aire sous la courbe se rapproche de 1, plus cela indique que le modèle est précis. A l’inverse, plus l’aire se rapproche de la diagonale à 45 degrés, moins le modèle est précis.
Nous allons donc appliquer cette courbe aux résultats de notre algorithme de Machine Learning afin d'analyser les performances de celui-ci.
Avec SAS, l'affichage de cette courbe ROC est très simple à mettre en place.
Le test de Hosmer-Lemeshow est un test statistique mesurant l'adéquation du modèle de Machine Learning aux données. Nous allons appliquer le test afin de déterminer si le modèle que nous avons mis en place est efficace pour faire des prédictions.
Télécharger le code SAS final du projet.
Vous pouvez importer le fichier sur SAS On Demand en faisant un clique droit dans le dossier qui contient vos fichiers SAS > Télécharger les fichiers vers le serveur.
Sélectionner ensuite le fichier que vous souhaitez importer.
Félicitations, vous venez de terminer le cours pour apprendre à programmer avec SAS en partant de zéro.
Vous savez désormais comment appréhender des problèmes de Data Science et de Machine Learning avec SAS. N'hésitez pas à continuer de vous entraîner sur d'autres jeux de données en appliquant les mêmes procédures que l'on a vu au cours de la formation. De nombreux jeux de données sont disponibles sur Internet ;)
Pensez aussi à revenir voir ce cours de temps en temps, il sera mis à jour avec des nouvelles vidéos complémentaires qui peuvent vous aider à en apprendre davantage sur SAS, la Data Science et le Machine Learning.
N'hésitez pas à me contacter si vous avez une quelconque question.
À bientôt :)
Nous allons voir dans cette vidéo quelques bonus de choses que vous pouvez faire avec SAS (exportation du code en PDF, utilisation de l'outil Tâches et Utilitaires...).
Programmer en SAS pour la Data Science, le Machine Learning, la DataViz et l'Intelligence Artificielle
Ce cours est destiné à un apprentissage de SAS. Aucun prérequis n'est nécessaire et vous pouvez acquérir un niveau solide en seulement 4 heures de formation.
Acquérir des bases solides
Plus besoin de partir à la chasse aux informations sur Google, l'essentiel de votre apprentissage est contenu dans ce cours.
Gagner du temps
Ce cours est structuré pour vous initier à SAS de manière rapide et efficace, vous permettant d'atteindre un niveau compétent en seulement 4 heures.
Cours adapté à votre rythme d'apprentissage
Les concepts sont présentés pas à pas, avec des exemples pratiques tirés de projets d'entreprises et universitaires pour mettre en pratique ce que vous avez appris.
Cours récent et régulièrement mis à jour
Ce cours, créé et mis à jour récemment, correspond aux compétences sur SAS actuellement recherchées par les entreprises.
Éviter les pièges de débutants
Le cours met en avant les meilleures pratiques d'un développeur SAS expérimenté pour produire un code de qualité professionnelle.
Préparation réussie pour vos examens, certifications et tests techniques sur SAS
Les exercices inclus dans ce cours constituent un excellent moyen de préparation pour vos examens, certifications et tests techniques en entreprise.
Possibilité de travailler pour les entreprises les plus prestigieuses
Des entreprises telles que Twitter, Netflix, Meta (Facebook, Instagram, WhatsApp), Dell, J.P. Morgan, ainsi qu'AXA, Allianz, Deloitte, Sanofi, Crédit Agricole et Société Générale sont actuellement à la recherche de Data Scientists expérimentés en SAS.
Se former à des métiers actuellement recherchés
Aujourd'hui, la demande en Data Scientists, Data Engineers et autres professions liées au Big Data est élevée. C'est donc le moment idéal pour se former à ces métiers en forte demande.
Obtenir un certificat de fin de formation
Un certificat attestant que vous avez suivi et complété le cours vous sera remis à l'issue de la formation.