Machine learning y data science con scikit-learn y pyspark

Aprende las principales técnicas de machine learning y ciencia de datos para aplicarlas en proyectos con python

Created byJosé Manuel Ortega

Last updated 4/2020

Spanish

Spanish [Auto],

What you'll learn

Investigar que con Python también se puede hacer ciencia de datos y machine learning.
Aplicar técnicas de machine learning y ciencia de datos en proyectos con python
Que el alumno descubra el potencial de las técnicas de Machine Learning para el análisis de datos y sobre todo para extracción de información a partir de los datos. Es decir, sacar valor a los datos.
Presentar con casos prácticas las técnicas de Machine Learning que actualmente se utilizan en soluciones de análisis de datos, tanto en Big Data como en Data Science en general.
Dar a conocer una de las herramientas más fáciles de utilizar para aplicar Machine Learning a problemas reales de una manera sencilla, como es Python, Numpy y Scikit-Learn.

Course content

6 sections • 84 lectures • 16h 11m total length

Introducción7:39
Me presento, hago una presentación del curso,comentando el temario y los principales conocimientos que adquieren los estudiantes cuando lo terminen
Definiciones13:38
Definiciones de ciencia de datos y machine learning
Introducción al aprendizaje automático4:42
Introducción y ejemplos de aplicación de machine learning
Tipos de aprendizaje automático7:41
Se comentarán los principales tipos de aprendizaje automático
Aprendizaje supervisado vs no supervisado6:52
Se comentarán los problemas que resuelven cada tipo
Problema del sobreentrenamiento6:43
Se comentará la problemática del sobreentrenamiento en problemas de machine learning y se propondrán algunas soluciones
Pasos para construir un modelo de machine learning10:23
Se comentarán los principales pasos para construir un modelo de machine learning
Cuestionario de evaluación machine learning

Librerías de Python para machine learning:Numpy, SciPy, Pandas18:11
Se comentarán los principales librerías,instalación y ejemplos con numpy y pandas
Instalación anaconda + jupyter notebook18:29
Se comentará la instalación de un entorno de desarrollo para python basado en notebook instalando los paquetes mediante anaconda

Se comentarán los principales comandos para instalar paquetes con anaconda
Conjunto de datasets12:36
Se comentará el módulo pydatasets que contiene conjuntos de datos predefinidos que podemos usar para realizar pruebas
Crear nuestro propio dataset7:47
Introducción a pandas15:07
Se comentarán las principales funcionalidades de la librería pandas para tratamiento de datos
Ejemplos prácticos tratamiento de datos con pandas9:17
Se comentarán ejemplos con las librerías de pandas
Librerías de visualización de datos con python13:24
Se comentarán los principales librerías de visualización de datos en python,
Ejemplos prácticos visualización de datos19:09
Se comentarán ejemplos para visualización de datos con matplotlib,bokeh, seaborn y folium
Visualizacion datos con bokeh última version 0.12.1019:16
Visualizacion datos con bokeh última version 0.12.10
Librerías de machine learning con python0:52
Se comentarán librerías relacionadas con machine learning que podemos encontrar en python
Cuestionario de evaluación tratamiento y visualización de datos

Introducción a scikit-learn11:22
Instalación de la librería , uso de los principales módulos y datasets incorporados en scikit-learn
Datasets sklearn15:19
Algoritmos de Machine Learning en scikit-learn16:51
Se comentarán los principales algoritmos que vamos a ver y dar una primera visión de los vamos a ver a nivel del API de sklearn para entrenar nuestros datos
Introducción a la regresión lineal8:39
Se introducirá la regresión lineal a nivel teórico y se introducirá cómo podemos aplicarlo de forma gráfica con sklearn y matplotlib
LinearRegression como algoritmo de regresión lineal14:34
Definir en qué consiste el algoritmo de regresión lineal y ejemplo de problema de regresión lineal con un dataset definido en scikit-learn
Resolver problema de predecir el tráfico web14:40
Se tratará de resolver el problema de predecir el trafico de una web mediante distintos algoritmos de regresión para determinar cuál es el más óptimo
Logistic Regression como algoritmo de regresión logística12:50
Ejemplo de regresión logística con un dataset definido en scikit-learn
LogisticRegresion gráfico7:55
Introducción a los árboles de decisión12:09
Se introducirán los principales conceptos a nivel teórico de los árboles de decisión
DecissionTreeClassifier como algoritmo de árboles de decision18:50
Ejemplo de árboles de decisión con un dataset definido en scikit-learn
DecissionTreeRegressor como algoritmo de selección de mejores atributos14:59
SVM como algoritmo de máquinas de vectores de soporte2:02
Explicación del algoritmo SVM para resolver problemas de clasificación
Implementación del algoritmo SVM en scikit-learn13:29
Ejemplos de clasificador multiclase y gráfico donde se pueden ver los diferentes modelos de implementación de support vector machine
Clasificador de dígitos con el algoritmo SVM en scikit-learn19:55
Ejemplo de implementación en python con scikit-learn con el dataset de digits
K-NN (K Nearest Neighbor) como algoritmo de clasificación supervisada14:07
Explicación del algoritmo K-NN (K Nearest Neighbor) para resolver problemas basados en el cálculo de los k vecinos más cercanos
Implementación de KNeighborsClassifier en scikit-learn17:38
Ejemplos de implementación en python con scikit-learn
KneighborsClassifier vs RadiusNeighborsClassifier0:23
Comparación entre ambos modelos de aprendizaje en scikit-learn
Clustering y aprendizaje no supervisado8:18
Explicación del algoritmo de clustering dentro del aprendizaje no supervisado
Aplicaciones de clustering0:48
Describir las principales aplicaciones que se pueden aplicar
Tipos de clustering2:15
K-means como algoritmo de clustering10:31
Explicación del algoritmo Kmeans para resolver problemas de agrupación de datos
Implementación de K-means en scikit-learn21:58
Ejemplo de implementación en python con scikit-learn
Ejemplos kmeans en scikit-learn16:25
AffinityPropagation en scikit-learn12:52
Implementación del algoritmo de clustering AffinityPropagation en scikit-learn
Titanic Dataset gráficos19:03
Mostrar el dataset del titanic con gráficos circular,histograma y de barras
Titanic Dataset Scikit-learn20:47
Mostrar técnicas de tratamiento de datos antes de aplicar machine learning ,técnicas relacionadas con la limpieza de los datos y la selección de atributos,a nivel de aprendizaje se mostrará el algoritmo de árbol de decisión sobre el dataset de titanic.scv
Cuestionario de evaluación scikit-learn

Introducción al big data0:52
Introducción a Apache Spark9:49
Comentar las principales características de Apache Spark y ventajas respecto a otros sistemas
Módulos de Apache Spark14:04
Comentar los principales módulos de Apache Spark
Spark para Científicos de Datos0:59
Comentar los principales ventajas que aporta Spark para científicos de datos
Instalación de Apache Spark13:44
Comentar la instalación de Apache Spark en sistemas unix
Consola interactiva en pyspark0:51
Comentar la ejecución de comandos de spark desde la consola interactiva de python
SparkContext y esqueleto de una aplicación con pyspark16:52
Comentar el principal objeto del que disponemos para trabajar con spark y ejemplos de aplicación mediante scripts de python
SparkSubmit para la ejecución de scripts python0:25
Comentar el script sparksubmit para lanzar scripts completos en python.
Ejemplo de script
SparkSubmit parte práctica14:28
Datasets y RDD con pyspark1:24
Definir los conceptos de dataset y RDD dentro del contexto de spark
Crear un RDD en python con pyspark13:04
Crear colecciones de datos con pyspark
Operaciones sobre un RDD12:06
Comentar las principales operaciones que se pueden aplicar a las colecciones de datos con pyspark.
Transformaciones y acciones.
Ejemplos prácticos de operaciones
Transformaciones sobre un RDD22:03
Comentar las principales transformaciones que se pueden aplicar a las colecciones de datos con pyspark.
Map Reduce en pyspark8:59
Comentar las principales funciones en spark para tratar un problema mediante map reduce.
Ejemplo de map reduce
Funciones lambda en python2:54
Funciones lambda,map,filter,reduce en python
Resumen operaciones pyspark21:42
Resumen operaciones pyspark
Resumen operaciones map reduce19:16
Resumen operaciones map reduce
Instalar y ejecutar Pyspark con docker2:32
Comentar la instalación y ejecución de pyspark con docker
Instalar y ejecutar Pyspark con docker17:45
Instalar y ejecutar Pyspark con docker
Contador de palabras con pyspark18:15
Ejemplo de scripts en python con jupyter notebook
Palabras más frecuentes de un texto con pyspark8:42
Palabras más frecuentes de un texto con pyspark
Leer ficheros csv10:20
Leer fichero csv y cargarlo como un RDD en spark
Lectura ficheros json con pyspark12:14
Comentar los principales modos de lectura y carga de ficheros
Ejemplo de lectura csv y json
Trabajando con Spark SQL y dataframes22:24
Introducir Spark SQL como módulo que permite trabajar con datos estructurados
Ejemplo de operación sql y estructuras dataframes
Resumen operaciones sql dataframes pyspark20:04
Resumen operaciones sql dataframes pyspark
Docker compose y ejemplo cluster con pyspark23:25
Instalar Docker compose y mostrar ejemplo de aplicación con un cluster de docker para ejecutar pyspark
MLlib como módulo de machine learning con pyspark9:14
Introducir MLlib como módulo de machine learning comentando los principales algoritmos que podemos utilizar
Introducción a MLlib4:41
Ejemplo clasificación Spam con mLlib14:33
Comentar qué algoritmos podemos usar dentro de pyspark para solucionar un problema de clasificación de correo spam.
Ejemplo de algoritmo con python
Clustering con pyspark. Algoritmo Kmeans10:12
Comentar un problema de clustering y cómo podemos solucionarlo con pyspark
Ejemplo algoritmo kmeans con python
Cuestionario de evaluación pyspark

Definir sistema de recomendación7:24
Tipos de sistemas de recomendación8:25
Filtros basados en contenido (Content-Based Filtering)3:56
Introducir los filtros basados en contenido
Mostrar un ejemplo con python de filtro basado en el contenido
Practica filtro basado en contenido14:07
Sistema de recomendaciones que recomiende películas a los usuarios
Practica filtro basado en contenido mediante extracción de atributos18:42
Filtros colaborativos (Collaborative Filtering)1:20
Introducir los filtros colaborativos
Mostrar un ejemplo con python de filtro colaborativo
Práctica filtro colaborativo18:16
Practica en notebook con ejemplo de recomendación basado en filtro colaborativo donde se usa el dataset de movielens que contiene películas y usuarios que votan las mismas.
Práctica filtro colaborativo csv16:26
Práctica filtro colaborativo csv
Conclusiones0:40
Cuestionario de evaluación sistemas de recomendación

Requirements

Es necesario tener conocimientos básico de python.
Es necesario tener instalada la distribución de Python de Anaconda, preferentemente la versión de Python3. Se usarán principalmente las librerías numpy, scipy, pandas, scikit-learn y pyspark.
Es necesario tener instalado python.Trabajaremos con python 3.6

Description

Este curso pretende ser una introducción a las técnicas más relevantes de Machine Learning y mostrar ejemplos de aplicación de estas técnicas. Que sirva para conocer qué técnicas existen, en qué se fundamentan y sobre qué tipos de problemas pueden aplicarse.
El enfoque será teórico-práctico y se hará uso del lenguaje de programación Python y del toolkit Scikit Learn. Se recomienda a los alumnos instalarse ANACONDA en su plataforma habitual. ANACONDA incluye Python, Scikit-Learn y Matplotlib. La versión de python que utilizaremos será la 3.6.
También veremos pyspark como plataforma de desarrollo de aplicaciones distribuídas
Entre los principales objetivos podemos destacar:
Introducir los conceptos de ciencias de datos y machine learning.
Introducir las principales librerías que podemos encontrar en python para aplicar técnicas de machine learning a los datos.
Introducir las principales librerías que podemos encontrar en python para tratamiento y visualización de datos
Dar a conocer los pasos para construir un modelo de machine learning, desde la adquisición de datos,pasando por la generación de funciones, hasta la selección de modelos.
Dar a conocer los principales algoritmos para resolver problemas de machine learning.
Introducir scikit-learn como herramienta para resolver problemas de machine learning.
Introducir pyspark como herramienta para aplicar técnicas de big data y map-reduce a los datos.
Conocer y aplicar algoritmos de machine learning con pyspark.
Introducir los sistemas de recomendación basados en contenidos

Who this course is for:

Desarrolladores python interesados en herramientas de machine learning y data science

Machine learning y data science con scikit-learn y pyspark

What you'll learn

Explore related topics

Course content

Introducción a la ciencia de datos y machine learning7 lectures • 58min

Librerías para tratamiento y visualización de datos con python10 lectures • 2hr 14min

Scikit-learn como librería de machine learning26 lectures • 5hr 29min

Pyspark como librería de big data y data science30 lectures • 5hr 48min

Sistemas de recomendación9 lectures • 1hr 29min

Recursos y artículos2 lectures • 14min

Requirements

Description

Who this course is for: