Ingeniería de variables para machine learning
What you'll learn
- Aprende a imputar variables con datos faltantes mientras capturas información de tus datos
- Convierte variables categóricas en numéricas mientras capturas información de tus datos
- Transforma la distribución de tus variables numéricas
- Convierte tus variables numéricas en intervalos discretos
- Extrae información de variables de fechas y tiempo
- Prepara los pasos de procesamiento de datos en una pipeline de predicción
- Aprende a implementar ingenieria de variables en Scikit-learn
- Implementa ingenieria de variables en el nuevo paquete Feature-engine
- Haz tus pipelines de ingenieria mucho mas simples
- Limpia y prepara tus set de datos para algoritmos de predicción
Requirements
- Una instalación de Python
- Jupyter notebooks
- Familiaridad con programación en Python
- Alguna experiencia con NumPy y pandas
- Conocimiento de algoritmos de predicción
Description
Aprende a modificar las variables en tus datos y construye mejores modelos de predicción.
Ya diste tus primeros pasos en ciencia de datos, ya conoces los modelos de predicción más usados, ya construiste alguna regresión lineal o algún árbol de predicción. Pero ahora, la vida real toca a tus puertas, y te das cuenta que los datos están sucios, les faltan valores, algunas variables tienen etiquetas en vez de números, no cumplen los supuestos de los modelos, un desastre! Y para peores, no encuentras muchas fuentes de conocimiento consolidadas al respecto. Solo blogs?
Este curso te va a ayudar! Este es el curso online más extenso y comprensivo en ingeniería de variables. Vas a aprender una enorme variedad de técnicas de ingeniaría usadas mundialmente en diferentes organizaciones, o en competiciones de ciencias de datos, para limpiar y transformar tus datos y variables.
Hemos juntado una recopilación de técnicas fantástica, luego de buscar, investigar e implementar métodos publicados en varias páginas online, artículos de publicación científica, artículos por organizaciones, y por supuesto, utilizando también nuestra experiencia como científicas de datos.
Específicamente, que vas a aprender?
Como imputar tus datos faltantes
Como codificar tus variables categóricas
Como transformar tus variables numéricas
Como convertir tus variables numéricas en intervalos discretos
Como remover datos atípicos
Qué hacer con variables de fechas y horarios
Como trabajar con diferentes zonas horarias
Qué hacer con variables mixtas
Vas a prender no una, sino múltiples técnicas que se pueden aplicar para cada uno de esos puntos. Y como si esto fuera poco, vas a aprender a implementar estas técnicas de manera elegante, eficiente, y profesional, utilizando Python, NumPy, pandas Scikit-learn y un paquete open-source especial que diseñamos especialmente para este curso: Feature-engine.
Al finalizar el curso, vas a poder ordenar todos tus pasos de ingeniería de variables en una pipeline simple y elegante, que te va a permitir poner tus modelos predictivos en producción de manera mucho más sencilla.
Necesitas saber más? Te contamos…
En el curso, vas a encontrar primero, las técnicas más utilizadas para ingeniería de variables, seguidas por técnicas más avanzadas y exclusivas, que capturan información, a la vez que codifican o transforman tus variables. Vas a encontrar también una explicación detallada de la técnica, que es lo que asume, cuales son las ventajas de su uso, así como también sus limitaciones, y luego, mejores prácticas de programación para implementarla en Python.
Este curso es apropiado para principiantes, pero también para estudiantes y practicantes intermedios y avanzados. Con seguridad, vas a encontrar alguna técnica dentro de nuestra colección, que te va a ser nueva y útil.
Con más de 100 lecciones individuales y 10 hs. de videos, este curso cubre casi todos los aspectos de ingeniería de variables, incluyendo técnicas de imputación de datos faltantes, técnicas de codificación de variables categóricas, transformación de variables numéricas, discretización, y trabajo con variables de fechas y tiempo.
En este curso, Python es el lenguaje que elegimos, por su simpleza y la cantidad de paquetes open-source que soportan la ingeniería de variables. Además creamos un paquete especial, Feature-engine, para que puedas aplicar todas estas técnicas en un puñado de líneas de código.
Entonces, que estás esperando? Súmate al curso, descubre el poder de una sólida ingeniería de variables, y construye mejores modelos de predicción.
Who this course is for:
- Científicos de datos que recién empiezan sus carreras
- Científicos de datos de datos quienes quieran aprender mas técnicas de ingeniería
- Ingenieros de software quienes quieran transicionar a ciencia de datos
- Estudiantes de universidad quienes quieran aprender más de ciencia de datos
- Científicos de datos quienes quieran mejorar su habilidad en programación
Course content
- Preview05:12
- Preview06:35
- Preview03:49
- Preview00:17
- 01:12Como abordar este curso
- 01:31Preparando tu ordenador
- 01:07El código para el curso | Jupyter notebooks
- 01:20Sets de datos para el curso | Como bajarlos
- 00:22Presentaciones para el curso
- 00:41Preguntas frecuentes
Instructors
Soledad Galli is a lead data scientist and founder of Train in Data. She has experience in finance and insurance, received a Data Science Leaders Award in 2018 and was selected “LinkedIn’s voice” in data science and analytics in 2019. Sole is passionate about sharing knowledge and helping others succeed in data science.
As a data scientist in Finance and Insurance companies, Sole researched, developed and put in production machine learning models to assess Credit Risk, Insurance Claims and to prevent Fraud, leading in the adoption of machine learning in the organizations.
Sole is passionate about empowering people to step into and excel in data science. She mentors data scientists, writes articles online, speaks at data science meetings, and teaches online courses on machine learning.
Sole has recently created Train In Data, with the mission to facilitate and empower people and organizations worldwide to step into and excel in data science and analytics.
Sole has an MSc in Biology, a PhD in Biochemistry and 8+ years of experience as a research scientist in well-known institutions like University College London and the Max Planck Institute. She has scientific publications in various fields such as Cancer Research and Neuroscience, and her research was covered by the media on multiple occasions.
Soledad has 4+ years of experience as an instructor in Biochemistry at the University of Buenos Aires, taught seminars and tutorials at University College London, and mentored MSc and PhD students at Universities.
Feel free to contact her on LinkedIn.
========================
Soledad Galli es científica de datos y fundadora de Train in Data. Tiene experiencia en finanzas y seguros, recibió el premio Data Science Leaders Award en 2018 y fue seleccionada como "la voz de LinkedIn" en ciencia y análisis de datos en 2019. A Soledad le apasiona compartir conocimientos y ayudar a otros a tener éxito en la ciencia de datos.
Como científica de datos en compañías de finanzas y seguros, Sole desarrolló y puso en producción modelos de aprendizaje automático para evaluar el riesgo crediticio, automatizar reclamos de seguros y para prevenir el fraude, facilitando la adopción del aprendizaje de máquina en estas organizaciones.
A Sole le apasiona ayudar a que las personas aprendan y se destaquen en ciencia de datos, es por eso habla regularmente en reuniones de ciencia de datos, escribe varios artículos disponibles en la web y crea cursos sobre aprendizaje de máquina.
Sole ha creado recientemente Train In Data, con la misión de ayudar a las personas y organizaciones de todo el mundo a que aprendan y se destaquen en la ciencia y análisis de datos.
Sole tiene una maestría en biología, un doctorado en bioquímica y más de 8 años de experiencia como investigadora científica en instituciones prestigiosas como University College London y el Instituto Max Planck. Tiene publicaciones científicas en diversos campos, como la investigación contra el Cáncer y la Neurociencia, y sus resultados fueron cubiertos por los medios en múltiples ocasiones.
Soledad tiene más de 4 años de experiencia como instructora de bioquímica en la Universidad de Buenos Aires, dio seminarios y tutoriales en University College London, en Londres, y fue mentora de estudiantes de maestría y doctorado en diferentes universidades.
No dudes en contactarla en LinkedIn.
Natalia Angarita es una científica de datos con más de 10 años de experiencia en el Reino Unido en sectores público, académico y privado cubriendo múltiples industrias como financiera, retail, viajes, gobierno, operaciones, salud, bio-medicina, entre otras. Ganadora del premio Ambition and Achievement Award, del Instituto de Ingeniería & Tecnología del Reino Unido.
Cómo científica de datos, Natalia ha desarrollado y puesto modelos de aprendizaje automático en producción para evaluar niveles de riesgo y optimizar el procesamiento de aplicaciones, para la predicción de deserción de clientes de banca empresarial, entre otros. Adicionalmente, ha trabajado en la segmentación de clientes en sector retail y viajes, identificando tendencias emergentes de compra y la evolución de preferencias de los clientes.
A Natalia le apasiona la enseñanza y contribuye en diversas comunidades en temas de tecnología y ciencia de datos. Natalia ha dado clases en maestrías de ciencia de datos, participado en reuniones y conferencias sobre el desarrollo y aplicación de algoritmos para diferentes áreas y escrito artículos disponibles en la web.
Natalia tiene una maestría en el procesamiento de señales e imágenes y un doctorado en el desarrollo de algoritmos para aplicaciones de metrología óptica. Adicionalmente, Natalia tiene más de 6 años de experiencia como investigadora científica en áreas de bio-medicina en la Universidad de Southampton y la Universidad de Warwick, UK. También es la autora de publicaciones en revistas indexadas de alto impacto incluyendo Nature Scientific Reports y conferencias internacionales, con artículos altamente citados.
No dudes en contactarla en LinkedIn.
Soy licenciado en matemáticas, especializado en el análisis de datos para empresas de videojuegos con R y Python, en Game Design para videojuegos de social casino, en el desarrollo de aplicaciones móviles para iOS y para Android y desarrollador de videojuegos utilizando los motores Unreal Engine y Unity tanto para PC como para móvil desde el año 2011.
Me encanta programar, crear apps y videojuegos que la gente utilice y sobretodo enseñar tanto en el mundo online, como en la Universidad presenciamente.
Aquí en Udemy, llevo como profesor online desde verano de 2015 he lanzado ya más de 90 cursos online con más de 250.000 estudiantes en más de 160 países de todo el mundo que han aprendido en castellano temáticas de desarrollo tan diversas como el mundo de las apps para iOS en Objective-C, Swift y SpriteKit, en Android con Java, desarrollo de videojuegos con Unity y Unreal Engine cubriendo desde lo más básico hasta aspectos avanzados para crear juegos profesionales o incluso análisis de datos masivos, big data, machine learning y data science con R, Tidyverse y Python.
Soy también Instructor Certificado de Unity (UCI), lo cual me permite viajar por todo el mundo asesorando y dando formación en desarrollo de videojuegos para empresas de CAD, o estudios de renombre como por ejemplo Team 17 (Worms, The Escapists), Genera Games (Disney's Frozen, Star Wars) o Ubisoft (Assassin's Creed, CSI Hidden Crimes)
Además, los propios estudiantes online de varias partes del mundo me han contactado para ir a dar conferencias y compartir mis experiencias en lugares tan bonitos como Colombia, Dinamarca, USA, México, Suecia, Holanda, Londres o Bolivia entre otros. Si no conoces aún ninguno de los cursos que imparto aquí en Udemy, tómate un tiempo para visitar los diversos cursos gratuitos que tengo publicados aquí mismo.