Introduzione al machine learning con R
4.4 (36 ratings)
Instead of using a simple lifetime average, Udemy calculates a course's star rating by considering a number of different factors such as the number of ratings, the age of ratings, and the likelihood of fraudulent ratings.
176 students enrolled
Wishlisted Wishlist

Please confirm that you want to add Introduzione al machine learning con R to your Wishlist.

Add to Wishlist

Introduzione al machine learning con R

La guida introduttiva in italiano al machine learning con R
4.4 (36 ratings)
Instead of using a simple lifetime average, Udemy calculates a course's star rating by considering a number of different factors such as the number of ratings, the age of ratings, and the likelihood of fraudulent ratings.
176 students enrolled
Created by Valentina Porcu
Last updated 5/2017
Italian
Curiosity Sale
Current price: $10 Original price: $175 Discount: 94% off
30-Day Money-Back Guarantee
Includes:
  • 8 hours on-demand video
  • 4 Articles
  • 4 Supplemental Resources
  • Full lifetime access
  • Access on mobile and TV
  • Certificate of Completion
What Will I Learn?
  • Capire i fondamenti del machine learning
  • Capire la distinzione tra metodi supervisionati e non supervisionati
  • Impostare un seed per la replicabilità dei risultati
  • Identificare e trattare i valori mancanti, i dati duplicati e gli outlier
  • Dividere un dataset in train e test set
  • Effettuare delle analisi di regressione lineare, multipla e logistica
  • Predire dati con la regressione
  • Calcolare la distanza con il coseno e il metodo Euclideo
  • Predire dati con il k nearest neighbors
  • Creare modelli predittivi con il Support Vector Machines
  • Creare e applicare modelli predittivi con gli Alberi di Decisione
  • Utilizzare il Naive Bayes
  • Utilizzare i Network Neurali con R
  • Capire i metodi non supervisionati, tra cui clustering e analisi delle associazioni
  • Utilizzare metodi ensemble, come bagging, boosting e random forest
  • Utilizzare i topic model
  • Trattare i valori mancanti, sia cancellandoli, sia sostituendoli con valori fissi come media o mediana, sia applicando dei metodi per la predizione dei dati mancanti, come il knn, e la regressione
  • Creare delle matrici di confusione e analizzare i modelli creati
View Curriculum
Requirements
  • Alcune conoscenze di base sulle strutture e il funzionamento di R
Description

Questo corso è dedicato a chi si avvicina al mondo del machine learning per la prima volta, pur avendo delle basi di programmazione e analisi dati con R. Non si tratta di un corso prettamente teorico o divulgativo e generico sul machine learning, ma di un corso che vuole spiegare le tecniche più semplici di machine learning con il linguaggio di programmazione R. 

Se non sai ancora programmare con R, purtroppo questo corso non fa ancora per te, ma puoi dare un'occhiata al mio corso introduttivo sempre qui su Udemy. Se stai cercando qualcosa di divulgativo e per niente tecnico che ti spieghi tramite esempi cos'è e a cosa serve il machine learning, ti consiglio di dare un'occhiata ad esempio al libro di Eric Siegel, che è tradotto in italiano. Se non hai voglia di sentire 7 ore di registrato, non ami i corsi, conosci già bene il linguaggio R ma vuoi approfondire il machine learning, puoi dare un'occhiata al mio sito, dove trovi il codice e del materiale aggiuntivo.

Se invece stai cercando esempi e casi per capire in maniera semplice le tecniche base del machine learning con R, sei nel posto giusto. R è uno dei linguaggi di programmazione più diffusi quando si parla di analisi dati, e comprende una serie di pacchetti e funzioni che possono aiutarci a predire dei dati.

Il machine learning comprende una serie di tecniche, alcune statistiche, come la regressione, altre categoriche, supervisionate e non supervisionate. Le tecniche supervisionate si appoggiano su dei dati pregressi. Immagina di voler far partire una campagna pubblicitaria per un prodotto: per prima cosa raccoglierai i dati sui clienti che hanno acquistato quel prodotto in passato. A questo punto il machine learning può aiutarti a costruire un profilo di persona potenzialmente interessata all'acquisto di quel particolare prodotto (ad esempio, donne tra i 30 e i 40 anni, che abitano in piccoli centri ed entrano in libreria almeno una volta al mese). Una volta che hai chiaro il target a cui rivolgerti, è più semplice pianificare una campagna basandoti sui dati che hai e su come raggiungere i tuoi potenziali clienti!

Facciamo un altro esempio: hai un'azienda ben affermata, che però sta perdendo un po' di clienti negli ultimi tempi: magari un concorrente ha appena aperto, oppure la tua clientela invecchia e non ci sono sostituzioni tra le persone più giovani. A questo punto, costruisci sempre un dataset, dove avrai una serie di dati sui tuoi clienti. In fondo al dataset, una colonna indicherà per ogni cliente se questi è ancora fedele all'azienda oppure se l'ha abbandonata. In base a questo dataset possiamo prevedere il profilo tipo di un cliente che è a rischio di abbandono, capire i motivi e tentare di recuperarlo, grazie alle tecniche di machine learning. Quando abbiamo una colonna nel dataset che ci indica per ogni cliente se questi è fedele o ha abbandonato l'azienda, allora parliamo di metodi supervisionati. 

Le tecniche di machine learning non sono tutte di tipo supervisionato. Alcune tecniche di machine learning, come ad esempio il clustering, ci aiutano a creare dei gruppi in un dataset, dove gli appartenenti a un gruppo sono simili tra loro e dissimili rispetto agli appartenenti a un altro gruppo. Altre tecniche non supervisionate vengono usate ad esempio nei supermercati, per capire quali prodotti vengono acquistati insieme, e quindi programmare delle promozioni. 

In questo corso vedremo vari tipi di tecniche di machine learning con R, sia supervisionate che non supervisionate, e imparerai a predire, a partire da un dataset etichettato (ti ricordi quando abbiamo scritto per ogni cliente se era fedele o aveva abbandonato l'azienda?) le appartenenze per un dataset simile ma che non contiene le etichette. Per fare questo utilizzeremo delle tecniche basate sulla probabilità, tecniche algebriche basate sulla distanza, gli alberi di decisione, e i network neurali. Imparerai a misurare la precisione di una predizione, a ripulire i dataset in caso ci siano problemi o casi non completi, come valutare ed effettuare sostituzioni se hai molti valori mancanti, come distinguere in maniera automatica un'email di spam da una che non lo è, come rappresentare graficamente i dati, come esportare un modello di analisi e come utilizzare delle tecniche ensemble per migliorare la predittività.


***Attenzione, questo corso al momento non comprende una parte relativa agli esercizi, che sarà aggiunta a breve con modalità che saranno chiarite nella Bonus Section

Who is the target audience?
  • Chi ha già qualche conoscenza di base di R
Students Who Viewed This Course Also Viewed
Curriculum For This Course
119 Lectures
08:07:08
+
Introduzione
7 Lectures 30:57





Per semplificare le analisi in R
05:03

Nella cartella allegata potete trovare i vari modelli creati per il corso suddivisi nei vari capitoli

Codice
00:01
+
Alcune informazioni introduttive
17 Lectures 01:25:16
Analisi esplorativa dei dati
09:26

La funzione set.seed()
01:54

Data cleaning
02:37

Alcuni metodi per la preparazione dei dati
10:24

Il pacchetto outliers
05:30

Il pacchetto editrules
04:23

Missing values
06:50

Dati duplicati
02:06

Identificazione degli outliers
08:51

Errori e inaccuratezze
01:15

La gestione delle date in R
13:47

Forzare una variabile come fattore
03:54

Codificare le variabili categoriche
02:53

Codificare una variabile in variabile dummy
03:48

Overfitting
02:44

Riduzione della dimensionalità dei dati
03:12

The curse of dimensionality
01:42
+
Metodi supervisionati
10 Lectures 01:02:19
Metodi supervisionati
03:59

Dividere un dataset in train set e test set
13:21

Analisi di regressione
03:26

Regressione lineare semplice
10:41

Predire eventi con la regressione
04:15

Secondo esempio e creazione grafici con ggplot
04:25

Regressione multipla
07:10

Regressione logistica
06:55

Altri tipi di regressione
01:01

Linear Discriminant Analysis (LDA)
07:06
+
Metodi di classificazione
31 Lectures 02:17:19
Classificazione
01:49

Calcolo della distanza
00:59

k-nearest neighbors
04:46

La distanza Euclidea
05:56

Normalizzazione dei dati
01:15

Esempi di knn con R
14:09

Costruzione di un sistema di raccomandazione tramite knn
07:20

Selezione di k
01:47

Altre misure di similarità
00:18

La distanza di Manhattan
00:56

Bag-of-words e distanza tramite coseno
05:19

Altre distanze
00:55

Support Vector Machines
03:36

Divisione dei dati in spazi non lineari
08:46

Esempio di SVM con R
02:56

Esempio di SVM sui testi con R
02:56

La funzione tune()
02:33

Alberi di decisione
10:14

DT con R - pacchetto party
02:58

DT con R - pacchetto rpart
04:32

DT con R - pacchetto tree
01:43

DT con R - pacchetto C50
01:36

Il calcolo delle probabilità
09:26

Alcuni cenni sul calcolo combinatorio
03:08

Probabilità condizionata
02:15

Il teorema di Bayes
03:16

Naïve Bayes in R
02:30

Naïve Bayes
03:45

Naïve Bayes in R sullo spam
10:10

Network neurali
09:40

Esempi di NN in R
05:50
+
Metodi non supervisionati
13 Lectures 58:34
Metodi non supervisionati
01:05

Clustering
05:41

L'algoritmo k-means
03:52

k-means con R
04:31

k-medoidi
04:54

Clustering gerarchico
05:16

Clustering gerarchico bayesiano
06:42

Stima della densità
05:25

Determinare il numero di cluster ideale
03:38

Misurazione dell'accuratezza del clustering
00:52

Analisi delle associazioni
05:19

Apriori con R
09:25

Eclat
01:54
+
Metodi ensemble
8 Lectures 29:08
Modelli markoviani
04:38

Metodi ensemble e classificazione avanzata
01:04

Bagging
05:28

Boosting e AdaBoost
04:31

Random Forest
04:19

Apprendimento per rinforzo
00:48

XGBoost
04:30

Analisi in componenti principali
03:50
+
Metodi semi-supervisionati
6 Lectures 13:29
Metodi semi-supervisionati
00:47

Bootstrap
02:39

Expectation-Maximization (EM)
00:33

Apprendimento attivo
01:07

Latent Dirichlet Allocation e topic models
02:08

Topic models in R
06:15
+
Trattamento dei missing values
10 Lectures 43:22
Trattamento dei valori mancanti
09:29

Visualizzazione dei missing
04:59

Imputazione dei missing values
02:21

Sostituzione dei missing con la media
03:24

Imputazione tramite regressione
05:06

Imputazione tramite knn
01:30

Trattamento con mice
03:58

Trattamento dei missing col pacchetto Amelia
08:18

Trattamento con hot.deck
02:30

Trattamento dei dati mancanti in variabili categoriali
01:47
+
Misurare le performance dell'algoritmo
13 Lectures 24:49
Misurare le performance dell'algoritmo
04:54

Per la classificazione
00:31

Matrice di confusione
01:43

Cross-validation
02:03

F-test
00:38

Per la regressione
01:57

RMSE
01:08

R2
00:55

Scegliere l'algoritmo giusto
02:15

La curve ROC
00:50

Ottenere informazioni sui modelli di predizione
01:30

Confronto tra più modelli
05:12

Migliorare l'accuratezza dei risultati
01:13
+
Conclusioni
3 Lectures 01:52
Riepilogo dei pacchetti per il ML in R
00:03

Fonti di dati
00:04

Conclusioni
01:45
1 More Section
About the Instructor
Valentina Porcu
4.4 Average rating
183 Reviews
2,790 Students
9 Courses
Data Scientist

I'm a computer geek, data mining and research passionate, with a Ph.D in communication and complex systems and years of experience in teaching in Universities in Italy, France and Morocco, and online, of course!

I work as consultant in the field of data mining and machine learning and I like writing about new technologies and data mining.

I spent the last 9 years working as freelance and researcher in the field of social media analysis, benchmark analysis and web scraping for database building, in particular in the field of buzz analysis and sentiment analysis for universities, startups and web agencies across UK, France, US and Italy.