
Introduciamo in generale i concetti di statistica, statistica descrittiva e statistica inferenziale tracciando un quadro di quelle che sono le principali competenze da acquisire.
In questa lezione vediamo una possibile classificazione delle variabili. Non si tratta di qualcosa di puramente teorica, in quanto classificare correttamente una variabile è fondamentale per capire quali tecniche statistiche possono essere applicate.
Analizziamo i principali indici di posizione centrale:
media aritmetica
mediana
moda
studiando i ragionamenti da fare per scegliere l'indice più adatto per ogni caso.
Studiamo come calcolare i due principali indici di variabilità:
deviazione standard
differenza interquartile
In questa lezione vedremo:
una possibile tecnica per individuare i dati anomali (outlier);
come calcare il coefficiente di variazione per confrontare la variabilità tra variabili diverse.
Vediamo in questa breve lezione una seconda modalità di calcolo equivalente della varianza.
Approfondiamo le peculiarità di diverse tipologie di grafici per rappresentare variabili cardinali:
box plot
a barre
istogrammi
Calcoliamo con Excel gli indici di statistica monovariata studiati finora.
Utilizziamo Excel per rappresentare una variabile quantitativa tramite il suo boxplot, un diagramma a barre e un istogramma.
In questa lezione vedremo come installare l'edizione Express del database SQL Server e SQL Server Management Studio su un PC personale con sistema operativo Windows.
Installando il database sul tuo PC personale potrai seguire le lezioni con il linguaggio SQL in modo più interattivo (se avevi già installato il software in passato ovviamente non sarà necessario ripetere l'installazione), senza di esso le lezioni saranno comunque utili.
ATTENZIONE
È sempre sconsigliato installare qualsiasi tipo di software su un PC aziendale senza la preventiva autorizzazione del reparto IT.
Implementiamo su SQL Server gli indici di statistica monovariata studiati finora.
In questa lezione vedremo come installare Python su un PC personale con sistema operativo Windows, Jupyter e le principali librerie per la statistica e l'analisi dei dati.
Ovviamente vale sempre la raccomandazione di utilizzare un proprio PC personale (non aziendale) per installare questo e qualsiasi altro software.
Implementiamo su Python gli indici di statistica monovariata studiati finora.
Vediamo quattro tecniche per trasformare i dati di una variabile quantitativa senza perdere la sua distribuzione e tendenza. Ciò può essere utile per portare più variabili quantitative ad una stessa scala comune.
In questa lezione studiamo gli indici di asimmetria di Fisher e di curtosi per analizzare la forma di una variabile statistica quantitativa.
Implementiamo sul database SQL Server le varie tipologie di Scaling e il calcolo degli indici di Asimmetria e di Curtosi.
Implementiamo con Python le varie tipologie di Scaling e il calcolo degli indici di Asimmetria e di Curtosi.
Studiamo l'indice di eterogeneità di Gini per misurare la variabilità di una variabile qualitativa.
Implementiamo sul database SQL Server e con il linguaggio Python il calcolo dell'indice di eterogeneità di Gini e la sua versione normalizzata.
ATTENZIONE! AL DENOMINATORE DELL'INDICE V DI CRAMER VA INSERITO IL MINIMO TRA LE DUE QUANTITA, NON IL MASSIMO.
In questa lezione vediamo come calcolare il grado di associazione tra due variabili qualitative nominali tramite gli indici Chi quadrato e V di Cramer.
ATTENZIONE! AL DENOMINATORE DELL'INDICE V DI CRAMER VA INSERITO IL MINIMO TRA LE DUE QUANTITA, NON IL MASSIMO.
Implementiamo sul database SQL Server gli indici Chi quadrato e V di Cramer.
ATTENZIONE! AL DENOMINATORE DELL'INDICE V DI CRAMER VA INSERITO IL MINIMO TRA LE DUE QUANTITA, NON IL MASSIMO.
Implementiamo con Python gli indici Chi quadrato e V di Cramer.
Implementiamo con il database SQL Server il calcolo dell'indice Eta quadro.
Implementiamo con Python il calcolo dell'indice Eta quadro.
Studiamo come costruire una formula matematica per legare i valori di due variabili quantitative e calcoliamone la covarianza.
Terminiamo il calcolo della formula per legare due variabili cardinali (regressione lineare) e calcoliamo il coefficiente di correlazione di Pearson.
Creiamo un grafico a dispersione con Excel disegnando anche la relativa retta di regressione.
Studiamo come calcolare il coefficiente di correlazione di Spearman utilizzabile sia per variabili quantitative e sia per variabili qualitative ordinali.
Implementiamo con il database SQL Server il calcolo della covarianza, correlazione e la regressione lineare.
Implementiamo con Python il calcolo della covarianza, correlazione e la regressione lineare.
In questa lezione lavoriamo sul famoso dataset Titanic importato tramite la libreria Seaborn e vediamo come utilizzare i metodi describe e corr di Pandas per effettuare una prima analisi statistica.
Utilizziamo la libreria Seaborn per rappresentare accuratamente le interazioni tra le variabili del dataset Titanic.
Nella sezione "Risorse" trovi i file relativi alla lezione.
Introduciamo i concetti relativi alle serie storiche e capiamo perché i classici algoritmi di regressione non sono utili nella maggior parte dei casi.
Durante la lezione sono utilizzati dati di input provenienti dal file d'esempio presente nella documentazione online di Microsoft sul forecast in Excel.
https://support.microsoft.com/en-au/office/create-a-forecast-in-excel-for-windows-22c500da-6da7-45e5-bfdc-60a7062329fd
Nella sezione "Risorse" trovi i file relativi alla lezione.
In questa lezione esploriamo l'utilizzo della funzione Previsione Ets e Previsione Ets Stagionalità.
Durante la lezione sono utilizzati dati di input provenienti dal file d'esempio presente nella documentazione online di Microsoft sul forecast in Excel.
https://support.microsoft.com/en-au/office/create-a-forecast-in-excel-for-windows-22c500da-6da7-45e5-bfdc-60a7062329fd
Nella sezione "Risorse" trovi i file relativi alla lezione.
Introduciamo un modello matematico per l'analisi e la predizione delle serie storiche. Iniziamo ad implementare il modello su Excel step by step.
Durante la lezione sono utilizzati dati di input provenienti dal file d'esempio presente nella documentazione online di Microsoft sul forecast in Excel.
https://support.microsoft.com/en-au/office/create-a-forecast-in-excel-for-windows-22c500da-6da7-45e5-bfdc-60a7062329fd
Nella sezione "Risorse" trovi i file relativi alla lezione.
Terminiamo l'implementazione del modello introdotto nella lezione precedente trovando le previsioni finali.
Durante la lezione sono utilizzati dati di input provenienti dal file d'esempio presente nella documentazione online di Microsoft sul forecast in Excel.
https://support.microsoft.com/en-au/office/create-a-forecast-in-excel-for-windows-22c500da-6da7-45e5-bfdc-60a7062329fd
Introduciamo i concetti di statistica inferenziale e campionamento dei dati.
Studiamo i fattori correttivi da applicare alle formule di calcolo della statistica descrittiva per tener conto della numerosità ridotta del campione rispetto alla popolazione.
Studiamo cosa sono le variabili normali e come valutare questa caratteristica nella nostra popolazione di analisi.
Calcoliamo una stima intervallare per la media di una popolazione normale.
Approfondiamo il concetto di intervallo di fiducia e osserviamo le differenza tra la distribuzione normale e la distribuzione di Student.
Vediamo come calcolare un intervallo di fiducia per varianza e deviazione standard. Tuttavia si tratta di un calcolo poco usato nella pratica perché molto sensibile all'ipotesi di normalità dei dati della popolazione.
Eseguiamo un test statistico sulla media di una popolazione normale.
Eseguiamo un test statistico sulla media di popolazioni normali indipendenti con il t-test di Welch
Studiamo ora il caso in cui i due campioni sono dipendenti (misure ripetute) svolgendo il relativo test statistico sulla media di popolazioni normali.
Complimenti! Hai completato il Corso di Statistica per Data Analyst e sviluppatori.
In questo video ti mostro La Scuola dei Dati, la mia piattaforma didattica in cui trovi tutti i temi di cui hai bisogno spiegati in un unico percorso completo, organico e strutturato, pensato per accompagnarti passo dopo passo. Costruisci oggi la tua carriera in Data Analysis e Intelligenza Artificiale, a soli 11€ al mese.
Visita il sito https://www.lascuoladeidati.it/
Applica il codice 68D7C in fase di registrazione per ottenere un 30% di sconto sul primo mese.
Conoscere la statistica è un upgrade fondamentale per chiunque lavori nell'ambito dell'analisi dei dati e più in generale nella programmazione. Il corso nasce per darti una formazione pratica e diretta sui temi principali della statistica, a partire dalla mia esperienza prima come studente di matematica all'università, e poi come programmatore in SQL e Python.
Partiremo assolutamente da zero, imparando a classificare le variabili, calcolare i principali indici di statistica univariata e bivariata, fino a studiare i temi principali della statistica inferenziale come le stime puntuali, intervallari e i test statistici.
Il corso è ricco di implementazioni statistiche in Excel, SQL (nella versione T-SQL del database SQL Server) e Python. Ho scelto questi tre strumenti/linguaggi perché sono i più utilizzati in ambito aziendale, essendo il corso pensato soprattutto per chi proviene da un background informatico, per quanto penso che possa essere apprezzato da chiunque sia interessato alla statistica.
II corso non è pensato per insegnarti da zero SQL e Python, ma per farti vedere come è possibile utilizzarli praticamente per automatizzare e applicare a grandi moli di dati i calcoli statistici che impareremo a fare prima manualmente e su Excel. D'altra parte non è indispensabile avere conoscenza di SQL e Python per seguire il corso, per quanto una loro conoscenza permetterebbe di apprezzare meglio le parti relative a questi linguaggi. Ho riportato comunque per completezza anche delle videolezioni per procedere con l'installazione di SQL Server e Python su un proprio PC personale con sistema operativo Windows.
Aggiornamento: ho aggiunto una nuova sezione dedicata alla previsione di serie storiche con Excel, sia con la nuova funzionalità Foglio Previsioni di Excel 365 e sia tramite l'implementazione step by step di un modello matematico previsionale.
Tutte le videolezioni sono corredate anche dai file contenenti gli esercizi visti durante le spiegazioni. Nel complesso, si tratta a tutti gli effetti di un manuale riepilogativo degli argomenti di statistica visti. Inoltre sarò sempre disponibile a rispondere a dubbi e domande sul materiale del corso, che potrai porre tramite i messaggi di Udemy o l'apposita sezione di Domande & Risposte.