KNIME Analytics Platform per Data Scientists, corso base
What you'll learn
- Conoscere KNIME Analytics Platform e le sue caratteristiche principali.
- Analizzare i dati, visualizzarli e ricavarne conoscenza, salvare le elaborazioni e creare dei report per presentare la sintesi del tuo lavoro.
- Imparare le principali tecniche di machine learning e utilizzarle con KNIME senza scrivere codice.
- Imparare ad accedere ai dati con KNIME, in qualsiasi posizione si trovino (file, rete, database)
Requirements
- Avere un computer con almeno uno dei seguenti sistemi operativi: Windows, macOS, Linux; potrebbe essere necessario un profilo di amministratore, per l'installazione
- Conoscenza delle principali tecniche utilizzate nel machine learning: Supervised e Unsupervised Classification, Clustering
- Non serve conoscere alcun linguaggio di programmazione
Description
Questo corso di rivolge alle persone che manipolano i dati per la loro attività (studenti, professionisti) e vorrebbero utilizzare gli algoritmi di machine learning per il data mining ma non hanno voglia o tempo di imparare un linguaggio di programmazione, come R o Python.
Fortunatamente ci sono strumenti che permettono di raggiungere gli stessi obiettivi, senza utilizzare una riga di codice (a meno che non si voglia proprio farlo).
Tra questi, sicuramente, KNIME Analytics Platform, o più semplicemente KNIME® è il più conosciuto e utilizzato in questo ambito.
KNIME® è un ambiente completo e Open Source per l'analisi dei dati e il machine learning, che permette l'uso degli algoritmi di data mining più diffusi all'interno di un Workbench visuale, grazie all'utilizzo di componenti software, detti nodi, che combinati in maniera opportuna, permettono di elaborare qualsiasi base di dati.
Il corso si compone di otto sezioni:
Introduzione all'applicativo KNIME Analytics Platform, i nodi, il Workflow, l'accesso ai dati memorizzati in files, in rete e su un database
Manipolazione e trasformazione dei dati e tecniche di aggregazione
Visualizzazione dei dati, creazione di viste interattive per l'analisi dei dati
Algoritmi di data mining con KNIME: classificazione supervisionata, regressione lineare, clustering
Salvataggio dei risultati delle proprie elaborazione su files o su databases e generazione di report
Aggiornamenti del corso relativi alla versione KNIME 5.1
Esempi e casi d'uso per KNIME Analytics Platform
Materiale Extra
La sezione "Esempi e casi d'uso per KNIME Analytics Platform" è un'espansione recente del corso, un corso nel corso, che riporta alcune applicazioni di KNIME Analytics Platform nei più svariati ambiti (gli esempi sono mostrati utilizzando la versione 5.3.2 di KNIME Analytics Platform):
Credit scoring: vedremo, nei panni di un impiegato di una banca, come valutare l'affidabilità di un cliente che chiede un prestito, sulla base di alcune informazioni anagrafiche e contabili relativi ai precedenti rapporti finanziari.
Churn analysis: nei panni di un operatore di telecomunicazioni, impareremo come predire la probabilità di abbandono di un cliente
Market basket analysis: siamo i gestori di un supermercato e ci interessa sapere, ogni volta che un cliente compra un certo tipo di articoli, qual è l'articolo che più spesso si trovano ad acquistare altri clienti nelle sue condizioni. Questa esigenze risponde alla regola: 'Se hai questo nel carrello, allora devi avere anche questo..."
Fraud detection: stavolta vedremo due approcci differenti che sono richiesti dalla natura del problema che vogliamo risolvere; in alcuni casi, infatti, potremo contare su osservazioni che possiamo etichettare come anomalie, perché fanno parte del nostro dataset, mentre in altri non sappiamo che caratteristiche queste possano avere, ma sappiamo come distinguerle dalle osservazioni normali. Il dataset che utilizzeremo è relativo ad un gestore di carte di credito che è interessato a evidenziare le transazioni fraudolente...
Time series: la predizione di una grandezza che evolve nel tempo è sempre stato un tema affascinante. Adesso, con gli strumenti di machine learning (e con KNIME Analytics Platform), abbiamo la possibilità di riuscire, anche noi a realizzare questo scopo. Il dataset che useremo è relativo ai consumi energetici dell'Irlanda, in un periodo specificato e vedremo come predire i consumi di alcuni cluster di clienti (volutamente si approccerà la tecnica utilizzando alcune semplificazioni, ad esempio, non verrà tenuto conto della stagionalità. Ricordiamo che, dopotutto, questo è un corso base...)
Inventory optimization: la gestione della logistica, in alcuni tipi di business è cruciale per il successo di una azienda. In questo esempio vedremo come possiamo, anche in questo caso, approcciare il tutto utilizzando KNIME
Anomaly detection: stavolta vedremo un caso particolare di rilevamento di una anomalia, che scaturisce dall'analisi delle misure di alcuni sensori montati su un motore elettrico che ci permetteranno, in ottica preventiva, di individuare il momento esatto in cui sta per iniziare una deriva del suo funzionamento che lo porterà, inevitabilmente, alla rottura.
Reccomendation engine: questa tecnica di machine learning è pervasiva e la vediamo utilizzata su molti siti di e-commerce e piattaforme di streaming (non facciamo nomi). L'esempio che vedremo ci permetterà di raccomandare a un utente, alcuni titoli di film sulla base di alcune preferenze che ha espresso.
Customer Segmentation: questa tecnica permette di creare dei clusters dei clienti di una azienda sulla base delle loro caratteristiche demografiche, di consumo e di interazione con la stessa. È una attività che può essere eseguita con diversi approcci, ma noi analizzeremo una implementazione con k-Means e punteggio silhouette, utilizzando un dataset da cui ricaveremo cinque tipologie di clienti su cui cucire la nostre offerte commerciali.
In tutte le sezioni si utilizzerà KNIME®, mostrando alcune implementazioni di data mining con dati pubblici.
Per migliorare la fruizione del corso e trarne il massimo profitto, sono state aggiunte diverse sezioni con Quiz, per verificare il vostro apprendimento e sono stati corretti i sottotitoli generati automaticamente in molte lezioni.
NOTE dell'autore:
KNIME® è un marchio registrato e il logo e il marchio OPEN FOR INNOVATION® sono utilizzati da KNIME AG su licenza di KNIME GmbH e sono registrati negli Stati Uniti. KNIME® è anche registrato in Germania.
L'autore non é collegato in alcun modo all'azienda.
Il corso è stato sviluppato sulla traccia del corso self paced [L1-DS] KNIME Analytics Platform for Data Scientists: Basics, disponibile, in lingua inglese, sul sito di KNIME.
La sezione "Esempi e casi d'uso per KNIME Analytics Platform" è stata elaborata, in buona parte, prendendo dei workflow di esempio dalla cartella Examples, disponibile sull'Hub di KNIME e da articoli pubblicati sul blog di KNIME.
Gli esempi mostrati durante le lezioni sono tutti disponibili sul sito KNIME Hub, cui si rimanda nelle risorse presenti alla fine di ogni lezione del corso.
Who this course is for:
- Studenti di Ingegneria, Statistica, Matematica
- Professionisti che nel lavoro hanno a che fare con i dati e che finora hanno utilizzato Excel o MS Access per le loro analisi
- Curiosi e appassionati di data mining, che non vogliono impare un linguaggio di programmazione per usare le tecniche di machine learning.
Instructor
Ho una laurea magistrale in Ingegneria Informatica, indirizzo Big Data e lavoro da molti anni in una importante azienda di Telecomunicazioni.
Sono membro della IAML (Italian Association for Machine Learning) e di ILS (Italian Linux Society) e seguo appassionatamente tutto quanto gira attorno al machine learning, i Big Data, il data analytics, l'AI e, di recente, i LLM.
Ho diverse certificazioni su KNIME Analytics Platform e sono KNIME Certified Trainer.
Ho pubblicato diversi interventi per il Linux Day, dove racconto sempre qualcosa sugli strumenti Open Source a supporto dal Data Mining (R, KNIME).
Sono un membro attivo della community di KNIME e ho partecipato e gestito diversi Data Connect, eventi in cui si possono incontrare le persone di KNIME e utilizzatori di tutto il mondo, che presentano un problema che riguarda la loro attività, che hanno risolto con l'uso di KNIME Analytics Platform.
Ho un mio blog dove cerco di riportare articoli o informazioni (principalmente su KNIME) che possono essere utili per un data scientist: potete trovarlo con un motore di ricerca, digitando 'data science facile'.
Nel mio lavoro ho a che fare con i dati e, negli ultimi anni, sempre più spesso e in quantità sempre maggiore.
Ho adottato KNIME Analytics Platform, perché mi ha permesso di aumentare la produttività, semplificando e velocizzando le analisi dei dati, grazie alla possibilità di provare e sperimentare varie soluzioni senza dovere imparare o usare un linguaggio di programmazione.