What you'll learn
- Co to jest Spark i dlaczego jest wykorzystywany w pracy z Big Data
- Konfiguracja środowiska do pracy ze Sparkiem
- Data Frame i definiowanie struktury danych
- Budowanie wyrażeń PySpark
- Transformacja danych
- Wartości NULL
- Funkcje wykorzystywane w analizie: grupowanie, top 10, funkcje okienkowe,
- Łączenie danych i rodzaje joinów
- Partycjonowanie, odczyt i zapis sanych
Requirements
- Znajomość Pythona
- Rozumienie podstawowych pojęć z zakresu pracy z danymi: tabela, rekord, kolumna
Description
Spark to narzędzie, którego możemy użyć do przetwarzania ogromnych ilości danych – Big Data - i to zarówno na etapie ich oczyszczania, ale też później podczas budowania modeli uczenia maszynowego. Ta moc Sparka bierze się z tego, że jedno niewinne polecenie jest w tle rozsyłane przez Sparka do wielu maszyn zwanych workerami, które te dane przetwarzają i odsyłają gotowe wyniki, ale… bez obaw – wszystko dzieje się w tle, a developer po prostu skupia się na tym co lubi najbardziej, czyli pisaniu działającego kodu. I o pisaniu takiego kodu jest ten kurs.
Jakkolwiek by to brzmiało – Spark nie jest trudny. Dane trzeba wczytać, tyle tylko że wczytujemy je najczęściej z luźnych plików. Trzeba je odfiltrować, dodać kolumnę, usunąć kolumnę, w oparciu o istniejące dane wyznaczyć nowe. Znaleźć braki i je czymś uzupełnić, a wyeliminować wartości niepotrzebne. Czasami dane są rozrzucone między wiele tabel. W takim przypadku trzeba je ze sobą połączyć. Do każdej z tych operacji mamy odpowiednie polecenie i na tym kursie możesz je poznać.
Spark to platforma, która pozwala na pisanie swoich programów w Pythonie, SQL, Scali czy języku R. W tym kursie zajmujemy się pythonową wersją API Sparka, zwaną PySpark. Dlatego znajomość podstaw pracy z Pythonem jest tutaj niezbędna.
Na kursie zaczynamy od kilku propozycji środowiska w jakim można pracować ze Sparkiem. Następnie przyglądamy się poszczególnym obszarom pracy z danymi i z lekcji na lekcję powiększamy zbiór znanych funkcji.
Do każdej lekcji dostajesz do dyspozycji
materiał video
zadania wraz z propozycjami rozwiązania tych zadań na GitHub.
Na zakończenie kursu możesz podjąć się zbudowania małego projektu.
Do kursu jest też dołączony podręcznik PDF z krótką notatką z lekcji i treścią zadań.
Warto znać Sparka, bo w Data Science, Machine Learning czy AI, od danych się nie ucieknie. Spark pracuje w wielu innych produktach, jak np. Databricks, Synapse czy Microsoft Fabric. A tych danych jest coraz to więcej i ktoś musi je zrozumieć i przygotować.
Dlatego zapraszam na kurs „Spark i PySpark. Obejrzyj lekcje próbne, dodaj kurs do koszyka i poznaj potężne narzędzie do obróbki i analizy danych – Spark – Twój klucz do analizy Big Data.
Twój trener, Rafał
Who this course is for:
- Analitycy danych
- Data Scientists
- Data Engineers
- Programiści Pythona poszerzający wiedzę o Sparka
Instructor
EN
Microsoft Certified Trainer. Programmer, database administrator, trainer and consultant. The main areas of interest are database administration and design, automation with PowerShell ,Python and Bash, machine learning, analysis and presentation of data.
Experienced e-learning and distance learning tutor. Mentor of e-learning programs. Blogger.
Worked with, or teached for such companies as ING, Intel, Cadbury, Bank PeKaO, Volvo, UPC, ZUS, Polish Post and many more...
PL
Microsoft Certified Trainer. Programista, administrator baz danych, trener i konsultant. Główne specjalności to administracja i programowanie baz danych, automatyzacja z wykorzystaniem PowerShell, Python, Bash oraz machine learning, analiza i prezentacja danych.
Doświadczony trener szkoleń e-learning. Mentor wdrażania programów e-learning.
Pracował/pracuje/prowadził szkolenia dla takich firm i instytucji jak ING, Intel, Cadbury, Bank PeKaO, Volvo, UPC, ZUS, Poczta Polska i wiele innych...