Big Data, Hadoop oraz MapReduce w języku Python
What you'll learn
- Paradygmat programowania MapReduce do rozwiązań Big Data
- Omówienie podstawowych elementów ekosystemu Hadoop
- Budowanie MapReduce Jobs w oparciu o bibliotekę MRJob
- Debugging MapReduce Jobs
- Uruchomienie programów MapReduce lokalnie
- Uruchomienie programów MapReduce z wykorzystaniem chmury - Amazon Web Services (AWS)
- Usługa Amazon Elastic MapReduce
- Analiza zawartości tekstowej Iliady
- Analiza danych dotyczących linii lotniczych
- Analiza danych dotyczących ruchu taksówek
- Analiza danych dotyczących recenzji produktów na sklepie internetowym Amazon
- Przykład użycia Big Data oraz technik NLP w przetwarzaniu języka
Requirements
- ukończone kursy ze ścieżki Python Developer
- ukończone kursy ze ścieżki Data Scientist
- posiadam kursy, które mogą pomóc w zdobyciu wszystkich niezbędnych umiejętności wymaganych do tego kursu
- wolny czas i chęci do podjęcia kroku w big data
Description
Umiejętność analizowania dużych zbiorów danych (Big Data) jest niezwykle gorącym tematem i zarazem jedną z najbardziej poszukiwanych umiejętności na rynku. Ponieważ cały ekosystem rozwiązań Big Data jest ogromny w tym kursie skupimy się głównie na paradygmacie programowania MapReduce, który jest podwaliną analiz Big Data.
Zbudujemy kilkanaście MapReduce Jobów, m. in. przeanalizujemy ruch lotniczy nad Stanami Zjednoczonymi, czy ruch taksówek w Nowym Jorku. Znajdziemy średni dystans pokonywamy przez połączenia lotnicze, czy chociażby najbardziej popularny punkt odbioru nowojorskich taksówek.
W celu uruchomienia naszych Jobów postawimy klaster Hadoopowy w chmurze Amazona wykorzystując usługę EMR - Elastic MapReduce.
Apache Hadoop
Biblioteka oprogramowania Apache Hadoop to framework, który pozwala na rozproszone przetwarzanie dużych zbiorów danych w klastrach komputerów przy użyciu prostych modeli programowania. Jest przeznaczony do skalowania od pojedynczych serwerów do tysięcy maszyn, z których każda oferuje pewną moc obliczeniową i pamięć masową. Zamiast polegać na sprzęcie w celu zapewnienia wysokiej dostępności, sama biblioteka jest zaprojektowana do wykrywania i obsługi awarii w warstwie aplikacji, zapewniając w ten sposób wysoce dostępny klaster obliczeniowy.
mrjob
mrjob pozwala na tworzenie zadań MapReduce w języku Python i uruchamianie ich na kilku platformach. Dzięki mrjob możesz:
utworzyć wieloetapowe zadania MapReduce w czystym Pythonie
przetestować zadanie na swoim lokalnym komputerze
uruchomić zadanie na klastrze Hadoop
uruchomić zadanie w chmurze za pomocą Amazon Elastic MapReduce (EMR)
uruchomić zadanie w chmurze za pomocą Google Cloud Dataproc (Dataproc)
uruchomić zadania Spark w EMR lub własnym klastrze Hadoop
Stack Overflow Developer Survey
Według Stack Overflow Developer Survey 2021 język Python jest najchętniej wybieranym językiem do nauki programowania.
Who this course is for:
- dla programistów języka Python, którzy chcą poznać ekosystem big data
- dla osób, które chcą zgłębić swoją wiedzę na temat big data, map reduce oraz Hadoop
- dla data scientistów
- dla analityków danych
- dla inżynierów uczenia maszynowego
- dla osób zainteresowanych big data
Instructor
EN
Python Developer/Data Scientist/Stockbroker
Founder at e-smartdata[.]org.
Big fan of new technologies!
Graduate of postgraduate studies at the Polish-Japanese Academy of Information Technology in the field of Computer Science and Big Data specialization.
Graduate of MA studies in Financial and Actuarial Mathematics at the Faculty of Mathematics and Computer Science at the University of Lodz. Former PhD student at the faculty of mathematics.
Stockbroker license holder (no 3073).
Lecturer at the GPW Foundation (technical analysis, behavioral finance and portfolio management).
PL
Data Scientist, Securities Broker
Założyciel platformy e-smartdata[.]org
Miłośnik nowych technologii, szczególnie w obszarze sztucznej inteligencji, języka Python oraz rozwiązań chmurowych.
Absolwent podyplomowych studiów na Polsko-Japońskiej Akademii Technik Komputerowych na kierunku Informatyka, spec. Big Data.
Absolwent studiów magisterskich z matematyki finansowej i aktuarialnej na wydziale Matematyki i Informatyki Uniwersytetu Łódzkiego.
Od 2015 roku posiadacz licencji Maklera Papierów Wartościowych z uprawnieniami do czynności doradztwa inwestycyjnego (nr 3073).
Wykładowca w Fundacji GPW prowadzący szkolenia dla inwestorów z zakresu analizy technicznej, finansów behawioralnych i zasad zarządzania portfelem instrumentów finansowych.
Z doświadczeniem w prowadzeniu zajęć dydaktycznych na wyższej uczelni z przedmiotów związanych z rachunkiem prawdopodobieństwa i statystyką.
Główne obszary zainteresowań to język Python, sztuczna inteligencja, web development oraz rynki finansowe.
IG: e_smartdata