Data Science, Apache Spark & Python: Analysiere echte Daten!
4.4 (326 ratings)
Course Ratings are calculated from individual students’ ratings and a variety of other signals, like age of rating and reliability, to ensure that they reflect course quality fairly and accurately.
4,009 students enrolled

Data Science, Apache Spark & Python: Analysiere echte Daten!

Erlebe Spark, indem du echte Daten analysierst - Geburtsstatistiken, Gletscherdaten, Taxibestellungen, ...
Bestseller
4.4 (326 ratings)
Course Ratings are calculated from individual students’ ratings and a variety of other signals, like age of rating and reliability, to ensure that they reflect course quality fairly and accurately.
4,009 students enrolled
Last updated 10/2017
German
Current price: $83.99 Original price: $119.99 Discount: 30% off
5 hours left at this price!
30-Day Money-Back Guarantee
This course includes
  • 7.5 hours on-demand video
  • 7 articles
  • 1 downloadable resource
  • Full lifetime access
  • Access on mobile and TV
  • Certificate of Completion
Training 5 or more people?

Get your team access to 4,000+ top Udemy courses anytime, anywhere.

Try Udemy for Business
What you'll learn
  • Analysiere riesige Datenmengen mit ein paar Zeilen Code in Apache Spark
  • Werte "Big Data" mit einfachem Python Code aus
  • Analysiere echte Daten nicht nur auf deinem Computer, sondern (optional) auch auf einem ganzen Rechencluster
  • Verwende den Beispielcode des Kurses für deine eigenen Projekte
  • Miete dir unzählige Computer in der Amazon-Cloud an, und werte noch größere Datenmassen aus (optional)
  • Fordere dich mit Übungsaufgaben heraus und festige spielerisch dein Wissen
  • Erstelle systematische Auswertungen, die das Potential haben, dein Business zu optimieren
Course content
Expand all 66 lectures 07:40:27
+ Hier starten
5 lectures 22:26
Download der Kursmaterialien
00:07
Welche Installation?
00:35
[Windows]: Installation (mit Docker)
09:16
+ Grundlagen
5 lectures 47:00
Einführung: Jupyter Notebook
11:12
Refresher: Python
13:31
Grafiken zeichnen mit Matplotlib (+ Aufgabe)
11:50
Grafiken zeichnen mit Matplotlib (Lösung)
03:06
+ Spark & RDD (Teil 1)
11 lectures 01:14:13
Du bekommst einen Fehler beim Erstellen vom SparkContext()?
00:10
Einführung: Resilient Distributed Dataset
10:07
Exkurs: Python und Lambda - Funktionen
12:23
Map, Union und .collect()
09:25
Daten filtern, Daten zählen
03:29
CSV - Datei einlesen und verarbeiten
14:00
Aufgabe: Auswerten von Flughafen - Daten
00:17
Auswerten von Flughafendaten
2 questions
Bonus: Airport - Daten als Diagramm visualisieren
06:58
Aufgabe: Auswerten von Flughafendaten (Lösung)
04:33
Daten weiterverarbeiten (map, sum)
06:19
Berechnungen beschleunigen: Caching verwenden
06:32
+ Spark & RDD (Teil 2)
10 lectures 54:17
Refresher: Tupel in Python
04:21
Daten aggregieren (reduceByKey)
12:19
Beispiel: Daten aggregieren (+ Aufgabe)
10:25
Beispiel: Daten aggregieren (Lösung)
02:44
Daten sortieren (sortByKey)
05:37
Airport: Aufgabe
00:13
Airport: Aufgabe
1 question
Airport: Aufgabe (Musterlösung)
04:22
flatMap() vs. map()
06:34
Aufgabe: Goethe Faust
00:30
Aufgabe: Goethe Faust
1 question
Aufgabe: Goethe Faust (Lösung)
07:12
+ Spark SQL
13 lectures 01:31:14
Einführung: Spark SQL
06:25
Exkurs: Operatoren überladen + Spark
07:10
DataFrames typisieren und Summe berechnen
10:08
Aufgabe: Wie viele Babys mit dem Vornamen "Lucia" gibt es?
05:43
Aufgabe: Wie viele Babys mit dem Vornamen "Lucia" gibt es?
3 questions
Lösung: Wie viele Babys mit dem Vornamen "Lucia" gibt es?
06:58
Spalten auswählen und umbenennen
07:23
Daten gruppieren
10:55
Projekt: Gletscher Daten einlesen
09:18
Projekt: Gletscher Daten aggregieren
06:25
Gletscher Daten visualisieren (+Aufgabe)
07:17
Gletscher Daten visualisieren (Aufgabe)
1 question
Gletscher Daten visualisieren (Lösung)
03:17
DataFrames & RDD
05:53
Spark SQL per SQL ansteuern
04:22
+ Projekt Spark SQL: Taxi - Daten aus New York
9 lectures 01:06:57
Projekt: Einführung
01:38
Einlesen der Daten
11:22
Frage: Zu welcher Uhrzeit werden am meisten Taxis benötigt?
10:49
Aufgabe: An welchem Wochentag werden am meisten Taxis benötigt?
00:15
Aufgabe: An welchem Wochentag werden am meisten Taxis benötigt?
1 question
Lösung: An welchem Wochentag werden am meisten Taxis benötigt?
03:57
Daten auf Karte visualisieren: Einlesen und filtern
09:54
Daten auf Karte visualisieren: Pixel generieren
10:31
Daten auf Karte visualisieren: Karte zeichen
15:22
Daten visualisieren
1 question
Lösung: Was ist das auf der Karte?
03:09
+ Spark in der Cloud
7 lectures 59:32
Einführung
10:34
Script vorbereiten
08:47
Registrierung & erste Schritte
09:05
Spark auf AWS ausführen
09:58
Spark auf AWS ausführen
12:20
Performance im Cluster
06:13
Schlussworte: Cloud
02:35
+ Bonus: Wie kannst du an unbekannte Daten rangehen?
5 lectures 41:36
Wie gehst du an unbekannte Daten ran?
06:36
Konzept: Standardabweichung
19:30
Lösung: Übung Standardabweichung berechnen
02:18
Gletscher Daten auswerten
04:26
Gletscher Daten visualisieren (Histogramm)
08:46
+ Schlussworte
1 lecture 03:10
Wie geht es jetzt weiter?
03:10
Requirements
  • Du brauchst einen eigenen Computer. Im Kurs zeige ich dir, wie du alle benötigten Tools unter Windows installierst, die Beispiele funktionieren aber 1:1 auch auf Mac und Linux
  • Du solltest schonmal was programmiert haben. Irgendeine Programmiersprache reicht - am Anfang des Kurses gibt's einen kleinen Python Crashkurs, wo du die wichtigsten Features von Python nochmal wiederholen kannst.
Description

Neu: Für Spark 2.1!

Auswertungen von "Big Data" werden immer wichtiger, Experten werden händeringend gesucht. Du lernst in diesem Kurs die heißeste Technologie, Apache Spark kennen. Dieses wird bereits von unzähligen Unternehmen verwendet, darunter Amazon, eBay, Groupon, TripAdvisor! Lerne jetzt Apache Spark - ganz bequem auf deinem eigenen Computer.

In diesem Kurs wertest du echte Daten aus. Dadurch macht dieser Kurs nicht nur richtig viel Spaß, die Beispiele sind auch besonders anschaulich und bereiten dich perfekt vor - sei es weil du selbst ein paar Daten auswerten möchtest, oder du dich für einen Job als Data Scientist bewerben möchtest!

✓ Verstehe die Spark Basics: Das Resilient Distributed Dataset
✓ Entwickle Spark - Programme in Python
✓ Fordere dich mit Übungsaufgaben heraus und festige nebenher dein Wissen
✓ Analysiere auf deinem Computer riesige Datenmengen mit ein paar Zeilen Code in Apache Spark
✓ Lasse ein echtes Spark - Cluster auf der Amazon Cloud (Elastic Map Reduce) laufen (optional)
✓ Ändere den Beispielcode aus diesem Kurs ab und analysiere noch schneller deine eigenen Daten

Nach Abschluss dieses Kurses kannst Datensätze eigenständig auswerten und visualisieren - und hast das schon zig mal gemacht. Du hast Gletscherstatistiken analysiert, Taxi - Daten visualisiert, Häufigkeit von Wörter in einem eBook bestimmt, sowie Geburtsstatistiken der USA ausgewertet. Dadurch bist du perfekt für eigenständige Auswertungen vorbereitet, und kannst z.B. deinen Chef mit aussagekräftigen Analysen beeindrucken!

Who this course is for:
  • Software-Entwickler, die sich weiterbilden möchten und große Datenmengen auswerten möchten
  • Wenn du noch nie was programmiert hast, ist dieser Kurs noch nichts für dich. Schau dir dann z.B. meinen Python - Kurs an!
  • Wenn du im Job größere Datenmengen verarbeiten musst, ist Spark da einfach das beste Tool für. Schau dir dann auf jeden Fall diesen Kurs an!
  • Wenn du dich auf eine Karriere als Data-Scientist vorbereiten möchtest, ist dieser Kurs ein gutes Training dafür