Weiterbildung

 

Kurs 3: Big Data Integration und Verarbeitung

Sobald Sie ein Big Data Geschäftsfall identifiziert haben. Wie analysieren Sie den Geschäftsfall? Wie sammeln, speichern und organisieren Sie Ihre Daten am Beispiel einer Big Data-Lösung?

 

Willkommen im dritten Modul der Big Data Spezialisierung. 

In diesem Block werden Sie in grundlegende Konzepte in der Big Data Integration  und -verarbeitung eingeführt. Sie werden durch die Installation der Cloudera VM geführt, das Herunterladen der Datensätze, die für diesen Kurs verwendet werden sollen, und lernen, wie man den Jupyter Server ausführt.

Teil 2:

Bevor man mit Daten arbeiten kann, muss man die Daten erstmal bekommen. Dieses Modul deckt die grundlegenden Möglichkeiten, wie die Daten erhalten werden können. Der Kurs umfasst die Erlangung von Daten aus dem Web, von APIs, von Datenbanken und von Kollegen in verschiedenen Formaten. Es wird auch die Grundlagen der Datenbereinigung und wie man Daten "ordentlich" vorbereitet.

Der Kurs deckt die Grundlagen für das Sammeln, Bereinigen und Teilen von Daten ab.

 

Grafik Kurse 3

 

Organisation

Dauer10 Halbtage (40 Lektionen)
Durchführung:wöchentlich
Lehrgänge:1-2 mal jährlich
HeimstudiumAls Vorbereitung- und Vertiefung sind 6-8 Stunden pro Ausbildungseinheit einzurechnen

Kurskosten

Einschreibegebühr 170.-
Kurskosten1'880.-
Lehrmittelinkl.

Nutzen/Lernziele

Nach der Teilnahme dieses Kurses sind Sie in der Lage:

  • die Big Data Landschaft anhand Beispielen in der realen Welt, einschliesslich der drei wichtigsten Quellen für Big Data: Menschen, Organisationen und Sensoren zu beschreiben
  • Daten aus Beispieldatenbanken und Big Data Management Systemen abzurufen

  • die Beziehungen zwischen Datenmanagement-Operationen und den Big Data Verarbeitungsmustern, die verwendet werden zu verstehen, um sie in gross skalierten analytischen Anwendungen zu nutzen

  • zu identifizieren, wann ein Big Data Problem Datenintegration benötigt

  • Praxis: Integrieren einer einfachen Big Data Lösung und deren Verarbeitung auf Hadoop- und Spark-Plattformen

     

Voraussetzung

  • Besuch Kurs: Einführung in Big Data—Basis und Grundlagen

  • Kenntnisse im Umgang mit virtuellen Maschinen

  • Hardwareanforderungen:
    Quad Core Prozessor (VT-x oder
    AMD-V Unterstützung empfohlen),
    64-Bit; (B) 8 GB RAM; (C)
    20 GB Festplatte frei

  • Softwareanforderungen:
    diverse kostenlose Open-Source-Tools (werden im Unterricht bereitgestellt)


Um sicherzustellen, dass der von Ihnen vorgesehene Ausbildungsweg wirklich Ihren Bedürfnissen entspricht, bieten wir eine kostenlose und unverbindliche Ausbildungsberatung an.

Einen Termin für ein Beratungsgespräch können Sie gerne telefonisch unter 031 398 98 00 oder direkt auf unserer Webseite vereinbaren.

Modulübersicht

Teil 1: Big Data

Block 1 - Abrufen von Big Data (Teil 1)

Deckt die verschiedenen Aspekte des Datenabrufs und der relationalen Abfrage ab. Sie werden auch in die Postgres-Datenbank eingeführt.

 

Block 2 - Abrufen von Big Data (Teil 2)

Dieser Block umfasst die verschiedenen Aspekte des Datenabrufs für NoSQL-Daten sowie die Datenaggregation und die Arbeit mit Daten Frameworks. Sie werden in MongoDB und Aerospike eingeführt, und Sie werden lernen, wie man Pandas benutzt, um Daten von ihnen abzurufen.

 

Block 3 - Big Data Integration

In diesem Block werden Sie in die Datenintegrationstools wie Splunk und Datameer eingeführt und Sie erhalten einen praktischen Einblick in die Durchführung von Informationsverarbeitungsprozessen in Big Data.

 

Block 4 - Big Data Verarbeitung 

Dieser Block führt Lernende ein in Big Data Datenpipelines und Workflows sowie in die Verarbeitung und Analyse von Big Data mit Apache Spark ein.

 

Block 5 - Big Data Analytics mit Spark

In diesem Block verteifen Sie sich in Big Data Datenverarbeitung , indem sie das Innere funktionieren des Spark Core kennenlernen. Ihnen werden zwei Schlüsselinstrumente im Spark Toolkit vorgestellt: Spark MLlib und GraphX.

 

Teil 2: Data Science

Block 6

In diesem ersten Block  des Moduls beschäftigen wir uns mit verschiedenen Datentypen  und lesen verschiedene Dateitypen ein.

 

Block 8

Das primäre Ziel ist es, Ihnen die gängigsten Datenspeichersysteme und die entsprechenden Werkzeuge vorzustellen, um Daten aus dem Web oder aus Datenbanken wie MySQL zu extrahieren..

 

Block 7

Schleife-Funktionen und Debugging-Tools in R

Die Vorlesungen in diesem Block decken Schleife Funktionen und die Debugging-Tools in R ab. Diese Aspekte von R machen R nützlich für interaktive Arbeit und Schreiben von längerem Code, und so werden sie häufig in der Praxis verwendet.

 

Block 8

In diesem Block konzentrieren sich die Vorlesungen auf die Organisation, Zusammenführung und Verwaltung der Daten, Daten die Sie mit den Vorlesungen aus den Blöcken 1 und 2 gesammelt haben.

 

Block 9

In diesem Block beenden wir mit Vorträgen über Text- und Datumsmanipulationen in R.