🏠 » Data Warehouse » Data Warehouse-Software » ETL-Software » IBM DataStage

IBM DataStage Plattform

Die ETL-Software IBM DataStage ist ein Produkt der Firma IBM. Diese gehört zur IBM Plattform Lösung InfoSphere und ist als Server, Enterprise und MVS Version verfügbar.

Für den Aufbau von ETL Strecken wird eine  grafische Notation verwendet.  Es handelt sich bei DataStage um eine leistungsstarke, hoch skalierbare Plattform, die eine Datenverarbeitung fast in Echtzeit ermöglicht.

IBMs DataStage steht nicht als Demo zur Verfügung und kann daher nicht zu Schulungs- und Übungszwecken heruntergeladen und installiert werden. Dies ist aufgrund der Plattform-Lösung nicht möglich.

Die Installation und Konfiguration ist sehr komplex und von Datenbankanfängern nicht umsetzbar.

Benutzeroberfläche und Funktionen zur Datenintegration

Die Benutzeroberfläche ist sehr übersichtlich und unterteilt sich in einen großen, zentralen Editorbereich und einen Navigationsbereich. Im linken oberen Bereich, der als Repository bezeichnet ist, befindet sich die Projektstruktur zur Anlage und Verwaltung der Datenverarbeitungsobjekte. Im unteren Bereich ist die sogenannte Palette, die Funktionen und Bausteine zur Erstellung des ETL-Prozesses enthält.

Repository Fenster

Über die Repository Ansicht wird ein Projekt verwaltet. Dieses besitzt vielfältige, konfigurierbare Objekte wie die Datenbankverbindung und Jobs, welche die ETL-Strecken enthalten.

Palette Fenster

Die Palette stellt eine Art Toolbox dar. Diese ist in verschiedene Kategorien unterteilt, die wiederum Funktionen zur Verfügung stellen, die per Drag & Drop im grafischen Editorfenster platziert werden können.

General – Unter dieser Kategorie finden sich allgemeine Funktionen zur Annotation, Erstellung von Containern, Beschreibungen und Links.

Data Quality – Hierüber werden Datenqualitätsfunktionen für den ETL-Prozess zur Verfügung gestellt. Beispielsweise lassen sich über den Data Rules Baustein Regeln im Ladeprozess erstellen, die fehlerhafte oder unerwünschte Daten transformiert oder aussteuert.

Database – Diese Kategorie bietet Konnektoren zu spezifischen Datenbanken wie z. B. Informix und Oracle an, um deren spezielle Funktionen nutzen zu können.

Development/Debug – Hier finden sich Funktionsbausteine zur Überwachung von Datenflüssen, wie beispielsweise eine Datenvorschau.

File – Neben Datenbankmanagementsystemen besteht auch die Möglichkeit Dateien anzubinden. Hierzu muss ein Adapter aus der Kategorie File genutzt werden.

Processing – Hier finden sich die eigentlichen Funktionen, die für den Aufbau eines ETL-Prozesses benötigt werden. Es gibt Funktionsbausteine wie Filter, Joins, Pivot, Transformation, Lookup, Merge und eine Slowly Changing Dimension (SCD) zur Erstellung von Historisierungen.

Real Time – Unter dieser Kategorie befinden sich Funktionen die zur Integration von Echtzeitdaten benötigt werden.

Restructure – Mit diesen Funktionen lassen sich (Zwischen-)Ergebnisse restrukturieren wie z. B. durch  die Erstellung von Teilmengen.

ETL Entwicklung mit DataStage

Das Anlegen von ETL-Strecken geschieht über die Jobs im Projektbereich. Die Erstellung erfolgt im grafischen Editor. In diesem werden die Funktionsbausteine aus der Palette hineingezogen und miteinander über Pfeile verknüpft, die Darstellung erfolgt durch Icons.

Jeder Baustein im Editor wird über einen Namen beschrieben. Mittels Doppelklick auf ein Icon wird ein separates Fenster geöffnet. In diesem werden die Ein- und Ausgabespalten, also das Mapping, angezeigt. Transformationen können hier vorgenommen werden. Die hinterlegten Regeln zu den einzelnen Spalten sind übersichtlich dargestellt.

In einem übergeordneten Job werden die einzelnen ETL-Strecken hinterlegt und in eine spezifische Reihenfolge gebracht.

Quellsystemanbindung

Neben den nativen ODBC und JDBC Datenbanktreibern, die es ermöglichen fast alle Datenbanken anzubinden, gibt es die Hersteller-spezifischen Konnektoren. Dadurch können Funktionen der spezifischen Datenbank und deren Implementierung von SQL genutzt werden. Direkt unterstützt werden u. a. Oracle, Microsoft SQL Server, Netezza, DB2, Teradata und Sybase.

Einschätzung der IBM DataStage Plattform

IBMs DataStage steht nicht als Demo zur Verfügung und kann daher nicht zu Schulungs- und Übungszwecken heruntergeladen und installiert werden. Dies ist aufgrund der Plattform-Lösung nicht möglich. Der DataStage Server sollte nach Empfehlungen auf einem Linux-basierten Server installiert werden. Die Konfiguration ist sehr komplex und von Laien nicht umsetzbar.

Unternehmen profitieren von dieser leistungsstarken und skalierbaren ETL-Software durch die parallele Verarbeitung von Datenintegrationsprozessen. Zudem werden Big Data Ansätze unterstützt und können über die DataStage angebunden werden.

Die übersichtliche Benutzeroberfläche unterstützt die Entwickler bei der Erstellung und Konfiguration von ETL-Strecken und Workflows. Als einen Nachteil kann man die komplexe Installation und Konfiguration des DataStage Servers sehen, die meist nicht intern vorgenommen werden kann.

Weiterführende Artikel