Mit dieser Frage ringen wir hier doch schon seit einiger Zeit. Es ist immer schwierig den nicht-Informatikern zu erklären und zu beschreiben, was wir denn genau tun. Dieser Artikel soll somit versuchen, euch unsere Arbeit im Groben zu erklären.
Für viele Firmen wie Google oder die Migros sind Daten und Informationen das A und O um neue, innovative Produkte und Dienstleistungen zu entwickeln und zu verbessern. So bietet Google beispielsweise einen Suchdienst der mir viele Zusatzinformationen bietet. Suche ich zum Beispiel nach „Friseur in Muri“ so wird mir nicht bloss eine Liste mit Friseuren ausgegeben, Google zeigt sie mir auch gleich auf einer Karte an.
Die Migros hingegen finden es wahnsinnig interessant herauszufinden, was denn Herr Müller am liebsten einkauft. Dies machen sie mit ihrem Cumulus-Kärtchen. Sie können so gezielter Werbung machen. Auch die Migros möchte diese Information vielleicht mit geographischen Aspekten verknüpfen. So kann sie zum Beispiel herausfinden, dass die Romands gerne Omeletten essen, wobei die Deutschschweizer lieber Rösti essen. So können sie in diesen zwei Zonen getrennte Werbung machen und sparen Geld.
Diese Informationen kommen nun aber nicht per Brieftaube ins Haus geflogen – man muss sie mühselig zusammensuchen. Zudem liegen viele Daten in ungefilterter Form vor oder in einem Format, das man nicht brauchen kann. Man stelle sich das zum Beispiel so vor: Ein Schweizer, ein Kanadier und ein Chinese haben je eine Märchengeschichte. Beim Chinesen ist jede Seite von oben nach unten mit chinesischen Schriftzeichen beschrieben, beim Kanadier zwar von links nach rechts aber dafür in Französisch und beim Schweizer ist alles normal. Die drei möchten nun ein gemeinsames Märchenbuch herausbringen wie die Gebrüder Grimm. Sie müssen sich jetzt aber auf ein Format und eine Sprache einigen. Wie machen sie das? Sie benötigen einen schlauen Übersetzer, der nicht nur übersetzt, sondern auch den Inhalt versteht um auch logisch alles korrekt zu machen und vielleicht sogar noch Ergänzungen und Verbesserungen anbringen kann. Genau hier setzt unser Projekt an.
ETL (Extrahieren, Transformieren und Laden) – der schlaue Übersetzer
Zuerst muss der Übersetzer die einzelnen Geschichten lesen und verstehen. Wir nennen diesen Schritt das Extrahieren von Daten. Danach muss er die Daten in die universelle Sprache übersetzen. Zudem kann er noch zusätzliche Informationen einweben. Er zeichnet z.B. noch Karten zu Orten, die er kennt oder korrigiert Fehler vom Kanadier. Wir nennen diesen Schritt das Transformieren von Daten. Nun muss er das Märchenbuch damit abfüllen. Wir nennen diesen Arbeitsschritt das Laden von Daten. Der Übersetzer hat nun ganze Arbeit geleistet und darf sich schlafen legen. Wir nennen dies Kaffeepause
.
Unser ETL Programm GeoKettle kann all diese Dinge. Jedoch nicht mit Sprachen, sondern mit vielen verschiedenen Datenformaten – insbesondere mit vielen verschiedenen geographischen Datenformaten. Wenn wir fertig sind, soll es zum Beispiel Daten, die im Format der Schweizer Landeskoordinaten vorliegen ins GPS Format umwandeln können. Zudem soll es beim Extrahieren und beim Laden noch mehr Anbindungen an verschiedene Orte bieten, wo Daten gespeichert werden (Datenbanken). Wenn wir genügend Zeit haben werden wir sogar eine Ansicht dieser geographischen Daten am Bildschirm zeigen können.
Datenwarenhäuser – das Märchenbuch
Das Märchenbuch unserer Geschichte ist in unserem Umfeld ein Datenwarenhaus. Es ist ein komplexes System, welches die vielen verschiedenen Daten miteinander verknüpft. Jetzt werden die Daten zur Information. Sie bieten erst jetzt dem Menschen einen richtigen Mehrwert. So kann die Migros im Datenwarenhaus nach allen Leuten suchen, die gerne Cola-Light trinken und Google kann den Friseursalon auf der Karte anzeigen. Das Datenwarenhaus baut somit auf den Daten, die wir mit unserem GeoKettle ETL Programm liefern auf. Natürlich ist GeoKettle nur eines von vielen, doch wir möchten es etwas besser machen als die anderen.