Konzepte
Data Mining wird oft als "der Prozess des Extrahierens gültiger,
authentischer und aussagefähiger Informationen aus großen Datenbanken"
beschrieben. Data Mining ist demnach ein Prozess, der Muster und Trends
in Daten aufdeckt. Diese Muster und Trends lassen sich zusammenfassen
und als Miningmodell definieren. Miningmodelle werden u. a. auf folgende
Geschäftsszenarien angewendet:
- Erstellen von Verkaufsprognosen
- Durchführen von Direktmarketingaktionen, die auf einen bestimmten
Kundenkreis abzielen
- Ermitteln von Produkten mit Cross-Selling-Potenzial
- Ermitteln der Reihenfolge, in der Kunden Produkte in den Einkaufswagen
legen
Die Erstellung eines Miningmodells muss als Teil eines größeren
Prozesses verstanden werden, der sich von der Definition der zentralen
Problemstellung bis hin zur Implementierung des Modells in einer Arbeitsumgebung
erstreckt. Ein Data Mining-Prozess besteht im Wesentlichen aus sechs Schritten:
- Definieren der Problemstellung
- Vorbereiten der Daten
- Durchsuchen von Daten
- Erstellen von Modellen
- Durchsuchen und Validieren von Modellen
- Bereitstellen und Aktualisieren von Modellen
Das folgende Diagramm beschreibt das Beziehungsgefüge dieser Schritte
und die Technologien in Microsoft SQL Server 2005, mit denen Sie den jeweiligen
Schritt ausführen können.

Data Mining auf Basis des MS SQL Servers
Mit Data Mining erhalten Sie Zugriff auf Informationen, die Sie benötigen,
um bei schwierigen Geschäftsproblemen richtige Entscheidungen treffen
zu können. Die in Microsoft SQL Server 2005 Analysis Services (SSAS)
bereitgestellten Data Mining-Tools unterstützen Sie beim Identifizieren
systematischer Strukturen und Muster in Ihren Daten. Aus diesen Strukturen
und Mustern lässt sich ableiten, warum es in der Vergangenheit bestimmte
Entwicklungen gegeben hat und welche Entwicklungen für die Zukunft
zu erwarten sind. Beim Erstellen einer Data Mining-Lösung in Analysis
Services müssen Sie zuerst ein Modell generieren, das Ihr Geschäftsproblem
beschreibt. Anschließend führen Sie auf Ihren Daten einen Algorithmus
aus, der ein mathematisches Modell Ihrer Daten erstellt. Dieser Vorgang
wird als Modelltraining bezeichnet. Sie können das Miningmodell entweder
visuell durchsuchen oder Vorhersageabfragen für das Miningmodell
ausführen. Analysis Services unterstützt Datasets aus relationalen
Datenbanken und OLAP-Datenbanken und enthält mehrere Algorithmen,
die Sie zum Analysieren der Daten verwenden können.
Basis-Architektur
Entwicklern ermöglicht wird, ein einzelnes Datenmodell, das als
UDM (Unified Dimensional Model) bezeichnet wird, für eine oder mehrere
physikalische Datenquellen zu definieren. Alle Endbenutzerabfragen aus
OLAP-, Berichterstellungs- und benutzerdefinierten BI-Anwendungen greifen
auf die Daten in den zugrunde liegenden Datenquellen über das UDM
zu, das eine einzelne Geschäftssicht dieser relationalen Daten bereitstellt.
Analysis Services stellt einen umfangreichen Satz von Data Mining-Algorithmen
bereit, mit denen Anwender des Produkts im geschäftlichen Bereich
ihre Daten auswerten und nach bestimmten Mustern und Trends suchen können.
Mithilfe dieser Data Mining-Algorithmen können Daten über ein
UDM oder direkt aus einem physikalischen Datenspeicher analysiert werden.
Vorhersage
Das wichtigste Ziel der meisten Data Mining-Projekte liegt darin, mithilfe
von Miningmodellen Vorhersagen für neue Daten zu treffen. Angenommen,
Sie möchten vorhersagen, wie viele Fahrräder Ihr Unternehmen
im Dezember nächsten Jahres absetzen wird oder ob ein potenzieller
Kunde sich von einer Werbekampagne zum Kauf eines Fahrrads anregen lässt.
Sie können Vorhersagen auch zur Untersuchung der Informationen verwenden,
die die Algorithmen beim Trainieren der Miningmodelle ermitteln.
Integration Services
SQL Server 2005 Integration Services (SSIS) stellt Tools bereit, mit
denen Sie häufige Data Mining-Aufgaben wie das Verarbeiten eines
Miningmodells und das Erstellen von Vorhersageabfragen automatisieren
können. Wenn Sie beispielsweise ein Miningmodell haben, das aus einem
Datensatz von potenziellen Kunden erstellt worden ist, könnten Sie
ein Integration Services-Paket erstellen, das jedes Mal, wenn der Datensatz
mit neuen Kunden aktualisiert wird, eine Aktualisierung des Modells vornimmt.
Sie könnten das Paket dann verwenden, um eine Vorhersage zu erstellen,
indem Sie die potenziellen Kunden auf zwei Tabellen aufteilen. Die eine
Tabelle könnte z. B. mögliche Kunden aufführen und die
andere Tabelle Kunden, die wahrscheinlich nichts kaufen werden.
|
Wesen und Prinzip
Data
Mining stellt normalerweise kein einmaliges Projekt dar, welches Erkenntnisse
liefert, die dann nur einmal verwendet werden, sondern es soll gewöhnlich
ein Data-Mining-System konstruiert werden, welches kontinuierlich aktuelle
Daten und Strukturen sowie deren Änderungen auf der Basis zeitnaher Daten
liefert. Daher verbindet ein solches Entwicklungsprojekt stets auch Konzepte
der Datenbank-Entwicklung und Software-Entwicklung.
Projektstruktur
Zu Beginn der Entwicklung eines Data-Mining-Systems steht immer eine
Nutzwertanalyse. Sie soll die einzelnen Untersuchungsziele an benutzerdefinierten
Kriterien und typischen Fragestellungen beschreiben. Dies bedingt auch
eine Analyse der späteren Anwendungsbereiche und der technischen Anforderungen
an die Implementierung. Die sind allerdings gleichzeitig Fragestellungen
der DB-Entwicklung und der Software-Entwicklung. In dieser ersten Phase
müssen also die typischen Abfragestrukturen und Analysen, welche im gesamten
Unternehmen anfallen und anfallen weden, gefunden werden. Aus ihnen setzt
sich dann das Data-Mining-System zusammen.
In einer weiteren Phasen werden dann die vorhandenen Daten gesammelt
und über Schnittstellen erstmals in das Data-Mining-System übertragen.
Aus diesen Schnittstellen werden dann automatisch arbeitenden Datenschleusen,
welche aus den benanntn Datenquellen stets aktuelle Information in das
System einbringen.
In einer letzten Phase wird dann die gesamte Software und die Datenbank
erstellt, wobei ein Analyse- und Ergebniswerkzeug mit hierarchischen und
- je nach Komplexität und Anforderungen - auch vernetzten Abhängigkeiten
zwischen einzelnen Dimensionen und Kriterien besteht.
Für die Implementierung lassen sich dann mit Blick auf die Software-Entwicklung
des Systems bzw. die Konstruktion des unterliegenden Regelsystems anhand
der unterschiedlichen Wissenstypen ebenfalls unterschiedliche Modellierungsweisen
einsetzen.
Herausforderungen
Als Problemfelder und Herausforderungen des Data Mining gelten folgende
Punkte:
- Autonomie
- Eine grundlegende Problematik im Rahmen von Analysen lässt sich
in der Verwendung von Hypothesen sehen, die apriori vorhanden sind und
die Analyse beeinflussen. Nicht immer müssen d iese Hypothesen
zu Fehlschlüssen und damit zur Wirkungslosigkeit eines Data-Mining-Projekts
werden, doch besteht grundsätzlich die Möglichkeit, dass man
durch die fehlgeleitete Annahmen nur die Annahmen bestätigt. Mit
Autonomie ist damit vor diesem Hintergrund die Forderung verbunden,
dass die Daten für sich selbst und aush sich heraus analysiert
werden sollen.
- Allgemeine Verwendbarkeit
- Die Analysen und Ergebnisse sollten möglichst einen breiten Wirkungsraum
entfalten. Hierbei besteht ein Konflikt mit der Autonomie, da nach gewissen
Strukturen gesucht werden sollen, sodass bereits automatisch Hypothesen
in die Analyse einfließen. Je genauer die Verwendbarkeit der Datenanalyse
sein soll, desto stärker ist der Benutzereingriff.
- Datenproblematik
- Neben den Analysewerkzeuge des Data-Mining kommt notwendigerweise
den Rohdaten selbst die Eigenschaft eines kritischen Erfolgsfaktors
zu. Nicht immer sind Daten vollständig. Teilweise fehlen Daten
oder Datenbezüge, die für eine Analyse notwendig sind. Datenbanken
wachsen, sofern sie Transaktionen oder Messdaten erfassen, unaufhörlich
und oft mit großer Geschwindigkeit, sodass die Dynamik der Daten
zu Veränderugen der Analyseergebnisse oder zu neuen Strukturen
führt. Diese können dann wieder im Zeitverlauf korreliert
sein. Daten können durch Falscheinträge oder Datenmigrationen
verschmutzt sein, wobei grundsätzlich ein Erkennungsproblem zwischen
Ausreißern und Verschmutzungen besteht. Redundanzen können
fälschlicherweise zu neuem Wissem interpretiert werden. Irrelevante
Felder stellen solche Felde dar, die für die Datenmusterkennung
unnötig sind, wobei die Irrelevanz nicht ad hoc klar ist und evtl.
durch eine entsprechende Auswahl gegen das Autonomieprinzip verstoßen
weden kann.
- Verständlichkeit
- Die Ergebnisse des Data-Mining-Prozesses müssen in einer guten
Verständlichkeit und Aufbereitung einem Leser oder Betrachter klar
werden. Dies kann grafisch oder mit Hilfe von Texten erfolgen. Dabei
sollte eine weitere Verarbeitung der Ergebnisse stets berücksichtigt
werden.
- Interessantheit
- Die gefundene Ebenen müssen interessant sein, sodass solche Mängel
an Interessantheit wie redundante Ergebnisse, bedeutungslose Ergebnisse
oder bekannte Strukturen sowie triviale Erkenntnisse oder irrelevante
Sachverhalte vermieden werden müssen. Stattdessen soll ein Data-Minin-Prozess
neue Zusammenhänge und bisher in dieser Form noch nicht bekannte
Strukturen und Abhängigkeiten aufdecken.
Komponenten
- Steuerung: Sie übernimmt die Befehle des Anwenders und überwacht die
Abläufe und die Ablaufkonfiguration der einzelnen Komponenten.
- Datenbankschnittstelle: Sie versorgt das System mit den benötigten
Daten oder Datenextrakten.
- Wissensbasis: In dieser Komponenten ist das Domänenwissen gespeichert,
wie es für andere Komponenten benötigt wird.
- Fokussierung: Hier wird entschieden, welche Teile der Daten analysiert
werden sollen.
- Analysealgorithmen: Die eigentliche Extraktion der Strukturen und
interessanten Zusammenhänge erfolgt durch dieses Subsystem.
- Bewertung: Von den Analysealgorithmen gefundene Daten und Strukturen
werden in diesem Subsystem bewertet, auf Interessantheit und Nützlichkeit
überprüft und von der in der Wissensbasis gespeicherten Kriterien überprüft.
- Präsentation: Dieses Modul gibt die gefundenen Ergebnisse in unterschiedlichen
Formen wie Texte, Grafiken und Tabellen für den Endbenutzer und zur
beliebigen Weiterverarbeitung aus.
|