Start
Unternehmen
Buch-Katalog
Seminare
Leserservice
Comelio-Blog
ERP / PPS / Prozesse
Business Intelligence
Einsatzgebiete
Lösungen

Entscheidungs-Unterstützung

Data Mining

Data-Warehouse

OLAP

Berichtssystem

Kennzahlen

Entwicklung
Vorgehen
MS SQL Server
Server-Technologien
Software-Technologien
Technologie-Beratung
Individual-Software
Produkte

Comelio GmbH
Rellinghauser Straße 10
D-45128 Essen
Deutschland
Fon: 0201-437517-0
Fax: 0201-437517-10
info@comelio.com

Comelio GmbH
Goethestraße 34
D-13086 Berlin
Deutschland
info@comelio.com

Comelio GmbH (Ecos)
Glockengießerwall 17
D-20095 Hamburg
Deutschland
info@comelio.com

Comelio GmbH (Ecos)
Mainzer Landstraße 27-31
D-60329 Frankfurt
Deutschland
info@comelio.com

Comelio GmbH (Ecos)
Stiglmaierplatz/Dachauer Str. 37
D-80335 München
Deutschland
info@comelio.com

Comelio GmbH (Ecos)
Liebknechtstr. 33
D-70565 Stuttgart
Deutschland
info@comelio.com

Comelio GmbH
Nevinghoff 16
D-48147 Münster
Deutschland

Comelio GmbH
Friedrich - List - Platz 1
D-04103 Leipzig
Deutschland

Comelio GmbH
St. Johanner Strasse 41-43
D-66111 Saarbrücken
Deutschland

Comelio GmbH
Kaiser-Wilhem-Ring 27–29
D-50672 Köln
Deutschland

Comelio GmbH
Münsterstraße 248
D-40470 Düsseldorf
Deutschland

Comelio GmbH
Fürther Strasse
D-90429 Nürnberg
Deutschland

Comelio GmbH

Bremen
Deutschland

Business Intelligence > Lösungen > Data Mining

Künstliche Intelligenz und Data Mining

Offensichtlich besteht ein Zusammenhang zwischen der Möglichkeit, Daten zu speichern, und der Menge gespeicherter Daten, denn mit steigenden Speicherkapazitäten steigt weiterhin die Anzahl der gespeicherten Daten selbst. Unternehmensdaten, Daten von Webseitenbesuchern oder Transaktionen können innerhalb kürzester Zeit Grenzen überschreiten, die eine schnelle, spontane Untersuchung der inhärenten Datenstrukturen unmöglich machen. Für eine erweiterte Mustererkennung in solchen Datenwüsten benötigt man Konzepte des Data Mining. Dieser Ansatz als Teilbebereich des Data-Warenhouse-Ansatzes beschäftigt sich allgemein mit der Datenmustererkennung von numerischen, ordinal- oder nominalskalierten Daten, von denen tiefer gehende Zusammenhänge vermutet werden, die zur Optimierung beliebiger Transaktions- und Geschäftsprozesse, aber auch im Rahmen der Analyse von Messdatenerfassungen freigelegt werden sollen.

Kontakt

Anrede* Herr Frau
Vorname*
Nachname*
Firma
E-Mail*
Tel-Nr.
Bereich*
Freitext

Einführung von Data Mining

Die Comelio GmbH unterstützt Unternehmen und Organisationen dabei, Daten eines Data Warehouse-Systems mit den Mitteln des Data Mining zu untersuchen. Wir bieten dabei neben der Verwendung von statistischen Algorithmen in Form von Standard-Software-Komponenten auch die Entwicklung von individuellen regelbasierten Untersuchungen sowie die Implementierung von unternehmens-/branchen-/prozessbezogenen statistischen Modellen. Zu den Dienstleistungen im Bereich Data Mining gehören:

  • Aufbau der zu Grunde liegenden Datenstrukturen im Data Warehouse
  • Aswahl von Software-Komponenten für die Entwicklung von Modellen
  • Entwicklung von individuellen statistischen Modellen und Auswertungstechniken
  • Erstellung von ETL-Prozessen (Extraktion, Transformation, Laden von Daten)
  • Bereitstellung und Entwicklung eines Datenschutz- und Sicherheitskonzepts
  • Auswahl, Bereitstellung und Entwicklung von Client-Software

Konzepte

Data Mining wird oft als "der Prozess des Extrahierens gültiger, authentischer und aussagefähiger Informationen aus großen Datenbanken" beschrieben. Data Mining ist demnach ein Prozess, der Muster und Trends in Daten aufdeckt. Diese Muster und Trends lassen sich zusammenfassen und als Miningmodell definieren. Miningmodelle werden u. a. auf folgende Geschäftsszenarien angewendet:

  • Erstellen von Verkaufsprognosen
  • Durchführen von Direktmarketingaktionen, die auf einen bestimmten Kundenkreis abzielen
  • Ermitteln von Produkten mit Cross-Selling-Potenzial
  • Ermitteln der Reihenfolge, in der Kunden Produkte in den Einkaufswagen legen

Die Erstellung eines Miningmodells muss als Teil eines größeren Prozesses verstanden werden, der sich von der Definition der zentralen Problemstellung bis hin zur Implementierung des Modells in einer Arbeitsumgebung erstreckt. Ein Data Mining-Prozess besteht im Wesentlichen aus sechs Schritten:

  1. Definieren der Problemstellung
  2. Vorbereiten der Daten
  3. Durchsuchen von Daten
  4. Erstellen von Modellen
  5. Durchsuchen und Validieren von Modellen
  6. Bereitstellen und Aktualisieren von Modellen

Das folgende Diagramm beschreibt das Beziehungsgefüge dieser Schritte und die Technologien in Microsoft SQL Server 2005, mit denen Sie den jeweiligen Schritt ausführen können.

Data Mining Prozess MS SQL Server

Data Mining auf Basis des MS SQL Servers

Mit Data Mining erhalten Sie Zugriff auf Informationen, die Sie benötigen, um bei schwierigen Geschäftsproblemen richtige Entscheidungen treffen zu können. Die in Microsoft SQL Server 2005 Analysis Services (SSAS) bereitgestellten Data Mining-Tools unterstützen Sie beim Identifizieren systematischer Strukturen und Muster in Ihren Daten. Aus diesen Strukturen und Mustern lässt sich ableiten, warum es in der Vergangenheit bestimmte Entwicklungen gegeben hat und welche Entwicklungen für die Zukunft zu erwarten sind. Beim Erstellen einer Data Mining-Lösung in Analysis Services müssen Sie zuerst ein Modell generieren, das Ihr Geschäftsproblem beschreibt. Anschließend führen Sie auf Ihren Daten einen Algorithmus aus, der ein mathematisches Modell Ihrer Daten erstellt. Dieser Vorgang wird als Modelltraining bezeichnet. Sie können das Miningmodell entweder visuell durchsuchen oder Vorhersageabfragen für das Miningmodell ausführen. Analysis Services unterstützt Datasets aus relationalen Datenbanken und OLAP-Datenbanken und enthält mehrere Algorithmen, die Sie zum Analysieren der Daten verwenden können.

Basis-Architektur

Entwicklern ermöglicht wird, ein einzelnes Datenmodell, das als UDM (Unified Dimensional Model) bezeichnet wird, für eine oder mehrere physikalische Datenquellen zu definieren. Alle Endbenutzerabfragen aus OLAP-, Berichterstellungs- und benutzerdefinierten BI-Anwendungen greifen auf die Daten in den zugrunde liegenden Datenquellen über das UDM zu, das eine einzelne Geschäftssicht dieser relationalen Daten bereitstellt.

Analysis Services stellt einen umfangreichen Satz von Data Mining-Algorithmen bereit, mit denen Anwender des Produkts im geschäftlichen Bereich ihre Daten auswerten und nach bestimmten Mustern und Trends suchen können. Mithilfe dieser Data Mining-Algorithmen können Daten über ein UDM oder direkt aus einem physikalischen Datenspeicher analysiert werden.

Vorhersage

Das wichtigste Ziel der meisten Data Mining-Projekte liegt darin, mithilfe von Miningmodellen Vorhersagen für neue Daten zu treffen. Angenommen, Sie möchten vorhersagen, wie viele Fahrräder Ihr Unternehmen im Dezember nächsten Jahres absetzen wird oder ob ein potenzieller Kunde sich von einer Werbekampagne zum Kauf eines Fahrrads anregen lässt. Sie können Vorhersagen auch zur Untersuchung der Informationen verwenden, die die Algorithmen beim Trainieren der Miningmodelle ermitteln.

Integration Services

SQL Server 2005 Integration Services (SSIS) stellt Tools bereit, mit denen Sie häufige Data Mining-Aufgaben wie das Verarbeiten eines Miningmodells und das Erstellen von Vorhersageabfragen automatisieren können. Wenn Sie beispielsweise ein Miningmodell haben, das aus einem Datensatz von potenziellen Kunden erstellt worden ist, könnten Sie ein Integration Services-Paket erstellen, das jedes Mal, wenn der Datensatz mit neuen Kunden aktualisiert wird, eine Aktualisierung des Modells vornimmt. Sie könnten das Paket dann verwenden, um eine Vorhersage zu erstellen, indem Sie die potenziellen Kunden auf zwei Tabellen aufteilen. Die eine Tabelle könnte z. B. mögliche Kunden aufführen und die andere Tabelle Kunden, die wahrscheinlich nichts kaufen werden.

Wesen und Prinzip

Comelio und Data MiningData Mining stellt normalerweise kein einmaliges Projekt dar, welches Erkenntnisse liefert, die dann nur einmal verwendet werden, sondern es soll gewöhnlich ein Data-Mining-System konstruiert werden, welches kontinuierlich aktuelle Daten und Strukturen sowie deren Änderungen auf der Basis zeitnaher Daten liefert. Daher verbindet ein solches Entwicklungsprojekt stets auch Konzepte der Datenbank-Entwicklung und Software-Entwicklung.

Projektstruktur

Zu Beginn der Entwicklung eines Data-Mining-Systems steht immer eine Nutzwertanalyse. Sie soll die einzelnen Untersuchungsziele an benutzerdefinierten Kriterien und typischen Fragestellungen beschreiben. Dies bedingt auch eine Analyse der späteren Anwendungsbereiche und der technischen Anforderungen an die Implementierung. Die sind allerdings gleichzeitig Fragestellungen der DB-Entwicklung und der Software-Entwicklung. In dieser ersten Phase müssen also die typischen Abfragestrukturen und Analysen, welche im gesamten Unternehmen anfallen und anfallen weden, gefunden werden. Aus ihnen setzt sich dann das Data-Mining-System zusammen.

In einer weiteren Phasen werden dann die vorhandenen Daten gesammelt und über Schnittstellen erstmals in das Data-Mining-System übertragen. Aus diesen Schnittstellen werden dann automatisch arbeitenden Datenschleusen, welche aus den benanntn Datenquellen stets aktuelle Information in das System einbringen.

In einer letzten Phase wird dann die gesamte Software und die Datenbank erstellt, wobei ein Analyse- und Ergebniswerkzeug mit hierarchischen und - je nach Komplexität und Anforderungen - auch vernetzten Abhängigkeiten zwischen einzelnen Dimensionen und Kriterien besteht.

Für die Implementierung lassen sich dann mit Blick auf die Software-Entwicklung des Systems bzw. die Konstruktion des unterliegenden Regelsystems anhand der unterschiedlichen Wissenstypen ebenfalls unterschiedliche Modellierungsweisen einsetzen.

Herausforderungen

Als Problemfelder und Herausforderungen des Data Mining gelten folgende Punkte:

Autonomie
Eine grundlegende Problematik im Rahmen von Analysen lässt sich in der Verwendung von Hypothesen sehen, die apriori vorhanden sind und die Analyse beeinflussen. Nicht immer müssen d iese Hypothesen zu Fehlschlüssen und damit zur Wirkungslosigkeit eines Data-Mining-Projekts werden, doch besteht grundsätzlich die Möglichkeit, dass man durch die fehlgeleitete Annahmen nur die Annahmen bestätigt. Mit Autonomie ist damit vor diesem Hintergrund die Forderung verbunden, dass die Daten für sich selbst und aush sich heraus analysiert werden sollen.
Allgemeine Verwendbarkeit
Die Analysen und Ergebnisse sollten möglichst einen breiten Wirkungsraum entfalten. Hierbei besteht ein Konflikt mit der Autonomie, da nach gewissen Strukturen gesucht werden sollen, sodass bereits automatisch Hypothesen in die Analyse einfließen. Je genauer die Verwendbarkeit der Datenanalyse sein soll, desto stärker ist der Benutzereingriff.
Datenproblematik
Neben den Analysewerkzeuge des Data-Mining kommt notwendigerweise den Rohdaten selbst die Eigenschaft eines kritischen Erfolgsfaktors zu. Nicht immer sind Daten vollständig. Teilweise fehlen Daten oder Datenbezüge, die für eine Analyse notwendig sind. Datenbanken wachsen, sofern sie Transaktionen oder Messdaten erfassen, unaufhörlich und oft mit großer Geschwindigkeit, sodass die Dynamik der Daten zu Veränderugen der Analyseergebnisse oder zu neuen Strukturen führt. Diese können dann wieder im Zeitverlauf korreliert sein. Daten können durch Falscheinträge oder Datenmigrationen verschmutzt sein, wobei grundsätzlich ein Erkennungsproblem zwischen Ausreißern und Verschmutzungen besteht. Redundanzen können fälschlicherweise zu neuem Wissem interpretiert werden. Irrelevante Felder stellen solche Felde dar, die für die Datenmusterkennung unnötig sind, wobei die Irrelevanz nicht ad hoc klar ist und evtl. durch eine entsprechende Auswahl gegen das Autonomieprinzip verstoßen weden kann.
Verständlichkeit
Die Ergebnisse des Data-Mining-Prozesses müssen in einer guten Verständlichkeit und Aufbereitung einem Leser oder Betrachter klar werden. Dies kann grafisch oder mit Hilfe von Texten erfolgen. Dabei sollte eine weitere Verarbeitung der Ergebnisse stets berücksichtigt werden.
Interessantheit
Die gefundene Ebenen müssen interessant sein, sodass solche Mängel an Interessantheit wie redundante Ergebnisse, bedeutungslose Ergebnisse oder bekannte Strukturen sowie triviale Erkenntnisse oder irrelevante Sachverhalte vermieden werden müssen. Stattdessen soll ein Data-Minin-Prozess neue Zusammenhänge und bisher in dieser Form noch nicht bekannte Strukturen und Abhängigkeiten aufdecken.

Komponenten

  • Steuerung: Sie übernimmt die Befehle des Anwenders und überwacht die Abläufe und die Ablaufkonfiguration der einzelnen Komponenten.
  • Datenbankschnittstelle: Sie versorgt das System mit den benötigten Daten oder Datenextrakten.
  • Wissensbasis: In dieser Komponenten ist das Domänenwissen gespeichert, wie es für andere Komponenten benötigt wird.
  • Fokussierung: Hier wird entschieden, welche Teile der Daten analysiert werden sollen.
  • Analysealgorithmen: Die eigentliche Extraktion der Strukturen und interessanten Zusammenhänge erfolgt durch dieses Subsystem.
  • Bewertung: Von den Analysealgorithmen gefundene Daten und Strukturen werden in diesem Subsystem bewertet, auf Interessantheit und Nützlichkeit überprüft und von der in der Wissensbasis gespeicherten Kriterien überprüft.
  • Präsentation: Dieses Modul gibt die gefundenen Ergebnisse in unterschiedlichen Formen wie Texte, Grafiken und Tabellen für den Endbenutzer und zur beliebigen Weiterverarbeitung aus.

 

    Comelio GmbH Business Intelligence: Analyse Data Mining Data Warehouse OLAP DB Entwicklung DB Programmierung Berater Dienstleister Microsoft SQL Server 2007 Oracle MS SQL Data Intelligence Analyse-Systeme OLAP Programmierung Business Experten-Systeme Server Mining Bremen Erlangen Heidelberg Hannover Wolfsburg Freiburg Andernach München Lübeck Ol Stuttgart Aachen Würzuburg Koblenz Berlin Mannheim Zwickau Ingolstadt Hamburg Leipzig Kiel Frankfurt Bonn Magdeburg Göttingen Bochum Kassel Köln Rügen Koblenz LudwigshafenComelio GmbH Business Intelligence: Analyse Data Mining Data Warehouse OLAP DB Entwicklung DB Programmierung Berater Dienstleister Microsoft SQL Server 2007 Oracle MS SQL Data Intelligence Analyse-Systeme OLAP Programmierung Business Experten-Systeme Server Mining Bremen Erlangen Heidelberg Hannover Wolfsburg Freiburg Andernach München Lübeck Ol Stuttgart Aachen Würzuburg Koblenz Berlin Mannheim Zwickau Ingolstadt Hamburg Leipzig Kiel Frankfurt Bonn Magdeburg Göttingen Bochum Kassel Köln Rügen Koblenz LudwigshafenComelio GmbH Business Intelligence: Analyse Data Mining Data Warehouse OLAP DB Entwicklung DB Programmierung Berater Dienstleister Microsoft SQL Server 2007 Oracle MS SQL Data Intelligence Analyse-Systeme OLAP Programmierung Business Experten-Systeme Server Mining Bremen Erlangen Heidelberg Hannover Wolfsburg Freiburg Andernach München Lübeck Ol Stuttgart Aachen Würzuburg Koblenz Berlin Mannheim Zwickau Ingolstadt Hamburg Leipzig Kiel Frankfurt Bonn Magdeburg Göttingen Bochum Kassel Köln Rügen Koblenz LudwigshafenComelio GmbH Business Intelligence: Analyse Data Mining Data Warehouse OLAP DB Entwicklung DB Programmierung Berater Dienstleister Microsoft SQL Server 2007 Oracle MS SQL Data Intelligence Analyse-Systeme OLAP Programmierung Business Experten-Systeme Server Mining Bremen Erlangen Heidelberg Hannover Wolfsburg Freiburg Andernach München Lübeck Ol Stuttgart Aachen Würzuburg Koblenz Berlin Mannheim Zwickau Ingolstadt Hamburg Leipzig Kiel Frankfurt Bonn Magdeburg Göttingen Bochum Kassel Köln Rügen Koblenz LudwigshafenComelio GmbH Business Intelligence: Analyse Data Mining Data Warehouse OLAP DB Entwicklung DB Programmierung Berater Dienstleister Microsoft SQL Server 2007 Oracle MS SQL Data Intelligence Analyse-Systeme OLAP Programmierung Business Experten-Systeme Server Mining Bremen Erlangen Heidelberg Hannover Wolfsburg Freiburg Andernach München Lübeck Ol Stuttgart Aachen Würzuburg Koblenz Berlin Mannheim Zwickau Ingolstadt Hamburg Leipzig Kiel Frankfurt Bonn Magdeburg Göttingen Bochum Kassel Köln Rügen Koblenz LudwigshafenComelio GmbH Business Intelligence: Analyse Data Mining Data Warehouse OLAP DB Entwicklung DB Programmierung Berater Dienstleister Microsoft SQL Server 2007 Oracle MS SQL Data Intelligence Analyse-Systeme OLAP Programmierung Business Experten-Systeme Server Mining Bremen Erlangen Heidelberg Hannover Wolfsburg Freiburg Andernach München Lübeck Ol Stuttgart Aachen Würzuburg Koblenz Berlin Mannheim Zwickau Ingolstadt Hamburg Leipzig Kiel Frankfurt Bonn Magdeburg Göttingen Bochum Kassel Köln Rügen Koblenz LudwigshafenComelio GmbH Business Intelligence: Analyse Data Mining Data Warehouse OLAP DB Entwicklung DB Programmierung Berater Dienstleister Microsoft SQL Server 2007 Oracle MS SQL Data Intelligence Analyse-Systeme OLAP Programmierung Business Experten-Systeme Server Mining Bremen Erlangen Heidelberg Hannover Wolfsburg Freiburg Andernach München Lübeck Ol Stuttgart Aachen Würzuburg Koblenz Berlin Mannheim Zwickau Ingolstadt Hamburg Leipzig Kiel Frankfurt Bonn Magdeburg Göttingen Bochum Kassel Köln Rügen Koblenz LudwigshafenComelio GmbH Business Intelligence: Analyse Data Mining Data Warehouse OLAP DB Entwicklung DB Programmierung Berater Dienstleister Microsoft SQL Server 2007 Oracle MS SQL Data Intelligence Analyse-Systeme OLAP Programmierung Business Experten-Systeme Server Mining Bremen Erlangen Heidelberg Hannover Wolfsburg Freiburg Andernach München Lübeck Ol Stuttgart Aachen Würzuburg Koblenz Berlin Mannheim Zwickau Ingolstadt Hamburg Leipzig Kiel Frankfurt Bonn Magdeburg Göttingen Bochum Kassel Köln Rügen Koblenz LudwigshafenComelio GmbH Business Intelligence: Analyse Data Mining Data Warehouse OLAP DB Entwicklung DB Programmierung Berater Dienstleister Microsoft SQL Server 2007 Oracle MS SQL Data Intelligence Analyse-Systeme OLAP Programmierung Business Experten-Systeme Server Mining Bremen Erlangen Heidelberg Hannover Wolfsburg Freiburg Andernach München Lübeck Ol Stuttgart Aachen Würzuburg Koblenz Berlin Mannheim Zwickau Ingolstadt Hamburg Leipzig Kiel Frankfurt Bonn Magdeburg Göttingen Bochum Kassel Köln Rügen Koblenz Ludwigshafen
Seminare