Hauptseminararbeit im Fach Wirtschaftsinformatik zum Thema
DATA MINING-SOFTWARE
(Leistungsmerkmale, Hersteller, Nutzer)
Betreuender Hochschullehrer:
Betreuender Assistent:
Bearbeiter:
Prof. Dr. D. Ehrenberg
Dr. H. Petersohn
Walter Steinbach
Karl-Heine-Straße 11
04229 Leipzig
Matr.-Nr.: 7565203
7. Semester
walter@ dbs1. wifa. uni-leipzig. de
http:// rzaix340. rz. uni-leipzig. de/~ steinba/
Eingereicht am: 28.11.1997
1
1
Page 2
3
Walter Steinbach -Data Mining-Software II
1 1 K Ku ur rz zz zu us sa am mm me en nf fa as ss su un ng g
Direkt aus dem Englischen übersetzt, bedeutet „Mining" Schürfen, Fördern oder Bergbau.
Es soll also nach Daten gesucht werden, die „irgendwo vergraben" liegen. Vergleicht man
Data Mining mit der oft mühevollen Suche nach Gold, dann liegt die Information oft nicht
minder versteckt in großen Datenbanken. Es gibt zwei Gründe für die Anwendung von
Data Mining. Der erste ergibt sich aus der Tatsache, daß mit Methoden des Data Mining
oft auf Datenbestände zugegriffen wird, die ursprünglich nicht für diesen Zweck konzipiert
wurden, man also versucht, aus vorhandenen Informationsmaterial neue Erkenntnisse
(„ Wissen") abzuleiten. Der andere Grund ist die fast oder schon nicht mehr zu
beherrschende Datenmenge, welche die Menschheit in immer kürzer werdenden
Zeitabständen versucht zu archivieren, zu katalogisieren, in wieder abrufbarer Form
abzuspeichern.
Eine der vielen Definitionen stammt von R. H. Hansen:
„Data Mining -ein auch im Deutschen gebräuchlicher, englischer Begriff (deutsch: Daten
schürfen) für die softwaregestützte Ermittlung bisher unbekannter Zusammenhänge,
Muster und Trends in sehr großen Datenbanken. Dabei kann der Benutzer bestimmte Ziele
vorgeben, für die das System angemessene Beurteilungskriterien ableitet und damit
Objekte der Datenbank( en) analysiert. Oder das System teilt automatisch auf eine vage
Frage hin eine gegebene Menge von Objekten in Cluster auf."
Bei den Beurteilungskriterien für Data Mining-Software sind neben allgemeinen, auch für
andere gültige Kriterien, wie
· Prozessor · Hauptspeicher
· Festplattenspeicher · Betriebssystem( e)
· Support · Preis
auch spezielle, nur für Data Mining wichtige Merkmale, wie
· Importfilter · Exportfilter
· Anwendungsgebiete · Visualisierung
· Data Mining-Methoden von Bedeutung.
Genauer untersucht wurden folgende Programme:
dbProphet Trajecta http:// www. trajecta. com/
DataEngine MIT GmbH http:// www. mitgmbh. de
Data Surveyor 2.0 Data Destilleries http:// www. ddi. nl/
Intelligent Miner IBM http:// www. software. ibm. com
KnowledgeSEEKER Angoss Knowledge Engineering http:// www. angoss. com/
MineSet 2.0 Silicon Graphics, Inc. (SGI) http:// www. sgi. com/ Products/ s
oftware/ MineSet/ products/
Scenario COGNOS GmbH http:// www. cognos. com/
XpertRule Profiler Attar Software Limited http:// www. attar. co. uk/
Winrosa Uni Dortmund http:// www. mitgmbh. de/
Clementine Integral Solutions Ltd http:// www. isl. co. uk/
2
2
Page 3
4
Walter Steinbach -Data Mining-Software III
Als die wichtigsten Literaturstellen könnten aufgeführt werden:
· Janetzko, D.; Steinhöfel, K.: Lotsen Los ! -Data Mining: Verborgene Zusammenhänge in Datenbanken aufspüren. In: c't (1997) 3, S. 294-300
· Two Crows Corporation: Introduction to Data Mining and Knowledge Discovery, Potomac, 1997.
· Ferber, R: Data Mining und Information Retrievel. In: http:// www. darmstadt. gmd. de/ ferber/ vorlsung/ vorlesung. html, 1997
3
3
Page 4
5
Walter Steinbach -Data Mining-Software IV
2 2 I In nh ha al lt ts sv ve er rz ze ei ic ch hn ni is s
1 KURZZUSAMMENFASSUNG II
2 INHALTSVERZEICHNIS IV
3 ABBILDUNGSVERZEICHNIS V
4 TABELLENVERZEICHNIS VI
5 ABKÜRZUNGSVERZEICHNIS VII
1 EINLEITUNG 1
2 DATA MINING 1
2.1 WAS IST DATA MINING ?1
2.2 WARUM „MINING FOR DATA" ? 2
2.3 DEFINITIONEN 2
2.4 DATA MINING-PROZEß 4
3 BEURTEILUNGSKRITERIEN FÜR DATA MINING-SOFTWARE 5
3.1 ALLGEMEINE BEURTEILUNGSKRITERIEN FÜR SOFTWARE 5
3.2 BEURTEILUNGSKRITERIEN FÜR DATA MINING-SOFTWARE 6
4 DATA MINING-SOFTWARE 7
4.1 DBPROPHET 8
4.2 DATAENGINE 9
4.3 DATA SURVEYOR 10
4.4 INTELLIGENT MINER 11
4.5 KNOWLEDGESEEKER 12
4.6 MINESET 2.0 13
4.7 SCENARIO 14
4.8 XPERTRULE PROFILER 16
4.9 WINROSA 17
4.10 VORGEHENSWEISE ZUR AUSWAHL VON DATA MINING SOFTWARE 18
5 SCHLUßBETRACHTUNG 19
1 ANHANG I
2 INTERNETADRESSEN XI
3 LITERATURVERZEICHNIS XII
4
4
Page 5
6
Walter Steinbach -Data Mining-Software V
3 3 A Ab bb bi il ld du un ng gs sv ve er rz ze ei ic ch hn ni is s
ABB. 1: DATA MINING (QELLE: HTTP:// WWW. KDD. ORG/) ................................................................................. 1
ABB. 2: DATA MINING-PROZEß BEI IBM (QUELLE: DATENBANK FOKUS (1997) 2, S. 20) ............................ 4
ABB. 3: SEMMA -DATA MINING PROZEß NACH SAS INSTITUT (QUELLE: HTTP:// WWW. SAS. COM/) ................ 5
ABB. 4: DATAENGINE (QUELLE: HTTP:// WWW. MITGMBH. COM/) ........................................................................ 9
ABB. 5: DIAGRAMMTYPEN VON DATAENGINE (QUELLE: HTTP:// WWW. MITGMBH. COM/)................................... 9
ABB. 6: OBERFLÄCHE INTELLIGENT MINER (QUELLE: BROCHÜRE VON IBM)................................................. 11
ABB. 7: OBERFLÄCHE VON MINESET 2.0 (QUELLE: HTTP:// WWW. SGI. COM/) ................................................... 13
ABB. 8: OBERFLÄCHE VON SCENARIO (QUELLE: HTTP:// WWW. COGNOS. COM/)................................................ 16
ABB. 9: ODBC (QUELLE: HTTP:// WWW. ATTAR. COM/) ..................................................................................... 16
ABB. 10: OBERFLÄCHE VON WINROSA (QUELLE: HTTP:// WWW. MITGMBH. COM/) ......................................... 17
5
5
Page 6
7
Walter Steinbach -Data Mining-Software VI
4 4 T Ta ab be el ll le en nv ve er rz ze ei ic ch hn ni is s
TABELLE 1: BEURTEILUNGSKRITERIEN FÜR DATA MINING-SOFTWARE ............................................................. 7
TABELLE 2: DBPROPHET............................................................................................................................... ....... I
TABELLE 3: CLEMENTINE............................................................................................................................... .... II
TABELLE 4: DATAENGINE............................................................................................................................... . III
TABELLE 5: DATA SURVEYOR 2.0 .................................................................................................................... IV
TABELLE 6: INTELLIGENT MINER ....................................................................................................................... V
TABELLE 7: KNOWLEDGESEEKER.................................................................................................................. VI
TABELLE 8: MINESET 2.0............................................................................................................................ .... VII
TABELLE 9: SCENARIO ............................................................................................................................... .... VIII
TABELLE 10: XPERTRULE PROFILER................................................................................................................ IX
TABELLE 11: WINROSA............................................................................................................................... ....... X
TABELLE 12: INTERNETADRESSEN ................................................................................................................... XI
6
6
Page 7
8
Walter Steinbach -Data Mining-Software VII
5 5 A Ab bk kü ür rz zu un ng gs sv ve er rz ze ei ic ch hn ni is s
IBM International Business Machines
SGI Silicon Graphics Inc.
ASCII American Standard Code for Information Interchange
SAS SAS Institue Inc.
KDD Knowledge Discovery in Databases
SEMMA Sample Explore Modify Model Assess
ODBC Open Database Connectivity
WWW World Wide Web
API Application Programming Interface
HP Hewlett Packard
CHAID Chisquard Automatic Interaction Detector
SQL Structered Query Language
MIT Management Intelligenter Technologien GmbH
7
7
Page 8
9
Walter Steinbach -Data Mining-Software 1
1 1 E Ei in nl le ei it tu un ng g
Diese Arbeit soll einen Überblick über vorhandene Data Mining-Softwareprodukte geben.
Dabei soll zuerst eine kurze Auseinandersetzung mit dem Begriff Data Mining erfolgen.
Weiterhin werden im darauffolgenden Kapitel Beurteilungskriterien für Softwareprodukte
aus dem Bereich Data Mining erarbeitet werden. Die Vorstellung der einzelnen Tools
geschieht im 4. Kapitel. Den Abschluß der Arbeit bilden eine Zusammenfassung ein
Anhang, der alle betrachteten Produkte in tabellarischer Form kurz darstellt und ein
Verzeichnis aller relevanten Adressen im Internet.
2 2 D Da at ta a M Mi in ni in ng g
Dieses Kapitel soll eine kurze Auseinandersetzung mit dem Begriff Data Mining
darstellen. Es dient als ein Überblick und schneidet viele Gebiete des Data Mining
lediglich an. Eine umfassende Abhandlung über Methoden und Verfahren des Data Mining
ist Gegenstand einer anderen Arbeit.
2 2. .1 1 W Wa as s i is st t D Da at ta a M Mi in ni in ng g ? ?
Direkt aus dem Englischen übersetzt bedeutet „Mining" Schürfen, Fördern oder Bergbau.
Es soll also nach Daten gesucht werden, die „irgendwo vergraben" liegen. Vergleicht man
Data Mining mit der oft mühevollen Suche nach Gold, dann liegt die Information oft nicht
Abb. 1: Data Mining (Qelle: http:// www. kdd. org/)
8
8
Page 9
10
Walter Steinbach -Data Mining-Software 2
minder versteckt in großen Datenbanken. Besser wird man Data Mining verstehen, wenn
man untersucht, warum es eingesetzt wird.
2 2. .2 2 W Wa ar ru um m „ „M Mi in ni in ng g f fo or r D Da at ta a" " ? ?
Es liegen zwei Gründe für die Anwendung von Data Mining vor. Der erste ergibt sich aus
der Tatsache, daß mit Methoden des Data Mining oft auf Datenbestände zugegriffen wird,
die ursprünglich nicht für diesen Zweck konzipiert wurden 1 , man also versucht, aus
vorhandenen Informationsmaterial neue Erkenntnisse („ Wissen") abzuleiten. Der andere
Grund ist die fast oder schon nicht mehr zu beherrschende Datenmenge, welche die
Menschheit in immer kürzer werdenden Zeitabständen versucht zu archivieren, zu
katalogisieren, in wieder abrufbarer Form abzuspeichern. Beispiele dafür sind Daten aus
Überwachungssatelliten, Suchroboter der Suchdienste im Internet oder aktuell die
Marsmission der NASA.
Ein oft genanntes Beispiel für die Erkenntnis von neuem Wissen ist der Supermarkt mit
Zahlen zum Bierverkauf und Zahlen zum Verkauf von Kartoffelchips. Beide Zahlen zu
kennen ist zwar sehr gut, besser ist es aber, wenn man erkennt, daß der Verkauf an
Kartoffelchips zunimmt, wenn auch der Bierverkauf zugenommen hat 2 . Trotz dieses
Beispiels wird Data Mining wissenschaftlich betrieben und muß dem entsprechend
definiert werden.
2 2. .3 3 D De ef fi in ni it ti io on ne en n
Nach dieser allgemeinen Begriffsklärung sollen einige Definition aus verschiedenen
Quellen folgen.
„Data Mining -ein auch im Deutschen gebräuchlicher, englischer Begriff (deutsch: Daten
schürfen) für die softwaregestützte Ermittlung bisher unbekannter Zusammenhänge,
Muster und Trends in sehr großen Datenbanken. Dabei kann der Benutzer bestimmte Ziele
vorgeben, für die das System angemessene Beurteilungskriterien ableitet und damit
Objekte der Datenbank( en) analysiert. Oder das System teilt automatisch auf eine vage
Frage hin eine gegebene Menge von Objekten in Cluster auf." 3
1 ÖFAI, 1997, S. 1
2 Janetzko, D.; Steinhöfel, K.: c't, S. 294
3 Hansen, H. R..: Lexikon, 1997, S. 75
9
9
Page 10
11
Walter Steinbach -Data Mining-Software 3
„Data Mining uses sophisticated statistical analysis and modeling techniques to uncover
patterns and relationsships hidden in organizational databases -patterns that ordinary
methods might miss." 4
„Data Mining bezeichnet Techniken zum Finden von interessanten und nützlichen Mustern
und Regeln („ Wissen") in großen Datenbanken." 5
„Man versteht darunter eine neue Abfragetechnik, die es dem Anwender ermöglicht, auf
Basis von großen relationalen Datenbanksystemen (bevorzugt Data-Warehouse 6 ),
versteckte Informationen, Trends und Vorhersagen abzuleiten, ja sogar Fragen zu
beantworten, an die man gar nicht dachte." 7
Data Mining wird oft im Zusammenhang mit Knowledge Discovery genannt. Manchmal
werden beide Begriffe auch synonym verwendet. 8 Dabei ist aber Knowledge Discovery der
gesamte Findungsprozeß (von Frageformulierung bis zur Ergebnisinterpretation) und Data
Mining lediglich die Suche nach auffälligen Mustern, Trends etc.. Wenn also Data Mining
der Arbeit des Goldwäschers entspricht, dann erstreckt sich Knowledge Discovery von der
Absteckung des Schürfgebietes über Besorgung der Ausrüstung bis zur Bewertung der
Funde. 9
Außerdem sollen Begriffe, die mit Data Mining oft gleichgesetzt werden, nicht fehlen 10 :
· Knowledge Discovery in Databases (KDD)
· Knowledge Extraction
· Data Pattern Processing
· Data Archeology und
· Information Harvesting
4 Two Crows Corparation: Data Mining, 1997, S. 1
5 ÖFAI, 1997, S. 1
6 vgl. Two Crows Corparation: Data Mining, 1997, S. 2
7 Gilmozzi, S.: mip, 1996, S. 13
8 Ferber, R.: Vorlesung, S. 7
9 vgl. Janetzko, D.; Steinhöfel, K.: c't, S. 295
10 vgl. Soeffky, M.: Datenbank, Seite 20
10
10
Page 11
12
Walter Steinbach -Data Mining-Software 4
2 2. .4 4 D Da at ta a M Mi in ni in ng g--P Pr ro oz ze eß ß
Data Mining ist ein Prozeß. Er setzt sich aus verschiedenen Einzelschritten zusammen und
diese müssen nicht sequentiell durchlaufen werden, sondern können auch Rücksprünge
aufweisen. Data Mining kann deshalb auch als iterativer Prozeß gesehen werden. Die
verschiedenen Hersteller zerlegen deshalb Data Mining in eine mehr oder minder
unterschiedliche Anzahl von Teilschritten, die aber durchaus Ähnlichkeiten aufweisen.
Während IBM die Schritte
· Selektion
· Transformation
· Data Mining und
· Interpretation
unterscheidet (siehe Abb. 2),
Abb. 2: Data Mining-Prozeß bei IBM (Quelle: Datenbank FOKUS (1997) 2, S. 20)
11
11
Page 12
13
Walter Steinbach -Data Mining-Software 5
hat die Firma SAS Institut die SEMMA-Technologie (siehe Abb. 3Abb. 3 entwickelt:
· Stichproben (Sample)
· Exploration (Explore)
· Datenvorbereitung (Modify)
· Modellwahl (Model, das
eigentliche Data Mining)
· Überprüfung der Ergebnisse
(Assess)
Die unterschiedlichen
Vorgehensweisen sind meist darin
begründet, daß verschiedene
Hersteller neben Gesamtprodukten
auch Softwareunterstützung zu den
einzelnen Schritten anbieten. 11 Nach
dieser Einführung in die Theorie des
Data Mining erfolgt jetzt die
Festlegung der Beurteilungskriterien
für Data Mining-Software.
3 3 B Be eu ur rt te ei il lu un ng gs sk kr ri it te er ri ie en n f fü ür r D Da at ta a M Mi in ni in ng g--S So of ft tw wa ar re e
Bei der Erarbeitung von Kriterien zur Beurteilung von Data Mining-Software sind zwei
Bereiche zu unterscheiden. Zum einem gibt es Kriterien, die bei fast allen
Softwarevergleichen zu berücksichtigen wären und zum anderen Merkmale, die typisch für
eine bestimmte Klasse, in diesem Fall Data Mining, von Software sind. Zuerst sollen die
allgemein gültigen Kriterien erläutert werden.
3 3. .1 1 A Al ll lg ge em me ei in ne e B Be eu ur rt te ei il lu un ng gs sk kr ri it te er ri ie en n f fü ür r S So of ft tw wa ar re e
Durch die Lektüre von zahlreichen Zeitschriften der Computerbranche ist es recht einfach
die allgemeinen Beurteilungskriterien aufzustellen. So sind für alle Arten von Software
bestimmte Voraussetzungen an Hardware und Software (zum Beispiel das Betriebssystem)
zu erfüllen und, da es sich um einen Softwarevergleich handelt, sind Merkmale der zu
vergleichenden Software selbst zu berücksichtigen.
11 vgl. Soeffky, M.: Datenbank, Seite 22
Abb. 3: SEMMA -Data Mining Prozeß nach SAS Institut
(Quelle: http:// www. sas. com/)
12
12
Page 13
14
Walter Steinbach -Data Mining-Software 6
Die Hardwarevoraussetzungen können am einfachsten in
· Prozessor
· benötigter Hauptspeicher
· benötigter Festplattenspeicher
aufgeschlüsselt werden. Des weiteren gibt es noch Hardwarekomponenten, wie Monitor,
Diskettenlaufwerk, CD-ROM-Laufwerk, Grafikkarte etc., die in den meisten Fällen
vorausgesetzt werden können. Bei der Kontaktierung mit Herstellern von Data Mining-Software
haben sich dabei die oben genannten Kriterien als ausreichend erwiesen.
Bei den Voraussetzungen für die Software reicht eine Frage nach dem (den) unterstützten
· Betriebssystem( en)
aus. Es muß allerdings eine Aufschlüsselung der Merkmale der Software selbst erfolgen.
So könnte es wichtig sein, ob die Software eine grafische Benutzeroberfläche besitzt, ob
eine Maus unterstützt wird, in welcher Form die Daten gehalten werden (Dateiorganisation
oder Datenbankorganisation) und in welcher Form ein Austausch mit anderen Programmen
möglich ist. Durch die spezielle Aufgabenstellung fallen diese Kriterien aber unter die
gesonderter Betrachtung von Merkmalen der Data Mining-Software.
Weiterhin sind allgemeine Kriterien wie
· Preis (Universitäts-, Studenten-)
· Support
· Informationsmöglichkeiten
· Testsoftware
von großer Wichtigkeit. Neben diesem allgemeine Kriterien müssen auch besondere
Aspekte des Data Mining Beachtung finden.
3 3. .2 2 B Be eu ur rt te ei il lu un ng gs sk kr ri it te er ri ie en n f fü ür r D Da at ta a M Mi in ni in ng g--S So of ft tw wa ar re e
Aus der Problemstellung heraus ergeben sich gesonderte Merkmale und Voraussetzungen.
Da Data Mining immer bezüglich Datenbasen arbeitet, ist es wichtig, daß umfangreiche
oder standardisierte Importmöglichkeiten gegeben sind. Weiterhin müssen die Ergebnisse
wieder gespeichert werden (Export) und in anschaulicher Form repräsentiert werden, kann
sich ein Tool auf bestimmte Anwendungsgebiete beziehen und verwendet unterschiedliche
Methoden des Data Mining. Bezüglich der Anforderungen an die Daten kann gesagt
werden, daß lediglich eine Schnittstelle zu einer Datenbank oder der Import von ASCII-Files
als Minimum vorausgesetzt wurde. Bei letzterem wird dabei aus dem ASCII-File (bei
den selbst untersuchten Werkzeugen) eine Tabelle generiert, wobei das Format der
13
13
Page 14
15
Walter Steinbach -Data Mining-Software 7
eingeladenen Datei ähnlich dem einer im Textformat gespeicherten Excel-Tabelle ist. Als
extra Beurteilungskriterium entfielen daher die Anforderungen an die Daten. Eine
Übersicht soll alle Kriterien noch einmal verdeutlichen.
Nach den allgemeinen Kriterien soll der Vergleich von Data Mining-Software, die
Unterschiede, Gemeinsamkeiten, Einsatzgebiete und eventuelle Nutzer aufzeigen.
4 4 D Da at ta a M Mi in ni in ng g--S So of ft tw wa ar re e
Obwohl Data Mining an sich noch jung ist 12 , gibt es schon recht viele Anbieter von
Werkzeugen zu diesem Bereich. Dabei fällt auf, daß neben IBM vor allem unbekannte,
kleinere Firmen eine Marktlücke entdeckt haben. Kurz soll die Vorgehensweise des Autors
geschildert werden.
Um Software untereinander zu vergleichen, muß an sich jedes untersuchte Produkt
praktisch getestet worden sein. Leider ist dies nicht möglich, da nur wenige Unternehmen
bereit sind, eine Demoversion kostenlos zur Verfügung zu stellen. So müßte sich oft auf
Informationen aus Werbebroschüren und dem Internet verlassen werden. Dabei ist aber zu
bedenken, daß nicht alle gewünschten und notwendigen Informationen angeboten werden.
12 Korrekterweise muß angeführt werden, daß die Suche nach Trends, Zusammenhängen etc. So neu nicht ist, lediglich das Schlagwort
Data Mining wird erst seit kurzer Zeit verwendet.
Allgemeines
Name des Produkts:
Firma:
Systemvoraussetzungen
Prozessor:
Hauptspeicher:
Festplattenspeicher:
Betriebssystem( e):
Leistungsmerkmale
Import von:
Export nach:
Anwendungsgebiete:
Visualisierung:
Data Mining-Methoden:
Besonderheiten:
Sonstiges:
Demoversion erhältlich
Support:
Preis:
Universitäts-/ Studentenpreis:
Information:
Tabelle 1: Beurteilungskriterien für Data Mining-Software
14
14
Page 15
16
Walter Steinbach -Data Mining-Software 8
Deshalb erscheint eine gezielte Befragung besser, die allerdings kaum zu überprüfen ist,
wenn die Werkzeuge nicht vorhanden sind. Unter
http:// rzaix340. rz. uni-leipzig. de/~ steinba/ DataMining/ formular. html 13 wurde ein Formular
zur Abfrage der gesuchten Beurteilungskriterien (siehe Tabelle 1: Beurteilungskriterien für
Data Mining-Software) erstellt. Durch Email wurden Firmen gebeten, dies auszufüllen.
Die Resonanz war bis zu Fertigstellung der Arbeit nur gering. Aus der unterschiedlichen
Bereitschaft von Unternehmen, Informationen an Interessierte weiterzugeben resultieren
die unterschiedlichen Ausführungen der einzelnen Produkte, die jetzt näher erläutert
werden.
4 4. .1 1 d db bP Pr ro op ph he et t
Leider war von Trajecta keine Demoversion erhältlich (es gibt grundsätzlich keine), denn
es wäre sicherlich sehr interessant gewesen, ein Tool zu testen, das so unterschiedliche
Plattformen wie dbProphet unterstützt (Windows NT, HP-UX, Vax( VMS), IBM (AIX),
Sun OS & Solaris). Dürftig hingegen ist der Umstand, daß sowohl als Import-als auch als
Exportfilter lediglich ASCII-Dateien in Frage kommen. Hier leisten andere Produkte
wesentlich mehr. Laut Trajecta ist das überwiegende Einsatzziel des Programms das
Marketing -unter anderen daran zu erkennen, daß keine Studenten-oder
Universitätslizenzen vergeben werden. Hingegen interessant erscheinen die
Zahlungmodalitäten. Es wird nicht eine einmalige Summe für das Produkt verlangt,
sondern es ist vom Nutzer eine jährliche Lizenzgebühr zu entrichten. Ein besonderes
Leistungsmerkmal ist, daß die Größe der Daten, mit den dbProphet umgehen kann, nicht
eingeschränkt ist, sie wird lediglich durch die zur Verfügung stehenden Hardware
begrenzt.
13 Durch Ausfüllen des Formulars wird per CGI-Script automatisch eine Email generiert, die komfortabel ausgewertet werden kann.
15
15
Page 16
17
Walter Steinbach -Data Mining-Software 9
4 4. .2 2 D Da at ta aE En ng gi in ne e
Die MIT GmbH, der Hersteller von DataEngine, meint über ihr Produkt, daß es „das
Softwaretool" zu intelligenten Datenanalyse sei. Dieser Anspruch kann leider nicht
überprüft werden, weil es keine
kostenlose Demoversion von
DataEngine gibt. Das Programm
erscheint mit annähernd DM 6000
als sehr teuer, kann aber für DM
100 als Testlizenz für 30 Tage
erworben werden. Für
Unternehmen, die ein Data
Mining-Tool einsetzen wollen, ist
dies eine kostengünstige
Möglichkeit, die Fähigkeiten von
DataEngine zu überprüfen. Für Lehrzwecke gibt es ein Vollversion für DM 990.
Neben den üblichen Importfiltern wie ASCII,
Microsoft Excel und ODBC, kann die Software sehr
gut zur Meßwerterfassung, wie beispielsweise die
Aufzeichnung von Analogsignalen, eingesetzt
werden. Dadurch ist DataEngine geeignet, bei der
Prozeßanalyse und der Qualitätssicherung eingesetzt
zu werden. Die Grafikausgabe (siehe Abb. 5) ist
sehr ausgereift und kann durchaus mit Programmen
wie Microsoft Excel verglichen werden. So stehen
umfangreiche Diagrammtypen, wie 2D/ 3D-Liniendiagramme, 2D/ 3D-Kreisdiagramme und
2D/ 3D-Balkendiagramme zur Verfügung. Desweiteren kommen neben mathematischen
Funktionen (arithmetisch, logarithmisch, trigonometrisch, hyperbolisch, Fehlerbehandlung,
Skalierung), statistischen Funktionen (Mittelwerte, Varianzen, Korrelationsmatrix, Lineare
Regression und Histogramm) zusätzliche Funktionen zum Einsatz. Es soll kurz ein
Überblick über diese Data-Mining-Methoden von DataEngine gegeben und die damit
verbundenen Anwendungen skizziert werden.
Fuzzy Clusterung
Mögliche Anwendungen:
Störungserkennung
Abb. 4: DataEngine (Quelle: http:// www. mitgmbh. com/)
Abb. 5: Diagrammtypen von DataEngine
(Quelle: http:// www. mitgmbh. com/)
16
16
Page 17
18
Walter Steinbach -Data Mining-Software 10
Kundensegmentierung
Qualitätskontrolle
Fuzzy Regelbasis
Mögliche Anwendungen:
Regelung technischer Prozesse
Beurteilung komplexer Situationen (Kreditwürdigkeitsprüfung)
Neuronale Netze und Neuro-Fuzzy-Systeme
Mögliche Anwendungen:
Aktienkursprognose
Qualitätskontrolle
Maschinenüberwachung
Bildverarbeitung
4 4. .2 2. .1 1 D Da at ta aE En ng gi in ne e i in n d de er r P Pr ra ax xi is s 1 14 4
Das Chemieunternehmen Bayer aus Leverkusen erstellt mit einer Datenanalyse Prognosen
über den jährlichen Absatz von Kunststoffprodukten. Dabei lag die Fehlerquote bei rein
mathematischen Prognoseverfahren um 20 Prozent. Durch den Einsatz von DataEngine
konnte dieser Fehler auf 10 Prozent gesenkt werden.
Am Klinikum der Technischen Universität Aachen soll DataEngine frühzeitig vor
Komplikationen bei Herzoperationen warnen. Dabei werden während der Operation
ständig alle Körperdaten des Patienten verfolgt, in Beziehung gesetzt und ausgewertet.
4 4. .2 2. .2 2 E Er rw we ei it te er ru un ng ge en n z zu u D Da at ta aE En ng gi in ne e
Zusätzlich zu DataEngine werden die Tools DataEngine V. i und DataEngine ADL
angeboten. Diesen dienen als Ergänzung und bilden zusammen eine Art Produktfamilie.
DataEngine V. i ist eine Erweiterungsbibliothek zu LabVIEW von National Instruments,
die Daten aus der Meß-und Regeltechnik importiert und nachträglich mit Fuzzy Logik und
Neuronalen Netzen bearbeiten kann. DataEngine ADL (ADL = Application Development
Library) wird zur Codegenerierung und damit zur Integration von in DataEngine oder
DataEngine V. i entwickelten Lösungen in bestehende Software eingesetzt.
4 4. .3 3 D Da at ta a S Su ur rv ve ey yo or r
Dieses Tool verfolgt, was die Architektur betrifft, einen gänzlich anderen Weg als alle
anderen getesteten Programme: Es ist in Java geschrieben. Ziel des Hersteller Data
14 vgl. Dürand, D.: Wirtschaftswoche, S. 126
17
17
Page 18
19
Walter Steinbach -Data Mining-Software 11
Distilleries ist es, eine neue Generation von Data Mining zu etablieren. Diese Generation
soll On Line Data Mining heißen und führt durch die Programmierung in Java zu einem
unerreichtem Grad an Plattformunabhängigkeit und damit Verfügbarkeit auf nahezu allen
Hardwarearchitekturen und Betriebssystemen, die eine Java Virtual Machine 15 beinhalten.
Zwar ist diese heute vor allem in den Standardbrowsern für das WWW implementiert aber
OS/ 2 Warp 4 von IBM und die nächste Betriebssystemgeneration von Apples
Betriebssystem System verfügen über eine integrierte Java Virtual Machine. Das
Erscheinungsdatum von Data Surveyor liegt im 1. Quartal 1998 und dementsprechend war
das Programm noch nicht als Demonstrationsversion zu testen. Informationen über Import-und
Exportfilter, sowie Preisangaben fehlten völlig.
4 4. .4 4 I In nt te el ll li ig ge en nt t M Mi in ne er r
Das Produkt von IBM ist
wahrscheinlich das bekannteste
und verbreitetste Tool, das auf
dem Data Mining-Markt
erhältlich ist. Die Anforderungen
an Hardware und Software sind
aber so hoch, daß, auch wenn
eine Demoversion von IBM zu
bekommen wäre, kein Test
möglich sein würde. IBM
versucht mit dem Intelligent
Miner einen proprietären
Standard durchzusetzen. Es wird
eigentlich nur das hauseigene
Datenbanksystem DB2 unterstützt. Laut IBM ist es aber immerhin möglich, Daten aus den
Datenbanken von Sybase und Oracle zu nutzen, allerdings müssen diese vorher in das
Format von DB2 umgewandelt werden. Als Data Mining-Methoden kommt neben
Clusterung, Klassifikation, Zusammenhangsanalyse, Mustererkennung und
Zeitreihenanalyse auch Value Prediction 16 zum Einsatz. Dabei wird die Abhängigkeit des
Werts eines Attributs in einem Datensatz zu den Werten der anderen Attribute überprüft,
15 Java Virtual Machine ist eine Runtime-Library zum ausführen von in Java entwicklten Programmen.
16 Wert-Vorhersage erscheint keine sinnvolle Übersetzung
Abb. 6: Oberfläche Intelligent Miner (Quelle: Brochüre von IBM)
18
18
Page 19
20
Walter Steinbach -Data Mining-Software 12
was ermöglicht, diese spezielle Ausprägung für einen neuen Datensatz vorherzusagen.
Weiterhin können alle Ergebnisse durch umfangreiche grafische Darstellungsmittel
ausgewertet werden. Ein großer Vorteil des Intelligent Miner ist seine Skalierbarkeit durch
die Client/ Server-Architektur. Um eigene Applikationen zur Nutzung des Intelligent
Miners zu entwickeln, hat IBM die API des Intelligent Miners veröffentlicht.
4 4. .5 5 K Kn no ow wl le ed dg ge eS SE EE EK KE ER R
Angoss Knowledge Engineerings Data Mining-Produkt ist im Vergleich zu den anderen
Programmen für die meisten Plattformen verfügbar. Neben Windows (3. x, 95, NT) und
HP-UX, Solaris, AIX werden auch exotische Betriebssysteme wie MP-RAS und
Dynix/ PTX unterstützt. Nicht minder umfangreich sind die verfügbaren Importfilter. Als
Beispiel sollen hier die Standardfilter SQL, ODBC, ASCII und als überdurchschnittlich
dBASE III, Paradox, Sawtooth, SmartWare, SPSS aufgeführt werden. Anwendungsgebiete
des KnowledgeSEEKERs sind beispielsweise folgende 17 :
· Marketing
Forschung, Direktversand
· Prozeßsteuerung
Produktionspausen minimieren, Prozeßsteuerungsregeln ableiten.
· Finanzanalyse
Prognosemodelle
· Medizin
Forschung, Kostenreduktion
4 4. .5 5. .1 1 A An nw we en nd du un ng gs sb be ei is sp pi ie el le e v vo on n K Kn no ow wl le ed dg ge eS SE EE EK KE ER R 1 18 8
· Betrugserkennung bei Steuerbehörde der USA
Die Internal Revenue Service (IRS), als offizielle Regierungsbehörde für Steuern, setzt
den KnowledgeSEEKER zur Erkennung von Betrug in allen regionalen Büros ein.
Man hat anhand von bestimmten Mustern (Anzahl der Tage mit nur Eingängen, Menge
der zu zahlenden Steuern) erkannt, wer wahrscheinlich bei der Zahlung von Steuern
betrogen hat.
· Direktvertrieb bei Reader' s Digest
Auch hier ist der KnowledgeSEEKER durchweg in allen internationalen Büros für
17 vgl. Angoss
18 vgl. Angoss
19
19
Page 20
21
Walter Steinbach -Data Mining-Software 13
verschiedene Zwecke eingesetzt. Zuerst wurden damit die Hauptmarktsegmente
festgelegt, was half die Kosten zu senken und den Gewinn zu erhöhen. Desweiteren
wurden profitable "Teilmarktsegmente" gefunden und das Potential von neuen
Märkten ermittelt.
· Prozeßsteuerung bei Hewlett Packard
Hauptsächlich in den USA eingesetzt, werden in den Fabriken von HP Faktoren,
welche die Qualität mindern gefunden und Regeln für Produktionskontrollsysteme
generiert.
· Forschung beim Oxford-Transplantations-Center London
Hier wird der KnowledgeSEEKER in der Abteilung für Nierentransplantation
eingesetzt, wobei Daten von über 20 Jahren und über 5000 Patienten untersucht
werden. Dadurch wird versucht, die Faktoren zu finden, welche die Überlebenschancen
von Patienten erhöhen.
4 4. .6 6 M Mi in ne eS Se et t 2 2. .0 0
Abb. 7: Oberfläche von MineSet 2.0 (Quelle: http:// www. sgi. com/)
20
20
Page 21
22
Walter Steinbach -Data Mining-Software 14
Dieses vom Grafikspezialisten Silicon Graphics (SGI) und der Stanford University
entwickelte Programm dient neben der Datenanalyse vor allem als "Visual Data Mining
Tool" 19 .Dazu ist grundsätzlich bei MineSet 2.0 eine Client/ Server-Umgebung erforderlich.
Der Server, notwendigerweise ein Computer von SGI (O2, Octane, Onyx 2, Origin 200,
Origin 2000, Indy, Indigo2, Onyx, Challenge) mit dem eigenem Unix IRIX, führt alle
Berechnungen für die Grafikausgabe und die Datenanalyse durch und der Client, welcher
entweder eine Grafikworkstation oder auch ein PC mit XWindows-Oberfläche
(Oberflächenstandard unter Unix) sein kann, übernimmt lediglich die Darstellung. Es
scheint, daß dieses Produkt, welches beispielsweise im Marketing und in der Forschung
Anwendung finden soll, im High-End-Bereich einzuordnen ist, wofür die sehr hohen
Preise der Grafikhardware von SGI sprechen.
Positiv zu bewerten sind die zahlreich unterstützten Importmöglichkeiten, wie ASCII, und
Datenbankformate von Oracle, Sybase, Informix und SAS und die kostenlose
Verfügbarkeit für Universitäten. Weiterhin ist es möglich eine Demoversion zu beziehen,
welche aber angesichts der Hardwareanforderungen nicht zu testen wäre.
Hinterfragungswürdig erscheinen die umfangreichen Grafikmöglichkeiten (siehe Abb. 7)
von MineSet 2.0. So kann man Baumdiagramme frei im Raum drehen, lassen sich
Landkarten als eine Art Tortendiagramme darstellen, kann auf alle Objekte gezoomt
werden und mit dem Tree Visualizer kann sogar durch hierarchische Strukturen "geflogen"
werden. Ob sich die Aussagekraft durch solche Effekte erhöht oder als Kaufargument im
Marketingbereich angesehen werden kann, muß offen bleiben.
4 4. .7 7 S Sc ce en na ar ri io o
Auch von der Cognos GmbH war leider keine Demoversion zu erhalten. Auf der Website
konnte man lediglich an einem Gewinnspiel teilnehmen, das aber angesichts der geringen
Chancen keine Grundlage für wissenschaftliches Arbeiten darstellt. Trotz der scheinbar
etwas stiefmütterlichen Behandlung des eigenen Data Mining-Tools (im Vergleich zu
anderen Produkten von Cognos waren keine deutschen Informationen zu bekommen) ist
das Programm durchaus mit denen von IBM (Intelligent Miner) und Silicon Graphics
(MineSet) zu vergleichen. 20 In einem Vergleich von Data Mining-Werkzeugen in PC
Week 7/ 97 wurde zu Scenario folgendes geschrieben: "We gave the product a PC Week
19 SGI
20 pcweek, 1997
21
21
Page 22
23
Walter Steinbach -Data Mining-Software 15
Labs Analyst's Choice award; its innovative interface makes it the coolest software
package we've seen this year." 21
Scenario kombiniert dabei eine sehr gute grafische Benutzeroberfläche mit einem robusten
statistischen Hintergrund, es beinhaltet Methoden wie Klassifikation und
Entscheidungsbäume und CHAID 22 , es kann Daten aus Microsoft Excel, dBASE und
Paradox importieren. Wünschenswert wäre eine Schnittstelle zu ODBC, welche fast alle
Tools bieten. Weiterhin begleitet Scenario den Mining-Prozeß durch entsprechende
Wizards und eine gute Onlinehilfe.
21 pcweek, 1997
22 CHAID ist ein Softwareprodukt von SPSS und ist Data Mining-Mehtode ähnlich der Entscheidungsbäume
22
22
Page 23
24
Walter Steinbach -Data Mining-Software 16
4 4. .8 8 X Xp pe er rt tR Ru ul le e P Pr ro of fi il le er r
Das Produkt der englischen Firma Attar Software greift auf alle Datenbanken über
ODBC-Treiber zu. Dazu muß der entsprechende Treiber, welcher laut Attar zu dem
Datenbankprogramm
mitgeliefert sein sollte, erst
über das mitgelieferte
Programm ODBC Admin
installiert werden. ODBC
hat den großen Vorteil, daß
einerseits nur die SQL-Anfrage
an die
Datenbank (Server)
geschickt wird und in die
andere Richtung (an den
Client zurück) nur die Daten aus der ausgewerteten SQL-Anweisung übertragen werden.
Auch nach einer Anfrage bei Attar Software bestätigte sich die Erfahrung, daß lediglich
Daten über ODBC importiert werden können. Angesichts anderer Programme, die
erheblich mehr Importmöglichkeiten bieten, erscheint dies als zu wenig. Anders ist es bei
Abb. 8: Oberfläche von Scenario (Quelle: http:// www. cognos. com/)
Abb. 9: ODBC (Quelle: http:// www. attar. com/)
23
23
Page 24
25
Walter Steinbach -Data Mining-Software 17
den Exportfiltern. Neben ODBC-, Microsoft Excel-und SAS-Ausgabe bietet der
XpertRule Profiler die Möglichkeit, die SQL-Anweisungen, über die das Programm die
Data Mining Mehtoden umsetzt, als C-Programmcode abzuspeichern. Für Entwickler, die
selbst Data Mining Software erstellen wollen, kann dies als gute Einstiegschance gesehen
werden. Als Beispiele sind zwei Datenbanken von Microsoft Access vorhanden, welche
sich problemlos öffnen ließen. Da die Onlinehilfe ein schrittweises Tutorial enthält, ist für
die grundlegenden Schritte nur wenig Einarbeitungszeit nötig.
Leider war es nur möglich, die 16 Bit-Version aus dem Internet zu laden, welche nicht sehr
stabil unter Windows95 lief. So stürzte beispielsweise das Programm ab, wenn man ein
nicht unterstütztes Dateiformat öffnen wollte.
4 4. .9 9 W WI IN NR RO OS SA A
Das sowohl im Internet als auch in Prospekten gemeinsame Auftreten von WINROSA und
DataEngine der MIT GmbH verwundert anfangs etwas, leuchtet aber ein, wenn man
bedenkt, daß WINROSA von der MIT GmbH distribuiert wird. Dadurch ist es auch nicht
erstaunlich, daß WINROSA
das Dateiformat von
DataEngine unterstützt.
WINROSA wird unter
Leitung von Professor
Kiendl am Lehrstuhl für
Elektrische Steuerung und
Regelung, Fakultät für
Elektrotechnik der
Universität Dortmund
entwickelt. Die Entwicklung
von Software bildet an
diesem Lehrstuhl einen
Schwerpunkt und dient zur Unterstützung der Lehre und zum Technologietransfer 23 . Durch
die Software soll der Einsatz rechnergestützter Methoden auch kleinen und
mittelständischen Unternehmen ermöglicht werden. Daß in vielen Aufgabengebieten
Fuzzy-Methoden erfolgreiche und gegenüber konventionellen Verfahren bessere
Lösungsansätze bieten sollen, ist die Grundintention des Tools. Es basiert auf dem von
23 vgl. WINROSA: Dortmund, 1997
Abb. 10: Oberfläche von WINROSA (Quelle:
http:// www. mitgmbh. com/)
24
24
Page 25
26
Walter Steinbach -Data Mining-Software 18
Professor Kiendl entwickeltem Fuzzy-ROSA-Verfahren 24 . Die Hauptaufgabe von
WINROSA ist die automatische Aufstellung von Fuzzy-Regeln Verwendung vorhandener
Meß-und Beobachtungsdaten.
4 4. .9 9. .1 1 D Da at ta a M Mi in ni in ng g--M Me et th ho od de en n 2 25 5
WINROSA
· liefert interpretierbare Informationen über Zusammenhänge der untersuchten Daten in
Form von Fuzzy-Regeln.
· generiert die Fuzzy-Regeln automatisch, auch wenn die Systeme sehr komplex sind
und nur wenig Expertenwissen über die Zusammenhänge der Daten vorliegt.
· kann vorhanden Regelbasen analysieren und optimieren.
4 4. .9 9. .2 2 E Ei in ns sa at tz zb be er re ei ic ch he e
· Prozeßanalyse
· Qualitätskontrolle
· Überwachung und Diagnose
· Steuerung und Regelung
· Risiko Management
· Database Marketing
· Prognose
· Entscheidungsunterstützung
4 4. .1 10 0 V Vo or rg ge eh he en ns sw we ei is se e z zu ur r A Au us sw wa ah hl l v vo on n D Da at ta a M Mi in ni in ng g S So of ft tw wa ar re e
Nach der näheren Betrachtung einiger Softwareprodukte soll am Ende dieses Kapitels
anhand von bestimmten Kriterien eine allgemeine Vorgehensweise zur Bestimmung des
„richtigen" Werkzeuges vorgestellt werden. 26 .
4 4. .1 10 0. .1 1 M Me et th ho od de en n
Anhand der Problemstellung kann auf die benötigten Data-Mining-Methoden geschlossen
werden. Es muß also beantwortet werden, ob Neuronale Netze, Entscheidungsbäume,
Regelproduktion, Algorithmen zur Korellationsanalyse etc. benötigt werden. Dabei sind
24 vgl. Krabs, M., Kiendl, H.: ROSA, 1997, S. 19-24
25 Zugeschickte Informationsunterlagen zu WINROSA
26 vgl. Two Crows Corparation: Data Mining, 1997, S. 25-28
25
25
Page 26
27
Walter Steinbach -Data Mining-Software 19
auf dem Markt Produkte erhältlich, die sowohl (fast) alle als auch nur eine Methode
beherrschen.
4 4. .1 10 0. .2 2 P Pr ro ob bl le em ms st te el ll lu un ng g
Zunehmende Komplexität, bedingt durch ebenfalls steigende Datenmengen, erfordert eine
Unterstützung des Benutzers hinsichtlich folgender Kriterien:
· Menge der angebotenen Modelle
· Anzahl der verschiedenen Algorithmen
· Grafische Darstellung
· Skalierbarkeit
4 4. .1 10 0. .3 3 A Al ll lg ge em me ei in ne e V Vo or ra au us ss se et tu un ng ge en n
Unter diesen Apekt fallen beispielsweise Kriterien wie vorhandene/ gewünschte
Hardwarearchitektur, welche Möglichkeiten des Imports und Exports von Daten sind
erforderlich, in welchem preislichen Rahmen soll sich das Produkt bewegen oder in
welchem Unfang ist eine Unterstützung durch den Hersteller (Support) gegeben.
Selbstverständlich umfassen die angeführten Beispiele nicht alle Kriterien.
Zum Schluß des Hauptteils der Arbeit soll ein Ausblick auf mögliche weiterführende
Untersuchungen gemacht und die Ergebnisse kurz zusammengefaßt werden.
5 5 S Sc ch hl lu uß ßb be et tr ra ac ch ht tu un ng g
Neun Data Mining-Tools wurden näher vorgestellt. Es hätten auch etwa 30 sein können,
wenn der zeitliche Rahmen dies zugelassen hätte. Es kann festgestellt werden, daß viele
Unternehmen gleiche Ansätze und Ziele bezüglich des Data Mining verfolgen. Diese
Softwarebranche ist außerdem noch sehr jung, es gibt noch keine Standards und nur wenig
professionell durchgeführte Softwarevergleiche dieser Werkzeuge. Gerade durch die
immer wieder propagierte Informationsvielfalt des Internet werden leistungsfähige Tools
zur gezielten Analyse von Daten und damit zur schnellen Gewinnung der gewünschten
Information immer wichtiger.
In einer Schlußbetrachtung soll auch der Weg für weitere Arbeiten auf dem behandelten
Gebiet skizziert werden. Den Rahmen der Arbeit hätte gesprengt, wenn versucht worden
wäre, den Einsatz von Data Mining-Software in der Praxis genauer zu untersuchen, da dies
nur durch eine Befragung unter Unternehmen möglich ist, die entsprechenden Tools
einsetzen. Außerdem sollte versucht werden, durch eigene Test, die dann eine gründlich
26
26
Page 27
28
Walter Steinbach -Data Mining-Software 20
geplante Datenbank und die entsprechende Hardware voraussetzen, die Arbeitsweise der
Werkzeuge genauer zu untersuchen.
27
27
Page 28
29
Walter Steinbach -Data Mining-Software I
1 1 A An nh ha an ng g
In diesem Abschnitt werden alle vorgestellten Produkte tabellarisch zusammengefaßt.
Allgemeines
Name des Produkts: dbProphet
Firma: Trajecta
Systemvoraussetzungen
Prozessor: Pentium (Pentium Pro 200 empfohlen)
Hauptspeicher: 32 MB (128 MB empfohlen)
Festplattenspeicher: Abhängig von der Größe der modellierten Daten
Betriebssystem( e): · NT
· HP-UX · Vax( VMS)
· IBM (AIX) · Sun OS & Solaris
Leistungsmerkmale
Import von: ASCII
Export nach: ASCII
Anwendungsgebiete: Marketing
Visualisierung: · Charts und Diagramme
· Korrelationsplots, Data Mining-Methoden:
· Neuronale Netze · Regression
Besonderheiten: · Graphische Benutzeroberfläche
· Expertsystem integriert
Sonstiges:
Demoversion erhältlich Nein
Support: · Telefon
· Email · Fax
Preis: Basierend auf jährlichen Lizenzgebühren
Universitäts-/ Studentenpreis: -Information:
· http:// www. trajecta. com/ · 611 S. Congress, Suite 420
Austin, Texas 78704-1736
· Free call: (800) 250-2242 · Tel: (512) 326-2411
· Fax: (512) 326-2484 Tabelle 2: dbProphet
28
28
Page 29
30
Walter Steinbach -Data Mining-Software II
Allgemeines
Name des Produkts: Clementine 27
Firma: Integral Solutions Ltd
Systemvoraussetzungen
Prozessor: · Pentium
· Sun Sparc · HP,
· SGI, · DEC,
· Alph Hauptspeicher: 48 MB
Festplattenspeicher: 25 MB
Betriebssystem( e): · Windows NT
· UNIX
Leistungsmerkmale
Import von: · ASCII
· ODBC Export nach:
· ASCII · ODBC
Anwendungsgebiete: · Marketing,
· Finanzwesen, · Einzelhandel,
· Telekommunikation, · Wissenschaft
Visualisierung: · Plots
· Histograms, · Multiplot
Data Mining-Methoden: · Neuronale Netze,
· Regelgenerierung, · Korellationsanalys
· Lineare Regression Besonderheiten: Aus verschiedenen Einzelmodelle kann ein neues gebildet werden
Sonstiges:
Demoversion erhältlich Nein
Support: support@ isl. co. uk
Preis: Auf Anfrage
Universitäts-/ Studentenpreis: Auf Anfrage
Information: http:// www. isl. co. uk/
Integral Solutions Ltd., Berk House, Basing View, Basingstoke,
Hampshire, RG21 4RG, UK
Tel: +44 1256 355899
Fax: +44 1256 363467
Tabelle 3: Clementine
27 Entsprechende Informationen kamen erst nach „Redaktionsschluß", so das eine ausführlichere Betrachtung nicht möglich war.
29
29
Page 30
31
Walter Steinbach -Data Mining-Software III
Allgemeines
Name des Produkts: DataEngine
Firma: MIT (Management Intelligenter Technologien GmbH)
Systemvoraussetzungen
Prozessor: ° 486 oder höher (Co-Prozessor empfohlen)
Hauptspeicher: 32 MB
Festplattenspeicher: 47 MB
Betriebssystem( e): · Microsoft Windows 95
· Microsoft Windows NT 3.51 oder höher
Leistungsmerkmale
Import von: · ASCII
· Excel · ODBC
· dBASE · Paradox (SQL)
· Meßwerterfassung (AT Mio 16 28 , Analogsignale, Trigger) Export nach:
· ASCII · Excel
· ODBC · dBASE
· Paradox (SQL) Anwendungsgebiete:
· Prozeßanalyse · Qualitätskontrolle
· Management Visualisierung:
· Zeitreihen · 2D/ 3D-Linien-/ Balken-/ Kreisdiagramm
Data Mining-Methoden: · Fuzzy Logik
· Neuronale Netze · Statistische Methoden
Besonderheiten: -Sonstiges:
Demoversion erhältlich Ja
Support: ?
Preis: · Testversion 150 DM
· Vollversion 5990 DM Universitäts-/ Studentenpreis: 990 DM
Information: · http:// www. mitgmbh. de/
· Management Intelligenter Technologien GmbH Promenade 9, 52076 Aachen, Deutschland
· Tel: 02408/ 94580 · Fax: 02408/ 94582
Tabelle 4: DataEngine
28 Standard von National Instruments
30
30
Page 31
32
Walter Steinbach -Data Mining-Software IV
Allgemeines
Name des Produkts: Data Surveyor 2.0
Firma: Data Destilleries
Systemvoraussetzungen
Prozessor: -Hauptspeicher:
256 MB
Festplattenspeicher: > 2 GB
Betriebssystem( e): · Server: Unix
· jedes Betriebssystem, das Java bzw. Browser mit Java unterstützt
Leistungsmerkmale
Import von: ?
Export nach: ?
Anwendungsgebiete: · Database Marketing
· Betrugserkennung · Versicherungsstatistik
Visualisierung: 3D-Darstellung der Ergebnisse
Data Mining-Methoden: · Regelgenerierung
· Entscheidungsbäume · Regressionsanalyse
· Zusammenhangserkennung Besonderheiten: 100 % in Java geschrieben, woraus eine nahezu universelle
Einsetzbarkeit resultiert
Sonstiges:
Demoversion erhältlich ?
Support: ?
Preis: ?
Universitäts-/ Studentenpreis: ?
Information: · http:// www. ddi. nl/
· Kruislaan 419, 1098 VA Amsterdam, The Netherlands · Tel: +31 20 560 8433
· Fax: +31 20 668 5486 Tabelle 5: Data Surveyor 2.0
31
31
Page 32
33
Walter Steinbach -Data Mining-Software V
Allgemeines
Name des Produkts: Intelligent Miner
Firma: IBM
Systemvoraussetzungen
Prozessor: · POWERstations
· POWERservers · PowerPC
· POWERparallel · AS/ 400 Advanced Series RISC Systems
· System/ 390 (R) processors Hauptspeicher: keine Angaben
Festplattenspeicher: keine Angaben
Betriebssystem( e): · AIX
· Windows 95 · Windows NT
· OS/ 2
Leistungsmerkmale
Import von: · DB2
· Oracle · Sybase
Export nach: DB2
Anwendungsgebiete: · Database Marketing
· Betrugserkennung · Industie
Visualisierung:
Data Mining-Methoden: · Clusterung
· Klassifikation · Entdecken von Abhängigkeiten
· Entdecken von Mustern · Entdecken von Zeitreihen
Besonderheiten: · Softwareentwicklung für Intelligent Miner mit IBM
VisualAge C++
· Zur Anbindung von Workstations, bei denen der Intelligent Miner unter AIX, Windows 95, Windows NT oder OS/ 2 und
der Server unter OS/ 390 oder AS/ 400 laufen ist IBM
Distributed Database Connection Services (DDCS) nötig
Sonstiges:
Demoversion erhältlich Nein
Support: ?
Preis: ?
Universitäts-/ Studentenpreis: ?
Information: · http:// www. software. ibm. com/
· IBM Software Solutions Santa Teresa Laboratory
P. O. Box 49023
San Jose CA 95161-9023
Tabelle 6: Intelligent Miner
32
32
Page 33
34
Walter Steinbach -Data Mining-Software VI
Allgemeines
Name des Produkts: KnowledgeSEEKER
Firma: Angoss Knowledge Engineering
Systemvoraussetzungen
Prozessor: 486DX oder höher (Pentium empfohlen)
Hauptspeicher: 8 MB (16MB empfohlen)
Festplattenspeicher: 12 MB
Betriebssystem( e): · Windows 3.1
· Windows 95 · Windows NT (empfohlen)
· HP-UX · Solaris
· AIX · SCO,
· MP-RAS · IRIX
· Sinix · Linux
· Dynix/ PTX · Digital UNIX
Leistungsmerkmale
Import von: · SQL
· ODBC · Text
· dBASE III · Paradox
· Sawtooth · SmartWare
· SAS, · SPSS
· Excel · Lotus
· QuattroPro Export nach: ?
Anwendungsgebiete: · Database Marketing
· Prozeßkontrolle · Finanzanalyse
· Medizin Visualisierung: Entscheidungsbaumdarstellung
Data Mining-Methoden: Regelgenerierung
Besonderheiten: -Sonstiges:
Demoversion erhältlich Ja
Support: ?
Preis: ?
Universitäts-/ Studentenpreis: ?
Information: · http:// www. angoss. com/
· 34 St. Patrick Street, Suite 200, Toronto, Ontario, Canada, M5T 1V1
· Tel: 416-593-1122 · Fax: 416-593-5077
Tabelle 7: KnowledgeSEEKER
33
33
Page 34
35
Walter Steinbach -Data Mining-Software VII
Allgemeines
Name des Produkts: MineSet 2.0
Firma: Silicon Graphics, Inc. (SGI)
Systemvoraussetzungen
Prozessor: · SGI/ MIPS (Server)
· PC mit X-Server (Client) Hauptspeicher: 64 MB
Festplattenspeicher: · 46 MB für Server
· 25 MB für Client Betriebssystem( e):
· IRIX (SGI Unix) (Server) · jedes mit OpenGL (Client)
Leistungsmerkmale
Import von: · ASCII
· Binary · Oracle
· Sybase · Informix,
· SAS Export nach:
· ASCII · Binary
· SAS Anwendungsgebiete:
· Marketing · Einzelhandel
· Wissenschaft · Telekommunikation
· Forschung Visualisierung:
· 3D-Baumdiadramme · 3D-Scatter
· 3D-Landkartendarstellung · 3D-„ Flüge"
Data Mining-Methoden: · Entscheidungsbäume
· Korrelationsanalyse Besonderheiten:
· Skalierbarkeit durch Client/ Serverarchitektur
Sonstiges:
Demoversion erhältlich Ja
Support: mineset@ postofc. corp. sgi. com
800-800-4SGI
Preis: 0,000 single client and server
Universitäts-/ Studentenpreis: 0 $ (mit besonderen Bestimmungen)
Information: http:// www. sgi. com/ Products/ software/ MineSet/ products/
Tabelle 8: MineSet 2. 0
34
34
Page 35
36
Walter Steinbach -Data Mining-Software VIII
Allgemeines
Name des Produkts: Scenario
Firma: COGNOS GmbH
Systemvoraussetzungen
Prozessor: ab 486
Hauptspeicher: 8 MB
Festplattenspeicher: 10 MB
Betriebssystem( e): · Windows 95
· Windows NT
Leistungsmerkmale
Import von: · ASCII
· Excel · dBASE
· über Impromptu 29 : Borland InterBase, Microsoft SQL Server, OmniSQL Gateway, CA-Ingres, Oracle, Sybase,
MDI, Informix
Export nach:
Anwendungsgebiete:
Visualisierung:
Data Mining-Methoden:
Besonderheiten:
Sonstiges:
Demoversion erhältlich Nein
Support:
Preis: $ 695
Universitäts-/ Studentenpreis: -Information:
· http:// www. cognos. com/ Cognos Kanada
· Cognos Inc., Ottawa · Tel. (613) 738-1440
Cognos Deutschland
· COGNOS GmbH Lyoner Straße 40
D-60528 Frankfurt/ Main
Bürostadt Niederrad
· Tel: 069/ 66560-0 · Fax: 069/ 6661061
Tabelle 9: Scenario
29 Impromptu™ ist ein weiteres Produkt der Cognos GmbH
35
35
Page 36
37
Walter Steinbach -Data Mining-Software IX
Name des Produkts: XpertRule Profiler
Firma: Attar Software Limited
Systemvoraussetzungen
Prozessor: 486
Hauptspeicher: 16 MB
Festplattenspeicher: 40 MB
Betriebssystem( e): · Windows 3.1
· Windows95 · Windows NT
Leistungsmerkmale
Import von: ODBC
Export nach: · ODBC
· C · SAS
· Excel Anwendungsgebiete:
· Finanzalyse · Marketing
· Prozeßkontrolle · Energiewirtschaft
Visualisierung: · Baumdiagramme
· verschiedene 2D/ 3D-Diagramme Data Mining-Methoden:
· Entscheidungsbäume · Korrelationsanalyse
· Clusterung Besonderheiten: -Sonstiges:
Demoversion erhältlich Ja
Support: · Hotline
· Fax · Email
Preis: Ab 995 £
Universitäts-/ Studentenpreis: 175 £
Information: Attar Software UK (Head Office)
· http:// www. attar. co. uk/ · Newlands Road, Leigh, WN7 4HN, England
· Tel: 44 (0) 870 60 60 870 · Fax: 44 (0) 870 60 40 156
Tabelle 10: XpertRule Profiler
36
36
Page 37
38
Walter Steinbach -Data Mining-Software X
Allgemeines
Name des Produkts: Winrosa
Firma: Uni Dortmund
Systemvoraussetzungen
Prozessor: 386/ 33 (Pentium 90 empfohlen)
Hauptspeicher: 8 MB (16 MB empfohlen)
Festplattenspeicher: 10 MB
Betriebssystem( e): Windows 3.1
Leistungsmerkmale
Import von: · ASCII
· DataEngine Export nach:
· ASCII · DataEngine
· FuzzyTech · DORA für Windows
Anwendungsgebiete: · Prozeßanalyse
· Prozeßmodellierung · Qualitätskontrolle
· Überwachung und Diagnose · Steuerung und Regelung
· Risiko Management · Database Management
· Prognose · Entscheidungsunterstützung
Visualisierung:
Data Mining-Methoden: · Regelgenerierung
· Regelreduktion · Analyse
Besonderheiten:
Sonstiges:
Demoversion erhältlich
Support:
Preis: 1990 DM
Universitäts-/ Studentenpreis:
Information: · http:// www. mitgmbh. de/ 30
· Management Intelligenter Technologien GmbH Promenade 9, 52076 Aachen, Deutschland
· Tel: 02408/ 94580 · Fax: 02408/ 94582
Tabelle 11: Winrosa
30 Vertrieb und Marketing erfolgt über die MIT GmbH
37
37
Page 38
39
Walter Steinbach -Data Mining-Software XI
2 2 I In nt te er rn ne et ta ad dr re es ss se en n
Die folgenden WWW-Adressen können auch unter
http:// rzaix340. rz. uni-leipzig. de/~ steinba/ DataMining/ direkt aufgerufen werden.
http:// www. angoss. com/ Angoss Homepage
http:// www. ddi. nl/ Data Distilleries
http:// www. magnify. com/ Magnify Homepage
http:// www. data-miners. com/ Data Miners
http:// datamation. com/ Datamation
http:// www. alice. fr/ Alice
http:// www. syllogic. nl/ Syllogic
http:// www. attar. com/ Attar Software
http:// www. datamindcorp. com/ DataMindCorp
http:// www. g1. com/ Group 1 Software
http:// www. datamining. com/ Data Mining
http:// www. isl. co. uk/ Integral Solutions Ltd
http:// www. hyperparallel. com/ main. html HYPERparallel
http:// www. neovista. com/ NeoVista Software, Inc
http:// www. sgi. com/ Products/ software/ M
ineSet/ products/
SGI-Data Mining
http:// www. torrent. com/ Torrent
http:// www. sas. com/ SAS Homepage
http:// www. dbpd. com/ Database Programming and Design -Zeitschrift
http:// www. kdnuggets. com/ siftware. html Knuggets
http:// www. mansoft. de/ Delta Miner
http:// www. wizsoft. com/ Wizsoft (WizWhy, WizRule)
http:// www. bissantz. de/ public/ Publikatio
nen. html
Publikationen zu Data Mining
http:// www. ultragem. com/ Ultragem Homepage
http:// www. trajecta. com/ Trajekta (dbProphet)
http:// jsaic. iti. gov. sg/ projects/ winviz/ viz
Main. htm
WinViz
http:// www. software. ibm. com/ data/ info/ d
atamining/
IBM Intelligent Miner
http:// www. hncs. com/ HNC Software Inc
http:// www. think. com/ Thinking Machines
http:// www. megaputer. ru/ Megaputer Intelligence
http:// www. cognos. com/ Cognos -Scenario Tabelle 12: Internetadressen
38
38
Page 39
Walter Steinbach -Data Mining-Software XII
3 3 L Li it te er ra at tu ur rv ve er rz ze ei ic ch hn ni is s
· Janetzko, D.; Steinhöfel, K.: Lotsen Los ! -Data Mining: Verborgene Zusammenhänge
in Datenbanken aufspüren. In: c't (1997) 3, S. 294-300
· Gilmozzi, S. Data Mining . Auf der Suche nach dem Verborgenen, onl-dw. doc, mip GmbH, 1996.
· Two Crows Corporation: Introduction to Data Mining and Knowledge Discovery, Potomac, 1997.
· Hansen, H. R.: Arbeitsbuch Wirtschaftsinformatik -Lexikon, Aufgabe, Lösungen, 5. Auflage, 1997
· ÖFAI: Was ist Data Mining? In: http:// www. ai. univie. ac. at/ oefai/ ml/ kdd/ wasist. html, 1997
· Ferber, R: Data Mining und Information Retrievel. In: http:// www. darmstadt. gmd. de/ ferber/ vorlsung/ vorlesung. html, 1997
· Soeffky, M.: Data Mining -Anspruch und Realität: Ohne Datenvorbereitung geht nichts. In: Datenbank FOKUS (1997) 2, S. 18-26
· SGI: http:// www. sgi. com/ Products/ software/ MineSet/ products/, 1997
· Angoss: http:// www. angoss. com/ ksprod/ success. htm, 1997
· Dürand, D.: Auf Leben und Tod. In: Wirtschaftswoche 47 (1996) 14.11.1996, S. 124-126
· WINROSA: http:// esr. e-technik. uni-dortmund. de/ esr/ transfer. htm, 1997
· Krabs, M., Kiendl, H: Automatische Generierung von Fuzzy-Regeln mit dem ROSA-Verfahren, Fuzzy Control. In: Tagungsband VDI/ VDE-GMA Aussprachetag, 1994 in
Langen, 1994
· PCWEEK: http:// www8. zdnet. com/ pcweek/ reviews/ 0505/ 05mining. html, 1997 39