Grundsätze des Data Mining


Für gute Ergebnisse bei  Data Mining ist folgendes zu beachten:

  • es sind stets mehrere (viele) Experimente nötig
  • es sind verschiedene Verfahren und such verschiedene Software-Werkzeuge einzusetzen und auszuprobieren, wenn dies möglich ist
  • mittels vorgefertigter Komponenten können sehr schnell Data-Mining-Experimente durchgeführt werden, welche jedoch nicht das Verständnis für die verwendeten Methoden ersetzt
  • kreatives Herangehen und die Implementation eigener Verarbeitungsschritte können durchaus zu besseren Ergebnissen führen
  • Die Datenvorbereitung hat einen großen Einfluss auf die Resultate
  • Experimentieren und das Protokollieren dieser Experimente sind für ein erfolgreiches Data Mining unerlässlich
  • wenn möglich sind die Experimente zu automatisieren, um viele Varianten zu probieren und somit die Chance auf gute Ergebnisse zu erhöhen

Möglichkeiten sind zum Beispiel:

  • Modifizierung der Aufteilung von Trainings- und Testdatenmenge
  • Modifizierung und Codierung der Testdaten (z.B. Verfeinerung der Unterteilung von gruppierten Daten)
  • Binarisierung von Merkmalen bei der Arbeit in neuronalen Netzen
  • Variierung der Architektur und Lernparameter für das Trainieren neuronaler Netze
  • Entwicklung von Assiziationsregeln durch Nutzung von binarisierten Merkmalen. Dabei sind die Assoziationsregeln interessant, welche eine Verbindung mit dem Klassifikationsmerkmal herstellen

Quelle

Jürgen Cleve, Uwe Lämmel: Data Mining; S. 282-284, De Gruyter Oldenbourg, 2. Aufl.