🏠 » Business Intelligence » Data Mining Grundlagen » Klassifikationsverfahren

Klassifikationsverfahren

Die vier wesentlichen Klassifikationsverfahren im Data Mining  und bei der Klassifikation von Objekten sind Entscheidungsbäume, Neuronale Netze, die Bayes-Klassifikation und das Nächste-Nachbarn-Verfahren.

Die meisten Klassifikationsverfahren sind generell zweistufig aufgebaut. Es wird zunächst eine Lernphase mit Trainingsdaten durchlaufen, anschließend erfolgt die Klassifikationsphase.

In dem folgenden Abschnitt werden wir euch die Entscheidungsbäume, Neuronale Netzte, die Bayes-Klassifikation und das Nächstes-Nachbar-Verfahren vorstellen.

Entscheidungsbäume

Bei diesem Verfahren durchlaufen die Daten einen Entscheidungsbaum. Anhand der Merkmalsausprägungen der Objekte, wird an den einzelnen Knoten geprüft, welcher Pfad im Baum weiter verfolgt wird. Es wird immer ein Blattknoten erreicht, dieser stellt dann die Klasse des Objektes dar. Ein Entscheidungsbaum wird mit Hilfe von Trainingsobjekten, über einen rekursiven Divide-and-Conquer Algorithmus, erstellt.

Nachfolgend ein Beispiel mit einem Entscheidungsbaum, ob ein Kunde im Onlineshop Waren auf Rechnung bestellen kann oder nicht:

Klassifikationsverfahren mit Entscheidungsbäumen

Die Vorteile von Entscheidungsbäumen liegen darin, dass die ermittelten Regeln einfach interpretiert werden können. Zudem können bei der Clusteranalyse ermittelte Klassen, durch Anwendung von Entscheidungsbäumen, besser verstanden werden.

Neuronale Netze

Neuronale Netze bestehen aus Knoten (sogenannten Neuronen), die untereinander in Verbindung stehen. Ein neuronales Netz weist mehrere Schichten auf. Die Knoten der einzelnen Schichten sind an den Schichtenübergängen miteinander verknüpft. Dabei besitzt jede Verbindung ein Kantengewicht, das zu Beginn des Trainings zufällig festgelegt wird. Das Kantengewicht entscheidet zu welchem Knoten ein Objekt als nächstes gelangt, um letztendlich einem Ausgangsknoten zugeordnet werden zu können.

In der Ausgabeschicht wird in der Regel ein Ausgabeknoten für eine Klasse gesetzt. Je nachdem welche Aktivierungspfade ein Objekt während der Verarbeitung im neuronalen Netz genommen hat, wird ein bestimmter Ausgabeknoten aktiv.

Klassifikationsverfahren mit Neuronalen Netzen

Das Lernen mit Neuronalen Netzen findet durch eine Überprüfung der Ist- mit den Ziel-Ergebnissen der Trainingsdaten statt. Die Fehler werden in das neuronale Netz zurückgeführt, wodurch die Kantengewichte sukzessive angepasst werden.

Der Vorteil des Verfahrens liegt in der guten Erkennung von Ausreißern in den Daten. Der Nachteil besteht jedoch in den kaum nachvollziehbaren Klassifikationsergebnissen.

Bayes-Klassifikation

Das Bayes-Klassifikations- Verfahren nimmt eine Klassenzuordnung auf Basis von Wahrscheinlichkeiten in den Merkmalsausprägungen vor. Ein Objekt wird der Klasse zugeordnet, in der die Wahrscheinlichkeit des Auftretens der Merkmalskombination am größten ist. Das Auftreten wird durch die Trainingsdaten annähernd geschätzt.

Der Vorteil der Bayes-Klassifikation liegt in der hohen Genauigkeit der Einordnung, wenn das Verfahren auf sehr große Datenmengen angewandt wird. Der Nachteil besteht allerdings darin, dass bei einer falsch angenommen Verteilung oder Merkmalsunabhängigkeit die Ergebnisse ungenau und verfälscht werden.

Nächstes-Nachbarn-Verfahren

Beim Nächstes-Nachbarn-Verfahren werden Objekte untereinander verglichen und anschließend einer Klasse zugeordnet. Der Vergleich erfolgt anhand ähnlicher Trainingsobjekte. Die Vergleichsbasis bildet das zuvor festgelegte Ähnlichkeits- oder Distanzmaß. Die am häufigsten vorkommende Klasse, die bei den Objektvergleichen auftritt, gilt als Ergebnisklasse.

Der Vorteil des Verfahrens liegt in der Anwendbarkeit auf qualitative und quantitative Merkmale von Objekten. Von Nachteil ist jedoch, die sehr aufwendige Klassifikationsphase, da stets die gesamten Trainingsdaten für den Vergleich herangezogen werden müssen.

Weiterführende Artikel