Backpropagation

Gradientenabstiegsverfahren

Start: zufällig gewählte Gewichtskombination

Das Gradientenabstiegsverfahren startet mit einer zufällig gewählten Gewichtskombination. Für diese wird der Gradient bestimmt und um eine vorgegebene Länge - der Lernrate - hinabgestiegen, sprich die Gewichte werden entsprechend verändert (siehe Abbildung 12). Der Gradient kann dabei definiert werden als eine Funktion eines Skalarfeldes, welche die Änderungsrate und Richtung der größten Änderung in Form eines Vektorfeldes angibt.

Ende: Erreichen eines lokalen Minimums oder der maximalen Anzahl von Zyklen

Für die neu erhaltene Gewichtskombination wird wiederum der Gradient bestimmt und abermals eine Modifikation der Gewichte vorgenommen. Dieses Verfahren wiederholt sich solange, bis ein lokales Minimum (bzw. globales Minimum) erreicht ist (siehe Abbildung 12) oder eine zuvor festgelegte maximale Anzahl von Wiederholungen erreicht worden ist.

: Abbildung 12: Zweidimensionales, animiertes Liniendiagramm mit Gradientenabstiegskurve. Auf der Abszisse (x-Achse) ist das Gewicht (W) abgetragen, auf der Ordinate (y-Achse) der Fehlerterm (F). Der rote Pfeil markiert den Gradienten, der blaue gibt die Richtung und Stärke der Positionsveränderung der Gewichte an. Er bildet sich mit Hilfe des Gradienten und der Lernrate. In diesem Beispiel findet das Gradientenabstiegsverfahren nach 3 Zyklen das globale Minimum.