Das Gradientenabstiegsverfahren startet mit einer zufällig
gewählten Gewichtskombination. Für diese wird der
Gradient
bestimmt und um eine vorgegebene Länge - der Lernrate - hinabgestiegen, sprich
die Gewichte werden entsprechend verändert (siehe Abbildung 12).
Der Gradient kann dabei definiert werden als eine Funktion eines Skalarfeldes, welche die Änderungsrate und Richtung
der größten Änderung in Form eines Vektorfeldes angibt.
Ende: Erreichen eines lokalen Minimums oder der maximalen Anzahl von Zyklen
Für die neu erhaltene Gewichtskombination wird wiederum der
Gradient bestimmt und abermals eine Modifikation der Gewichte vorgenommen.
Dieses Verfahren wiederholt sich solange, bis ein lokales Minimum
(bzw. globales Minimum) erreicht ist (siehe Abbildung 12) oder eine zuvor festgelegte maximale Anzahl von Wiederholungen erreicht worden ist.
Abbildung
12:
Zweidimensionales, animiertes Liniendiagramm mit Gradientenabstiegskurve. Auf der Abszisse (x-Achse) ist das Gewicht (W) abgetragen,
auf der Ordinate (y-Achse) der Fehlerterm (F). Der rote Pfeil markiert den Gradienten, der blaue gibt die Richtung und Stärke
der Positionsveränderung der Gewichte an. Er bildet sich mit Hilfe des Gradienten und der Lernrate. In diesem Beispiel findet
das Gradientenabstiegsverfahren nach 3 Zyklen das globale Minimum.