Wie kann man nun im Backward-Pass bei Backpropagation die Gewichte
so anpassen, dass der resultierende Gesamtfehler möglichst klein ausfällt?
Eine Möglichkeit bestünde darin, zu allen möglichen Kombinationen
von Gewichten im neuronalen Netz einen Gesamtfehlerterm (F) zu bestimmen.
Die Gewichtskombination (w) mit dem kleinsten Gesamtfehlerterm (Fmin)
wäre die optimale Lösung (wmin), ein absolutes Minimum hinsichtlich des Fehlers.
Abbildung
11:
Zweidimensionales Liniendiagramm mit Gradientenabstiegskurve. Auf der Abszisse (x-Achse) ist das Gewicht (W) abgetragen, auf
der Ordinate (y-Achse) der Fehlerterm (F). In rot: das Gewicht (w) mit der optimalen Lösung (absolutes Minimum hinsichtlich
des Fehlers).
Was im zweidimensionalen Raum (siehe Abbildung 11), sprich mit nur einem
einzigen Gewicht (!) noch vergleichsweise einfach wäre, gestaltet
sich im n-dimensionalen Raum (d.h. bei n-1 Gewichten) ungleich schwerer. Hier würde der Fehlerterm
keiner Kurve, sondern einer so genannten Hyperebene entsprechen. Der
Rechenaufwand zur Bestimmung der gesamten Hyperebene, um ein absolutes
Minimum innerhalb dieses Raumes zu finden, wäre viel zu groß.
Lösung: Gradientenabstiegsverfahren
Stattdessen werden die Gewichte mit dem Gradientenabstiegsverfahren
modifiziert. Bei diesem Verfahren muss man nicht die gesamte Hyperebene kennen.