Backpropagation
Lösungen zu den Problemen des Gradientenabstiegsverfahrens
Lösung: Initialisierung der Gewichte und Lernrate verändern
Es stehen eine Vielzahl Lösungsmöglichkeiten bei unbefriedigendem Lernerfolg des neuronalen Netzes zur Verfügung. Zwei häufig angewandte Methoden sind:
- Die Veränderung der Initialisierung der Gewichte:
Zuerst versucht man die Initialisierung der Gewichte zu verändern,
um den Lernerfolg zu verbessern. Dabei kann man zwischen zwei Aspekten unterscheiden:
- Startpunkt des Gradientenabstiegsverfahrens: Der Startpunkt hat einen zentralen Einfluss darauf, welche Werte die Gewichte im Verlauf des Verfahrens annehmen und ob sich schlussendlich ein lokales oder globales Minimum findet.
- Art der Initialisierung: Ebenso ist die Art der Initialisierung für das Auffinden eines lokalen bzw. globalen Minimums von Bedeutung. Damit ist u. a. die Frage gemeint, wie unterschiedlich die Werte der einzelnen Gewichte gewählt wurden. Beispielsweise können diese nur sehr gering um Null herum streuen oder aber sehr stark.
- Die Veränderung der Lernrate:
Wenn die Neu-Initialisierung der Gewichte nicht erfolgreich war, sollte man versuchen die
Lernrate zu verändern. Grundsätzlich gilt, dass es keine optimale Lernrate für
alle Arten neuronaler Netze gibt. Es lassen sich hier zwei Möglichkeiten
voneinander unterscheiden:
- Lernrate erhöhen:
Eine höhere Lernrate bewirkt, dass die Sprünge in der Hyperebene größer werden.
Dies kann folgende Vorteile nach sich ziehen:
- flache Plateaus werden schneller durchlaufen bzw. überwunden
- vom Startpunkt weit entfernte Minima werden schneller erreicht
- gute (globale) Minima werden häufiger übersprungen
- die Gefahr der Oszillation steigt an
- Lernrate reduzieren:
Eine niedrigere Lernrate führt dazu, dass kleinere Schritte beim
Gradientenabstiegsverfahren vorgenommen werden.
Dies führt zu folgenden Vorteilen:
- gute (globale) Minima werden nicht mehr so leicht übersprungen
- die Gefahr der Oszillation sinkt
- komplexe Daten sowie eine große Datendichte werden besser bewältigt
- die Trainingszeit bis zum Erreichen eines Minimums kann inakzeptabel groß werden
- flache Plateaus werden langsamer durchlaufen bzw. nicht mehr überwunden
- lokale Minima werden häufiger nicht mehr verlassen
- Lernrate erhöhen:
Eine höhere Lernrate bewirkt, dass die Sprünge in der Hyperebene größer werden.
Dies kann folgende Vorteile nach sich ziehen: