Aktivitätsfunktion, Aktivitätslevel und Output
- Abbildung 4: Zweidimensionales Liniendiagramm mit sigmoider Aktivitätsfunktion
Definition: Aktivitätsfunktion
Die Aktivitätsfunktion (Transferfunktion, Aktivierungsfunktion) stellt den Zusammenhang zwischen dem Netzinput und dem Aktivitätslevel eines Neurons dar. Die Aktivitätsfunktion wird in einem 2-dimensionalen Diagramm visualisiert, wobei auf der Abszisse (x-Achse) der Netzinput der Einheit und auf der Ordinate (y-Achse) der entsprechende Aktivitätslevel abgetragen wird. Der Aktivitätslevel wird durch eine sog. Ausgabefunktion dann in den Output transformiert, den das Neuron an andere Neuronen weitersendet. Häufig wird als Ausgabefunktion die Identitätsfunktion verwendet, d.h. der Output ist gleich dem Aktivitätslevel. Dies wird auch hier im folgenden angenommen.
verschiedene Aktivitätsfunktionen
Man unterscheidet zwischen verschiedenen Aktivitätsfunktionen:
- Lineare Aktivitätsfunktion: Hier ist der Zusammenhang zwischen Netzinput und Aktivitätslevel linear.
- Lineare Aktivitätsfunktion mit Schwelle: Bevor der Zusammenhang zwischen den beiden Größen linear wird, muss eine zuvor festgelegte Schwelle überschritten werden. Dies kann sinnvoll sein, wenn ein zu niedriger Netzinput (z. B. ein Rauschen) nicht als Signal weitergeleitet werden soll.
- Binäre Schwellenfunktion: Hier gibt es nur zwei Zustände des Aktivitätslevels, 0 (bzw. manchmal auch -1) oder 1.
- Sigmoide Aktivitätsfunktion: Diese Art von Aktivitätsfunktion
wird in den meisten Modellen verwendet, die kognitive Prozesse simulieren. Man kann dabei die logistische Funktion und die Tangens-Hyperbolicus-Funktion unterscheiden. Beide Funktionen verhalten sich jedoch relativ ähnlich: Ist der
Netzinput (vom Betrag her) groß und negativ, dann ist der Aktivitätslevel
nahe 0 (logistische Funktion) bzw. -1 (Tangens-Hyperbolicus-Funktion), steigt dann zunächst langsam an (eine Art Schwelle),
danach wird der Anstieg steiler und gleicht einer linearen
Funktion. Bei einem hohen Netzinput nähert sich der Wert dann
asymptotisch der 1 an (siehe Abbildung 4). Sigmoide Aktivitätsfunktionen bieten demnach zwei wesentliche Vorteile:
- Begrenzung des Aktivitätslevels: Im Gegensatz zu den linearen Aktivitätsfunktionen ist der Aktivitätslevel hier sowohl nach oben als auch nach unten begrenzt. Dies deutet nicht nur auf eine höhere biologische Plausibilität hin (vgl. die begrenzte Intensität des Aktionspotentials biologischer Neuronen), sondern hat auch den Vorteil, daß die Aktivität im Netz (bedingt durch rekurrente Verbindungen) nicht ungewollt "überschwappen" kann und dadurch nur noch Fehlerwerte produziert werden.
- Mögliche Differenzierbarkeit: Im Gegensatz zu der binären Schwellenfunktion ist die Funktion an allen Stellen differenzierbar, was beispielsweise eine notwendige Voraussetzung für das noch vorzustellende Gradientenabstiegsverfahren ist.
Exkurs: Bias Unit
Definition: Bias-Unit
Die Bias-Unit erhält selbst keinen Input, ihr Aktivitätslevel beträgt immer +1 (siehe Abbildung 5). Das Gewicht von der Bias-Unit zu einer anderen Unit kann positiv oder negativ sein. Wenn kein starker Input von anderen Einheiten erfolgt, dann stellt die Bias-Unit sicher, dass die Einheit bei positivem Gewicht aktiv bleibt. Bei negativem Gewicht sorgt die Bias-Einheit hingegen dafür, dass die Unit in ihrem inaktiven Zustand verharrt.
Funktion der Bias-Unit
Dies kann nützlich sein, wenn man eine Schwelle benötigt (beim negativen Bias), die andere Input-Units erst überschreiten müssen. Diese Schwelle ist übrigens anders als die Schwelle einer Aktivierungsfunktion veränderbar, da das Gewicht zwischen Bias- und Empfängerunit wie alle anderen Gewichte durch Lernen modifizierbar ist. Umgekehrt kann das Ziel auch sein, dass die Einheit sehr häufig feuern, also gewöhnlich aktiv sein soll. Dazu verwendet man einen positiven Bias.