„Mesterséges neurális hálózat” változatai közötti eltérés

[nem ellenőrzött változat][nem ellenőrzött változat]
Tartalom törölve Tartalom hozzáadva
a http jav.
Boehm (vitalap | szerkesztései)
a typog
27. sor:
* '''Aktivációs réteg''' (''Activation''): a bemenetként kapott mátrixra vagy tenzorra elemenként hív egy aktivációs függvényt: <math>H = g(X)</math>.
 
== A neurális hálózatok felépítése ==
 
=== A neuronrétegek anatómiája ===
40. sor:
A neuronrétegek között sokféle aktivációs függvényt alkalmazhatunk. Ezeket jellemzően elemenként értékeljük ki a bemeneti mátrixra, egyes különleges esetekben a bemenet többi elemével is számolunk.
* '''[[Szigmoid függvények|Szigmoid]]''' vagy '''logisztikus''' '''függvény''': <math>H = \frac 1 {1 + e^{-X}}</math>. rejtett rétegek aktivációs függvényeként háttérbe szorult, mert szélsőségesen negatív vagy pozitív bemenet esetén a gradiense nagyon kis szám, ami csökkenti a tanítás hatékonyságát (gradiens elhalást idéz elő). 0 és 1 közé szorítja a bemenetet, így kimeneti rétegekben még használatos kétkategóriás osztályozás esetén és többkategóriás, többcímkés kategorizálásnál, ahol az egyes kategóriába való tartozás valószínűségét fejezhetjük ki vele.
* '''[[Hiperbolikus tangens]]''': <math>H = \tanh(X) = \frac 2 {1 + e^{-2X}} - 1</math>, a szigmoidhoz hasonló aktivációs függvény, melyet jellemzően rejtett rétegekben alkalmaznak. Mára modernebb függvények jórészt felváltották. A bemenetet -1 és +1 közé szorítja.
* '''ReLU''' (rektifikált lineáris egység)<ref name=":0" />: <math>H = \max(0, X)</math>. A rejtett rétegek között talán leggyakrabban használt aktivációs függvény. A negatív bemeneteket nullára állítja, a pozitívakat változatlanul hagyja. Bár 0-nál nincs deriváltja, de lebegőpontos számítás esetén rejtett rétegek között 0 bemeneti érték nagyon valószínűtlen és a gyakorlatban nem okoz problémát. Nem számításigényes és nem okoz gradiens-elhalást.
* '''Leaky ReLU''' (szivárgó ReLU): <math>H = \max(\lambda X, X)</math>. A ''ReLU'' esetében fellépő "Halott ReLU" jelenség kiküszöbölésére találták ki. Ha egy ''ReLU'' valamilyen okból akkora eltolósúlyt tanul meg, ami minden bemenetre 0 kimenetet képez, az a ''ReLU'' onnantól működésképtelenné válik, mert a gradiense is mindig 0 lesz. A szivárgó ''ReLU''-ba épített szivárgási együttható (''λ'') egy tanulható paraméter, ideálisan 0 és 1 közötti szám.
* '''Softmax''': <math>H(z_i) = \frac {e^{z_i}} {\sum_j e^{z_j}}</math>. Többkategóriás osztályozási problémák esetén használt kimeneti aktivációs függvény. A ''Softmax'' egy vektor bemenetű függvény, melyet a [[Logisztikus regresszió|logisztikus regresszióban]] is használnak. Először kiszámítjuk az nevező exponenciális szummáját, majd az egyes elemeket exponenciálisát elosztjuk ezzel a szummával. Kimenetként egy olyan vektort kapunk vissza, amelynek elemei 0 és 1 közötti értékek és a vektor szummája 1, így a kimenet valószínűségeloszlásként értelmezzük, mely az egyes kategóriákba való tartozás valószínűségét adja meg, a maximum érték indexe pedig a legmagasabb valószínűségű kategória.
 
49. sor:
* '''Áltagos négyzetes eltérés''' (mean squared error): <math>C = \frac 1 {2n} \| O - Y \|^2</math>. ''Szigmoid'' és ''softmax'' kimeneti aktivációs függvénnyel együtt lassan konvergál, ezért főleg ''regressziós problémák'' esetében használatos, ''lineáris'' aktivációs függvény mellett.
* '''Bináris kereszt-entrópia''' (binary cross-entropy): <math>C =-\frac{1}{n}\sum_i \big[Y\log(O)+(1-Y)\log(1-O)\big]</math> kétkategóriás osztályozási probléma esetén szigmoid kimeneti függvény mellett használják.
* '''Többkatekóriás kereszt-entrópia''' (multiclass cross-entropy): <math>C = - \sum_i Y \log(O)</math>. Gyakorlatilag a negatív log-likelihood értékét számítjuk ki vele. Információelméletben az információveszteség mértékét fejezi ki két bináris vektor között.
De a fentiek mellett alkalmazható a támasztóvektor-gépeknél használt '''Hinge-veszteségfüggvény''' vagy a '''Kullback-Leibler''' divergencia is.