LSTM

LSTM — rekurentā mākslīgā neironu tīkla (RNN) paveids “Long Short-Term Memory”,^[1] kas tiek izmantots dziļās mācīšanās jomā. Atšķirībā no standarta neironu tīkliem, LSTM ir atgriezeniskās saites savienojumi. Ar LSTM var aprēķināt visu, ko var izmantot Tjūringa mašīna.^[2] Tam nevar būt viens datu punkts (piem., attēls vai video). LSTM ir piemērots tādiem uzdevumiem kā saistītā rokraksta atpazīšana^[3] un runas atpazīšana.^[4] Bloomberg Business Week rakstīja: "Šīs īpašības neapšaubāmi padara LSTM par vislielāko komerciālo AI sasniegumu, ko izmanto visur, sākot no slimību prognozēšanas līdz mūzikas veidošanai."^[5]

Bieži sastopama LSTM vienība sastāv no šūnas, ievada vārtiem, izvada vārtiem un aizmiršanas vārtiem. Šūna atceras vērtības patvaļīgos laika intervālos, un trīs vārti regulē informācijas plūsmu uz un no šūnas.

LSTM tika izstrādāts, lai risinātu pārslodzes un izzūdošo gradientu problēmas, kas var rasties, apmācot tradicionālos RNN. Relatīvā nejutība pret tukšiem datiem ir LSTM priekšrocība pār RNN, slēptajiem Markova modeļiem un citām secību mācīšanās metodēm daudzās lietojumprogrammatūrās.

Vēsture

1997. gadā Zeps Hohreiters un Jirgens Šmīdhūbers^[1] ierosināja LSTM. Ieviešot Constant Error Carousel (CEC) vienības, LSTM nodarbojas ar pārslodzes un izzūdošām gradienta problēmām. LSTM bloka sākotnējā versija ietvēra šūnas, ievada un izvada vārtus.^[6]

1999. gadā Felikss Gers, viņa padomnieks Jirgens Šmīdhūbers un Freds Cummins LSTM arhitektūrā ieviesa aizmiršanas vārtus (sauktus arī par “turēšanas vārtiem”),^[7] ļaujot LSTM atjaunot savu stāvokli.^[6]

2000. gadā Gers, Šmīdhūbers un Cummins pievienoja arhitektūrā savienojumus no šūnas uz vārtiem.^[8] Turklāt izejas aktivizēšanas funkcija tika izlaista.^[6]

Citu panākumu vidū LSTM sasniedza rekorda rezultātus dabiskās valodas teksta saspiešanā,^[9] saistītā rokraksta atpazīšanā^[10] un uzvarēja ICDAR rokraksta sacensībās (2009).

Kopš 2016. gada vadošie tehnoloģiju uzņēmumi, tostarp Google, Apple un Microsoft, izmantoja LSTM kā pamatelementu jaunos produktos.^[11] Google izmantoja LSTM runas atpazīšanai viedtālrunī,^[12]^[13] viedajam palīgam Allo^[14] un Google tulkotājam.^[15] Apple izmanto LSTM "Quicktype" funkcijai iPhone^[16]^[17] un Siri.^[18] Amazon izmanto LSTM iekš Amazon Alexa.^[19]

2017. gadā Facebook katru dienu veica aptuveni 4,5 miljardus automātisko tulkojumu, izmantojot LSTM tīklus.^[20]

2017. gadā Mičiganas Universitāte, IBM pētniecība un Kornela Universitāte pētnieki publicēja pētījumu “Knowledge Discovery and Data Mining” (KDD) konferencē.^[21]^[22] Viņu pētījums apraksta jaunu neironu tīklu, kas noteiktus datu kopumus apstrādā labāk nekā plaši izmantotais LSTM tīkls.

Ideja

Teorētiski, klasiskais RNN var izsekot patvaļīgām ilgtermiņa atkarībām. RNN problēma ir skaitļošanā — RNN apmācības laikā, izmantojot back-propagation, gradienti var "izzust" (tie var būt nulle) vai “pārslogoties” (tie ir tendēti uz bezgalību), jo procesā iesaistītie aprēķini izmanto galīgās precizitātes skaitļus. Izmantojot LSTM vienības, RNN daļēji atrisina gradienta izzušanas problēmu, jo LSTM vienības ļauj gradientiem palikt nemainītiem. Tomēr LSTM tīkli joprojām var ciest no gradienta pārslodzes problēmas.^[23]

Arhitektūra

Ir vairākas LSTM vienību arhitektūras. Kopēja arhitektūra sastāv no šūnas (LSTM vienības atmiņas daļas) un trīs informācijas plūsmas "regulatoriem" (vārtiem) — ievada vārtiem, izvada vārtiem un aizmiršanas vārtiem. Dažām LSTM vienības variācijām nav vieni vai vairāki no šiem vārtiem vai varbūt ir citi vārti. Piemēram, GRU nav izvada vārtu.

Šūna ir atbildīga par atkarības saglabāšanu starp ievades secībā esošajiem elementiem. Ievada vārti kontrolē, cik daudz jauno vērtību ieplūst šūnā, aizmiršanas vārti kontrolē, cik lielā mērā vērtība paliek šūnā, un izvada vārti kontrolē, kāda daļa šūnas vērtības tiek izmantota izvada aprēķināšanai LSTM vienībai. LSTM vārtu aktivizēšanas funkcija bieži ir loģistikas funkcija.

Ir savienojumi uz un no LSTM vārtiem, no kuriem daži atkārtojas. Šo savienojumu svars, kas jāapgūst treniņa laikā, nosaka, kā darbojas vārti.

Versijas

Turpmākajos vienādojumos mazie burti ir vektori. Matricas $W_{q}$ un $U_{q}$ satur ievada un atkārtojumu svarojuma saistību, kur indekss $_{q}$ var būt gan ievada vārti $i$ , izvada vārti $o$ , aizmiršanas vārti $f$ vai atmiņas šūna $c$ , atkarībā no tā, kas tiek aprēķināts. Šajā sadaļā tiek izmants "vektora apzīmējums". Piemēram, $c_{t} \in ℝ^{h}$ ir nevis viena LSTM vienības šūna, bet $h$ LSTM vienību šūnas.

LSTM ar aizmiršanas vārtiem

Kompaktas vienādojumu formas padotajām LSTM vienībām ar aizmiršanas vārtiem:^[1]^[8]

$\begin{matrix} f_{t} & = σ_{g} (W_{f} x_{t} + U_{f} h_{t - 1} + b_{f}) \\ i_{t} & = σ_{g} (W_{i} x_{t} + U_{i} h_{t - 1} + b_{i}) \\ o_{t} & = σ_{g} (W_{o} x_{t} + U_{o} h_{t - 1} + b_{o}) \\ c_{t} & = f_{t} \circ c_{t - 1} + i_{t} \circ σ_{c} (W_{c} x_{t} + U_{c} h_{t - 1} + b_{c}) \\ h_{t} & = o_{t} \circ σ_{h} (c_{t}) \end{matrix}$

kur sākotnējās vērtības ir $c_{0} = 0$ un $h_{0} = 0$ un operators $\circ$ apzīmē Hadamard produktu (element-gudrs produkts). Apakšindekss $t$ apzīmē laika soli.

Mainīgie

$x_{t} \in ℝ^{d}$ : LSTM vienības ievades vektors
$f_{t} \in ℝ^{h}$ : aizmiršanas vārtu aktivizācijas vektors
$i_{t} \in ℝ^{h}$ : ievades vārtu aktivizācijas vektors
$o_{t} \in ℝ^{h}$ : izvades vārtu aktivizācijas vektors
$h_{t} \in ℝ^{h}$ : slēptā stāvokļa vektors, zināms arī kā LSTM vienības izejas vektors
$c_{t} \in ℝ^{h}$ : šūnas stāvokļa vektors
$W \in ℝ^{h \times d}$ , $U \in ℝ^{h \times h}$ un $b \in ℝ^{h}$ : svara matricas un novirzes vektora parametri, kas jāapgūst apmācības laikā

mainīgie $d$ un $h$ attiecas uz ievades funkciju skaitu un slēpo vienības skaitu.

Aktivizācijas funkcijas

$σ_{g}$ : sigmoid funkcija.
$σ_{c}$ : hyperbolic tangent funkcija.
$σ_{h}$ : hyperbolic tangent funkcija vai kā LSTM raksts^[24]^[25] raksta, $σ_{h} (x) = x$ .

Peephole LSTM

Peephole savienojumi ļauj vārtiem piekļūt constant error carousel (CEC), kura aktivizācija ir šūnas stāvoklis.^[26] $h_{t - 1}$ netiek izmantots, tā vietā vairums vietās izmanto $c_{t - 1}$ .

\begin{matrix} f_{t} & = σ_{g} (W_{f} x_{t} + U_{f} c_{t - 1} + b_{f}) \\ i_{t} & = σ_{g} (W_{i} x_{t} + U_{i} c_{t - 1} + b_{i}) \\ o_{t} & = σ_{g} (W_{o} x_{t} + U_{o} c_{t - 1} + b_{o}) \\ c_{t} & = f_{t} \circ c_{t - 1} + i_{t} \circ σ_{c} (W_{c} x_{t} + U_{c} c_{t - 1} + b_{c}) \\ h_{t} & = o_{t} \circ σ_{h} (c_{t}) \end{matrix}

Peephole konvolūcijas LSTM

Peephole konvolūcijas LSTM.^[27] Simbols $*$ apzīmē konvulūcijas operatoru.

\begin{matrix} f_{t} & = σ_{g} (W_{f} * x_{t} + U_{f} * h_{t - 1} + V_{f} \circ c_{t - 1} + b_{f}) \\ i_{t} & = σ_{g} (W_{i} * x_{t} + U_{i} * h_{t - 1} + V_{i} \circ c_{t - 1} + b_{i}) \\ c_{t} & = f_{t} \circ c_{t - 1} + i_{t} \circ σ_{c} (W_{c} * x_{t} + U_{c} * h_{t - 1} + b_{c}) \\ o_{t} & = σ_{g} (W_{o} * x_{t} + U_{o} * h_{t - 1} + V_{o} \circ c_{t} + b_{o}) \\ h_{t} & = o_{t} \circ σ_{h} (c_{t}) \end{matrix}

Atsauces

Veidne:Atsauces

[:0-1] 1,0 ^1,1 ^1,2 Veidne:Publikācijas atsauce

[2] Veidne:Grāmatas atsauce

[3] Veidne:Publikācijas atsauce

[4] Veidne:Tīmekļa atsauce

[5] Veidne:Ziņu atsauce

[:1-6] 6,0 ^6,1 ^6,2 ^6,3 Veidne:Publikācijas atsauce

[7] Veidne:Publikācijas atsauce

[:2-8] 8,0 ^8,1 Veidne:Publikācijas atsauce

[9] Veidne:Tīmekļa atsauce

[10] Veidne:Publikācijas atsauce

[11] Veidne:Publikācijas atsauce

[12] Veidne:Ziņu atsauce

[13] Veidne:Ziņu atsauce

[14] Veidne:Ziņu atsauce

[15] Veidne:Publikācijas atsauce

[16] Veidne:Tīmekļa atsauce

[17] Veidne:Ziņu atsauce

[18] Veidne:Tīmekļa atsauce

[19] Veidne:Tīmekļa atsauce

[20] Veidne:Tīmekļa atsauce

[21] Veidne:Tīmekļa atsauce

[22] Veidne:Tīmekļa atsauce

[23] Veidne:Tīmekļa atsauce

[peepholeLSTM-24] Veidne:Publikācijas atsauce

[peephole2002-25] Veidne:Publikācijas atsauce

[26] Veidne:Publikācijas atsauce

[27] Veidne:Publikācijas atsauce

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

LSTM

Satura rādītājs

Vēsture

Ideja

Arhitektūra

Versijas

LSTM ar aizmiršanas vārtiem

Mainīgie

Aktivizācijas funkcijas

Peephole LSTM

Peephole konvolūcijas LSTM

Atsauces

Navigācijas izvēlne

LSTM

Vēsture

Ideja

Arhitektūra

Versijas

LSTM ar aizmiršanas vārtiem

Mainīgie

Aktivizācijas funkcijas

Peephole LSTM

Peephole konvolūcijas LSTM

Atsauces

Navigācijas izvēlne

Meklēt