Skip to content

Commit 768df12

Browse files
authored
[IT] translation week09 (review) (Atcold#567)
* [IT] week 9 translation review * [IT] week 9 translation review, fix captions centering * [IT] week 9 translation review, fix captions centering
1 parent 0b433ba commit 768df12

File tree

4 files changed

+72
-59
lines changed

4 files changed

+72
-59
lines changed

docs/it/week09/09-1.md

Lines changed: 35 additions & 23 deletions
Original file line numberDiff line numberDiff line change
@@ -10,18 +10,20 @@ translator: Marco Zullich
1010
---
1111
<!-- Discriminative Recurrent Sparse Auto-Encoder and Group Sparsity -->
1212

13-
## *Autoencoder* discriminativi ricorrenti sparsi (DrSAE, *Discriminative recurrent Sparse Auto-Encoder*)
13+
## *Autoencoder* discriminativi ricorrenti sparsi (*Discriminative recurrent Sparse Auto-Encoder, DrSAE*)
1414

1515
<!-- ## Discriminative Recurrent Sparse Auto-Encoder (DrSAE) -->
1616

17-
L'idea dietro al DrSAE consiste nel combininare la codificazione sparsa, o gli *autoencoder* sparsi, con l'addestramento discriminativo
17+
L'idea dietro al _DrSAE_ consiste nel combininare la codificazione sparsa, o gli *autoencoder* sparsi, con l'addestramento discriminativo.
1818

1919
<!-- The idea of DrSAE consists of combining sparse coding, or the sparse auto-encoder, with discriminative training. -->
20-
<center><img src="{{site.baseurl}}/images/week09/09-1/q7pSvUJ.png" width="400px"/></center>
2120

22-
**Fig. 1:** *Autoencoder* discriminativi ricorrenti sparsi
21+
<center>
22+
<img src="{{site.baseurl}}/images/week09/09-1/q7pSvUJ.png" width="400px" /><br>
23+
<b>Fig. 1</b>: Autoencoder discriminativi ricorrenti sparsi
24+
</center>
2325

24-
Il codificatore, $W_e$ è simile al codificatore del metodo LISTA. La variabile $X$ viene passata attraverso $W_e$ e attraverso della non-linearità. Questo risultato è poi moltiplicato per un'altra matrice appresa, $S$, e aggiunto a $W_e$. Dopodiché viene passato nuovamente attraverso della non-linearità. Il processo può venir ripetuto più volte; ogni ripetizione identifica uno strato.
26+
Il codificatore, $W_e$ è simile al codificatore del metodo LISTA. La variabile $X$ viene passata attraverso $W_e$ e attraverso delle funzioni non-lineari. Questo risultato è poi moltiplicato per un'altra matrice appresa, $S$, ed aggiunto a $W_e$. Dopodiché viene passato nuovamente attraverso delle funzioni non-lineari. Il processo può venir ripetuto più volte; ogni ripetizione identifica uno strato.
2527

2628
<!-- The encoder, $W_e$, is similar to the encoder in the LISTA method. The X variable is run through $W_e$, and then through a non-linearity. This result is then multiplied by another learned matrix, S, and added to $W_e$. Then it is sent through another non-linearity. This process can be repeated a number of times, with each repetition as a layer. -->
2729

@@ -39,7 +41,7 @@ Il sistema è addestrato al fine di minimizzare contemporaneamente tutti questi
3941

4042
<!-- The system is trained to minimize all 3 of these criteria at the same time. -->
4143

42-
Il vantaggio di ciò è il seguente: forzando il sistema a trovare rappresentazioni che possono ricostruire l'input, si sta praticamente distorcendo il sistema all'estrazione di caratteristiche che contengano il massimo dell'informazione riguardo l'input. In altre parole, arricchisce le caratteristiche.
44+
Il vantaggio di ciò è il seguente: costringendo il sistema a trovare rappresentazioni che possono ricostruire l'input, si sta praticamente distorcendo il sistema all'estrazione di caratteristiche che contengano il massimo dell'informazione riguardo l'input. In altre parole, arricchisce le caratteristiche.
4345

4446
<!-- The advantage of this is by forcing the system to find representations that can reconstruct the input, then you're basically biasing the system towards extracting features that contain as much information about the input as possible. In other words, it enriches the features. -->
4547

@@ -50,8 +52,10 @@ Il vantaggio di ciò è il seguente: forzando il sistema a trovare rappresentazi
5052
Qui l'idea è di generare caratteristiche sparse, ma non normali caratteristiche estraibili tramite convoluzione, ma caratteristiche che siano sparse dopo l'operazione di aggregazione (*pooling*).
5153

5254
<!-- The idea here is to generate sparse features, but not just normal features that are extracted by convolutions, but to basically produce features that are sparse after pooling. -->
53-
<center><img src="{{site.baseurl}}/images/week09/09-1/kpDK8Xu.png" width="400px"/></center>
54-
**Fig. 2: *Autoencoder* con sparsità di gruppo**
55+
<center>
56+
<img src="{{site.baseurl}}/images/week09/09-1/kpDK8Xu.png" width="400px"/><br>
57+
<b>Fig. 2</b>: Autoencoder con sparsità di gruppo
58+
</center>
5559

5660
<!-- **Fig 2:** Auto-Encoder with Group Sparsity -->
5761

@@ -101,20 +105,22 @@ R: La risposta non è chiara, di lavoro su questo tema n'è stato fatto prima ch
101105

102106
<!-- ## Image Level Training, local filters but no weight sharing -->
103107

104-
La risposta se ciò aiuta non è chiara. Le persone interessate in questo tema sono o interessate nel restauro d'immagini o un certo tipo di apprendimento auto-supervisionato. Ciò funzionerebbe bene se il dataset fosse molto piccolo. Quando si hanno dei codificatori e decodificatori che sono convoluzionali che si addestrano con sparsità di gruppo su cellule complesse, dopo che è stato fatto il pre-addestramento, si prende il decodificatore e lo si scarta, si conserva il codificatore e lo si utilizza come estrattore di caratteristiche, ad esempio come primo strato di una rete convoluzionale, a cui si aggiungono ulteriori strati convoluzionali di seguito.
108+
Non è chiaro se questi siano d'aiuto o meno. Le persone interessate in questo tema sono o interessate nel restauro d'immagini o un certo tipo di apprendimento auto-supervisionato. Ciò funzionerebbe bene se il dataset fosse molto piccolo. Quando si hanno dei codificatori e decodificatori che sono convoluzionali che si addestrano con sparsità di gruppo su cellule complesse, dopo che è stato fatto il pre-addestramento, si prende il decodificatore e lo si scarta, si conserva il codificatore e lo si utilizza come estrattore di caratteristiche, ad esempio come primo strato di una rete convoluzionale, a cui si aggiungono ulteriori strati convoluzionali di seguito.
105109

106110
<!-- The answer about whether it helps is not clear. People interested in this are either interested in image restoration or some kind of self-supervised learning. This would work well when dataset was very small. When you have an encoder and decoder that is convolutional and you train with group sparsity on complex cells, after you are done pre-training, the system you get rid of the decoder and only use the encoder as a feature extractor, say the first layer of the convolutional net and you stick a second layer on top of it. -->
107111

108-
<center><img src="{{site.baseurl}}/images/week09/09-1/7akkfhv.png" width="400px"/></center>
109-
**Fig. 3:** struttura di uno strato convoluzionale ReLU con sparsità di gruppo
112+
<center>
113+
<img src="{{site.baseurl}}/images/week09/09-1/7akkfhv.png" height="300px"/><br>
114+
<b>Fig. 3</b>: struttura di uno strato convoluzionale ReLU con sparsità di gruppo
115+
</center>
110116

111-
<!-- **Fig 2:** Structure of Convolutional RELU with Group Sparsity -->
117+
<!-- **Fig 3?:** Structure of Convolutional RELU with Group Sparsity -->
112118

113-
Come si può notare sopra, s'inizia con un'immagine, si ha a disposizione un codificatore che è sostanzialmente uno strato convoluzionale ReLU e, di seguito, una sorta di strato di riscalamento. Si addestra la rete con sparsità di gruppo. Si ha un decodificatore lineare e un criterio che è il raggruppamento per 1. Si considera la sparsità di gruppo come un regolarizzatore. Ciò equivale ad effettuare un'aggregazione tramite norma $L_2$ con un'architettura simile alla sparsità di gruppo.
119+
Come si può notare sopra, s'inizia con un'immagine, si ha a disposizione un codificatore che è sostanzialmente uno strato convoluzionale ReLU e, di seguito, una sorta di strato di riscalamento. Si addestra la rete con sparsità di gruppo. Si ha un decodificatore lineare e un criterio di raggruppamento per 1. Si considera la sparsità di gruppo come un regolarizzatore. Ciò equivale ad effettuare un'aggregazione tramite norma $L_2$ con un'architettura simile alla sparsità di gruppo.
114120

115121
<!-- As can be seen above, you are start with an image, you have an encoder which is basically Convolution RELU and some kind of scaling layer after this. You train with group sparsity. You have a linear decoder and a criterion which is group by 1. You take the group sparsity as a regularizer. This is like L2 pooling with an architecture similar to group sparsity. -->
116122

117-
Si può anche addestrare un'altra istanza della medesima rete. Stavolta, si possono aggiungere più strati e avere un decodificatore con l'aggregazione $L_2$ e un criterio di sparsità, lo si addestra a ricostruire l'input con un'aggregazione alla fine. Questo creerà una rete convoluzionale pre-addestrata di due strati. Questa procedura viene anche chiamata "*Autoencoder* sovrapposti". La caratteristica pricipale qui è che la rete è addestrata per produrre caratteristiche invarianti con sparsità di gruppo.
123+
Si può anche addestrare un'altra istanza della medesima rete. Stavolta, si possono aggiungere più strati e avere un decodificatore con l'aggregazione $L_2$ e un criterio di sparsità, lo si addestra a ricostruire l'input con un'aggregazione alla fine. Questo creerà una rete convoluzionale pre-addestrata di due strati. Questa procedura viene anche chiamata "*autoencoder* sovrapposti". La caratteristica pricipale qui è che la rete è addestrata per produrre caratteristiche invarianti con sparsità di gruppo.
118124

119125
<!-- You can also train another instance of this network. This time, you can add more layers and have a decoder with the L2 pooling and sparsity criterion, train it to reconstruct its input with pooling on top. This will create a pretrained 2-layer convolutional net. This procedure is also called Stacked Autoencoder. The main characteristic here is that it is trained to produce invariant features with group sparsity. -->
120126

@@ -126,10 +132,12 @@ R: Sta a voi decidere, si possono avere anche alberi multipli se lo si desidera.
126132

127133
<!-- A : It’s upto you, you can use multiple trees if you want. We can train the tree with a bigger tree than necessary and then removes branches rarely used. -->
128134

129-
<center><img src="{{site.baseurl}}/images/week09/09-1/EuhORxu.jpg" width="400px"/></center>
130-
**Fig. 4:** addestramento a livello d'immagine, filtri locali senza condivisione dei pesi
135+
<center>
136+
<img src="{{site.baseurl}}/images/week09/09-1/EuhORxu.jpg" height="300px"/><br>
137+
<b>Fig. 4</b>: addestramento a livello d'immagine, filtri locali senza condivisione dei pesi
138+
</center>
131139

132-
<!-- **Fig 3:** Image Level Training, local filters but no weight sharing -->
140+
<!-- **Fig 4:** Image Level Training, local filters but no weight sharing -->
133141

134142
Questi sono chiamati *pattern* a girandola. Sono una tipologia di organizzazione delle caratteristiche. L'orientamento varia in continuazione come ci si muove attorno ai punti rossi. Se prendiamo uno di questi punti rossi e ci disegnamo attorno un piccolo cerchio, noteremo che l'orientamento dell'estrattore sembra variare in continuazione come ci si muove attorno. Trend simili si sono notati anche nel cervello.
135143

@@ -143,28 +151,32 @@ D: Il termine relativo alla sparsità di gruppo è addestrato affinché assuma v
143151

144152
<!-- It is a regulariser. The term itself is not trained, it's fixed. It's just the L2 norm of the groups and the groups are predetermined. But, because it is a criteron, it determines what the encoder and decoder will do and what sort of features will be extracted. -->
145153

146-
<center><img src="{{site.baseurl}}/images/week09/09-1/AS3giSt.jpg" width="400px"/></center>
147-
**Fig. 5:** caratteristiche invarianti ottenute tramite inibizione laterale
154+
<center>
155+
<img src="{{site.baseurl}}/images/week09/09-1/AS3giSt.jpg" height="300px"/><br>
156+
<b>Fig. 5</b>: caratteristiche invarianti ottenute tramite inibizione laterale
157+
</center>
148158

149159
<!-- **Fig 4:** Invariant Features through Lateral Inhibiton -->
150160

151161
Qui c'è un decodificatore lineare con errore quadratico di ricostruzione. C'è un criterio nell'energia. La matrice $S$ è determinata a mano o addestrata per massimizzare questo termine. Se i termini in $S$ sono grandi e positivi, ne consegue che il sistema non vuole che $z_i$ e $z_j$ si attivino contemporaneamente. Di conseguenza, è una specie di mutua inibizione (chiamata inibizione naturale nelle neuroscienze). Di conseguenza, si cerca di trovare un valore di $S$ più grande possibile.
152162

153163
<!-- Here, there is a linear decoder with square reconstruction error. There is a criterion in the energy. The matrix SSS is either determined by hand or learned so as to maximise this term. If the terms in S are positive and large, it implies that the system does not want $z_i$ and $z_j$ to be on at the same time. Thus, it is sort of a mutual inhibition (called natural inhibition in neuro science). Thus, you try to find a value for S that is as large as possible. -->
154164

155-
<center><img src="{{site.baseurl}}/images/week09/09-1/sszdGh0.png" width="400px"/></center>
156-
**Fig. 6:** caratteristiche invarianti ottenute tramite inibizione laterale (forma ad albero)
165+
<center>
166+
<img src="{{site.baseurl}}/images/week09/09-1/sszdGh0.png" height="300px"/><br>
167+
<b>Fig. 6</b>: caratteristiche invarianti ottenute tramite inibizione laterale (forma ad albero)
168+
</center>
157169

158170
<!-- **Fig 5:** Invariant Features through Lateral Inhibiton (Tree Form) -->
159171

160-
Organizzando $S$ nei termini di un albero, le linee rappresentano i termini a zero nella matrice $S$. La mancanza di una linea corrisponde ad un termine non-nullo. Quindi, ogni caratteristica inibisce tutte le altre, ad eccezione di quelle che si trovano più in alto o più in basso nell'albero. Ciò è qualcosa di inverso rispetto alla sparsità di gruppo.
172+
Organizzando $S$ nei termini di un albero, le linee rappresentano i termini a zero nella matrice $S$. La mancanza di una linea corrisponde ad un termine non-nullo. Quindi, ogni caratteristica inibisce tutte le altre, ad eccezione di quelle che si trovano più in alto o più in basso nell'albero. Ciò è come la converse della sparsità di gruppo.
161173

162174
<!-- If you organise S in terms of a tree, the lines represent the zero terms in the S matrix. Whenever you don't have a line, there is a non-zero term. So, every feature inhibits all other features expect those which are up the tree or down the tree from it. This is something like the converse of group sparsity. -->
163175

164176
Si nota nuovamente come i sistemi organizzano le caratteristiche in una maniera più o meno continua. Le caratteristiche lungo i rami di un albero rappresentano le stesse caratteristiche con diversi livelli di selettività. Le caratteristiche lungo la periferia variano più o meno in maniera continua perché non c'è inibizione.
165177

166178
<!-- You see again that systems are organising features in more or less a continuous fashion. Features along the branch of a tree represent the same feature with different levels of selectivity. Features along the periphery vary more or less continuously because there is no inhibition. -->
167179

168-
Per addestrare questo sistema, ad ogni iterazione si dà in pasto al modello una $x$ e si trova un $z$ che minimizzi la funzione di energia. Quindi si opera un passo della discesa del gradiente per aggiornare $W$. Si può anche operare un passo di ascesa del gradiente per rendere i termini di $S$ più grandi.
180+
Per addestrare questo sistema, ad ogni iterazione si dà come input al modello una $x$ e si trova un $z$ che minimizzi la funzione di energia. Quindi si opera un passo della discesa del gradiente per aggiornare $W$. Si può anche operare un passo di ascesa del gradiente per rendere i termini di $S$ più grandi.
169181

170182
<!-- To train this system, at each iteration, you give an $x$ and find the $z$ which minimizes this energy function.Then do one step of gradient descent to update $W$. You can also do one step of gradient ascent to make the terms in $S$ larger. -->

0 commit comments

Comments
 (0)