eugeniaft
diff --git a/‎docs/it/week09/09-1.md
Lines changed: 35 additions & 23 deletions b/‎docs/it/week09/09-1.md
Lines changed: 35 additions & 23 deletions
@@ -10,18 +10,20 @@ translator: Marco Zullich
 ---
 <!-- Discriminative Recurrent Sparse Auto-Encoder and Group Sparsity -->
 
-## *Autoencoder* discriminativi ricorrenti sparsi (DrSAE, *Discriminative recurrent Sparse Auto-Encoder*)
+## *Autoencoder* discriminativi ricorrenti sparsi (*Discriminative recurrent Sparse Auto-Encoder, DrSAE*)
 
 <!-- ## Discriminative Recurrent Sparse Auto-Encoder (DrSAE) -->
 
-L'idea dietro al DrSAE consiste nel combininare la codificazione sparsa, o gli *autoencoder* sparsi, con l'addestramento discriminativo
+L'idea dietro al _DrSAE_ consiste nel combininare la codificazione sparsa, o gli *autoencoder* sparsi, con l'addestramento discriminativo.
 
 <!-- The idea of DrSAE consists of combining sparse coding, or the sparse auto-encoder, with discriminative training. -->
- <center><img src="{{site.baseurl}}/images/week09/09-1/q7pSvUJ.png" width="400px"/></center>
 
-**Fig. 1:** *Autoencoder* discriminativi ricorrenti sparsi
+<center>
+<img src="{{site.baseurl}}/images/week09/09-1/q7pSvUJ.png" width="400px" /><br>
+<b>Fig. 1</b>: Autoencoder discriminativi ricorrenti sparsi
+</center>
 
-Il codificatore, $W_e$ è simile al codificatore del metodo LISTA. La variabile $X$ viene passata attraverso $W_e$ e attraverso della non-linearità. Questo risultato è poi moltiplicato per un'altra matrice appresa, $S$, e aggiunto a $W_e$. Dopodiché viene passato nuovamente attraverso della non-linearità. Il processo può venir ripetuto più volte; ogni ripetizione identifica uno strato.
+Il codificatore, $W_e$ è simile al codificatore del metodo LISTA. La variabile $X$ viene passata attraverso $W_e$ e attraverso delle funzioni non-lineari. Questo risultato è poi moltiplicato per un'altra matrice appresa, $S$, ed aggiunto a $W_e$. Dopodiché viene passato nuovamente attraverso delle funzioni non-lineari. Il processo può venir ripetuto più volte; ogni ripetizione identifica uno strato.
 
 <!-- The encoder, $W_e$, is similar to the encoder in the LISTA method. The X variable is run through $W_e$, and then through a non-linearity. This result is then multiplied by another learned matrix, S, and added to $W_e$. Then it is sent through another non-linearity. This process can be repeated a number of times, with each repetition as a layer. -->
 
@@ -39,7 +41,7 @@ Il sistema è addestrato al fine di minimizzare contemporaneamente tutti questi
 
 <!-- The system is trained to minimize all 3 of these criteria at the same time. -->
 
-Il vantaggio di ciò è il seguente: forzando il sistema a trovare rappresentazioni che possono ricostruire l'input, si sta praticamente distorcendo il sistema all'estrazione di caratteristiche che contengano il massimo dell'informazione riguardo l'input. In altre parole, arricchisce le caratteristiche.
+Il vantaggio di ciò è il seguente: costringendo il sistema a trovare rappresentazioni che possono ricostruire l'input, si sta praticamente distorcendo il sistema all'estrazione di caratteristiche che contengano il massimo dell'informazione riguardo l'input. In altre parole, arricchisce le caratteristiche.
 
 <!-- The advantage of this is by forcing the system to find representations that can reconstruct the input, then you're basically biasing the system towards extracting features that contain as much information about the input as possible. In other words, it enriches the features. -->
 
@@ -50,8 +52,10 @@ Il vantaggio di ciò è il seguente: forzando il sistema a trovare rappresentazi
 Qui l'idea è di generare caratteristiche sparse, ma non normali caratteristiche estraibili tramite convoluzione, ma caratteristiche che siano sparse dopo l'operazione di aggregazione (*pooling*).
 
 <!-- The idea here is to generate sparse features, but not just normal features that are extracted by convolutions, but to basically produce features that are sparse after pooling. -->
- <center><img src="{{site.baseurl}}/images/week09/09-1/kpDK8Xu.png" width="400px"/></center>
-**Fig. 2: *Autoencoder* con sparsità di gruppo**
+<center>
+<img src="{{site.baseurl}}/images/week09/09-1/kpDK8Xu.png" width="400px"/><br>
+<b>Fig. 2</b>: Autoencoder con sparsità di gruppo
+</center>
 
 <!-- **Fig 2:** Auto-Encoder with Group Sparsity -->
 
@@ -101,20 +105,22 @@ R: La risposta non è chiara, di lavoro su questo tema n'è stato fatto prima ch
 
 <!-- ## Image Level Training, local filters but no weight sharing -->
 
-La risposta se ciò aiuta non è chiara. Le persone interessate in questo tema sono o interessate nel restauro d'immagini o un certo tipo di apprendimento auto-supervisionato. Ciò funzionerebbe bene se il dataset fosse molto piccolo. Quando si hanno dei codificatori e decodificatori che sono convoluzionali che si addestrano con sparsità di gruppo su cellule complesse, dopo che è stato fatto il pre-addestramento, si prende il decodificatore e lo si scarta, si conserva il codificatore e lo si utilizza come estrattore di caratteristiche, ad esempio come primo strato di una rete convoluzionale, a cui si aggiungono ulteriori strati convoluzionali di seguito.
+Non è chiaro se questi siano d'aiuto o meno. Le persone interessate in questo tema sono o interessate nel restauro d'immagini o un certo tipo di apprendimento auto-supervisionato. Ciò funzionerebbe bene se il dataset fosse molto piccolo. Quando si hanno dei codificatori e decodificatori che sono convoluzionali che si addestrano con sparsità di gruppo su cellule complesse, dopo che è stato fatto il pre-addestramento, si prende il decodificatore e lo si scarta, si conserva il codificatore e lo si utilizza come estrattore di caratteristiche, ad esempio come primo strato di una rete convoluzionale, a cui si aggiungono ulteriori strati convoluzionali di seguito.
 
 <!-- The answer about whether it helps is not clear. People interested in this are either interested in image restoration or some kind of self-supervised learning. This would work well when dataset was very small. When you have an encoder and decoder that is convolutional and you train with group sparsity on complex cells, after you are done pre-training, the system you get rid of the decoder and only use the encoder as a feature extractor, say the first layer of the convolutional net and you stick a second layer on top of it. -->
 
-<center><img src="{{site.baseurl}}/images/week09/09-1/7akkfhv.png" width="400px"/></center>
-**Fig. 3:** struttura di uno strato convoluzionale ReLU con sparsità di gruppo
+<center>
+<img src="{{site.baseurl}}/images/week09/09-1/7akkfhv.png" height="300px"/><br>
+<b>Fig. 3</b>: struttura di uno strato convoluzionale ReLU con sparsità di gruppo
+</center>
 
-<!-- **Fig 2:** Structure of Convolutional RELU with Group Sparsity -->
+<!-- **Fig 3?:** Structure of Convolutional RELU with Group Sparsity -->
 
-Come si può notare sopra, s'inizia con un'immagine, si ha a disposizione un codificatore che è sostanzialmente uno strato convoluzionale ReLU e, di seguito, una sorta di strato di riscalamento. Si addestra la rete con sparsità di gruppo. Si ha un decodificatore lineare e un criterio che è il raggruppamento per 1. Si considera la sparsità di gruppo come un regolarizzatore. Ciò equivale ad effettuare un'aggregazione tramite norma $L_2$ con un'architettura simile alla sparsità di gruppo.
+Come si può notare sopra, s'inizia con un'immagine, si ha a disposizione un codificatore che è sostanzialmente uno strato convoluzionale ReLU e, di seguito, una sorta di strato di riscalamento. Si addestra la rete con sparsità di gruppo. Si ha un decodificatore lineare e un criterio di raggruppamento per 1. Si considera la sparsità di gruppo come un regolarizzatore. Ciò equivale ad effettuare un'aggregazione tramite norma $L_2$ con un'architettura simile alla sparsità di gruppo.
 
 <!-- As can be seen above, you are start with an image, you have an encoder which is basically Convolution RELU and some kind of scaling layer after this. You train with group sparsity. You have a linear decoder and a criterion which is group by 1. You take the group sparsity as a regularizer. This is like L2 pooling with an architecture similar to group sparsity. -->
 
-Si può anche addestrare un'altra istanza della medesima rete. Stavolta, si possono aggiungere più strati e avere un decodificatore con l'aggregazione $L_2$ e un criterio di sparsità, lo si addestra a ricostruire l'input con un'aggregazione alla fine. Questo creerà una rete convoluzionale pre-addestrata di due strati. Questa procedura viene anche chiamata "*Autoencoder* sovrapposti". La caratteristica pricipale qui è che la rete è addestrata per produrre caratteristiche invarianti con sparsità di gruppo.
+Si può anche addestrare un'altra istanza della medesima rete. Stavolta, si possono aggiungere più strati e avere un decodificatore con l'aggregazione $L_2$ e un criterio di sparsità, lo si addestra a ricostruire l'input con un'aggregazione alla fine. Questo creerà una rete convoluzionale pre-addestrata di due strati. Questa procedura viene anche chiamata "*autoencoder* sovrapposti". La caratteristica pricipale qui è che la rete è addestrata per produrre caratteristiche invarianti con sparsità di gruppo.
 
 <!-- You can also train another instance of this network. This time, you can add more layers and have a decoder with the L2 pooling and sparsity criterion, train it to reconstruct its input with pooling on top. This will create a pretrained 2-layer convolutional net. This procedure is also called Stacked Autoencoder. The main characteristic here is that it is trained to produce invariant features with group sparsity. -->
 
@@ -126,10 +132,12 @@ R: Sta a voi decidere, si possono avere anche alberi multipli se lo si desidera.
 
 <!-- A : It’s upto you, you can use multiple trees if you want. We can train the tree with a bigger tree than necessary and then removes branches rarely used. -->
 
-<center><img src="{{site.baseurl}}/images/week09/09-1/EuhORxu.jpg" width="400px"/></center>
-**Fig. 4:** addestramento a livello d'immagine, filtri locali senza condivisione dei pesi
+<center>
+<img src="{{site.baseurl}}/images/week09/09-1/EuhORxu.jpg" height="300px"/><br>
+<b>Fig. 4</b>: addestramento a livello d'immagine, filtri locali senza condivisione dei pesi
+</center>
 
-<!-- **Fig 3:** Image Level Training, local filters but no weight sharing -->
+<!-- **Fig 4:** Image Level Training, local filters but no weight sharing -->
 
 Questi sono chiamati *pattern* a girandola. Sono una tipologia di organizzazione delle caratteristiche. L'orientamento varia in continuazione come ci si muove attorno ai punti rossi. Se prendiamo uno di questi punti rossi e ci disegnamo attorno un piccolo cerchio, noteremo che l'orientamento dell'estrattore sembra variare in continuazione come ci si muove attorno. Trend simili si sono notati anche nel cervello.
 
@@ -143,28 +151,32 @@ D: Il termine relativo alla sparsità di gruppo è addestrato affinché assuma v
 
 <!-- It is a regulariser. The term itself is not trained, it's fixed. It's just the L2 norm of the groups and the groups are predetermined. But, because it is a criteron, it determines what the encoder and decoder will do and what sort of features will be extracted. -->
 
-<center><img src="{{site.baseurl}}/images/week09/09-1/AS3giSt.jpg" width="400px"/></center>
-**Fig. 5:** caratteristiche invarianti ottenute tramite inibizione laterale
+<center>
+<img src="{{site.baseurl}}/images/week09/09-1/AS3giSt.jpg" height="300px"/><br>
+<b>Fig. 5</b>: caratteristiche invarianti ottenute tramite inibizione laterale
+</center>
 
 <!-- **Fig 4:** Invariant Features through Lateral Inhibiton -->
 
 Qui c'è un decodificatore lineare con errore quadratico di ricostruzione. C'è un criterio nell'energia. La matrice $S$ è determinata a mano o addestrata per massimizzare questo termine. Se i termini in $S$ sono grandi e positivi, ne consegue che il sistema non vuole che $z_i$ e $z_j$ si attivino contemporaneamente. Di conseguenza, è una specie di mutua inibizione (chiamata inibizione naturale nelle neuroscienze). Di conseguenza, si cerca di trovare un valore di $S$ più grande possibile.
 
 <!-- Here, there is a linear decoder with square reconstruction error. There is a criterion in the energy. The matrix SSS is either determined by hand or learned so as to maximise this term. If the terms in S are positive and large, it implies that the system does not want $z_i$ and $z_j$ to be on at the same time. Thus, it is sort of a mutual inhibition (called natural inhibition in neuro science). Thus, you try to find a value for S that is as large as possible. -->
 
-<center><img src="{{site.baseurl}}/images/week09/09-1/sszdGh0.png" width="400px"/></center>
-**Fig. 6:** caratteristiche invarianti ottenute tramite inibizione laterale (forma ad albero)
+<center>
+<img src="{{site.baseurl}}/images/week09/09-1/sszdGh0.png" height="300px"/><br>
+<b>Fig. 6</b>: caratteristiche invarianti ottenute tramite inibizione laterale (forma ad albero)
+</center>
 
 <!-- **Fig 5:** Invariant Features through Lateral Inhibiton (Tree Form) -->
 
-Organizzando $S$ nei termini di un albero, le linee rappresentano i termini a zero nella matrice $S$. La mancanza di una linea corrisponde ad un termine non-nullo. Quindi, ogni caratteristica inibisce tutte le altre, ad eccezione di quelle che si trovano più in alto o più in basso nell'albero. Ciò è qualcosa di inverso rispetto alla sparsità di gruppo.
+Organizzando $S$ nei termini di un albero, le linee rappresentano i termini a zero nella matrice $S$. La mancanza di una linea corrisponde ad un termine non-nullo. Quindi, ogni caratteristica inibisce tutte le altre, ad eccezione di quelle che si trovano più in alto o più in basso nell'albero. Ciò è come la converse della sparsità di gruppo.
 
 <!-- If you organise S in terms of a tree, the lines represent the zero terms in the S matrix. Whenever you don't have a line, there is a non-zero term. So, every feature inhibits all other features expect those which are up the tree or down the tree from it. This is something like the converse of group sparsity. -->
 
 Si nota nuovamente come i sistemi organizzano le caratteristiche in una maniera più o meno continua. Le caratteristiche lungo i rami di un albero rappresentano le stesse caratteristiche con diversi livelli di selettività. Le caratteristiche lungo la periferia variano più o meno in maniera continua perché non c'è inibizione.
 
 <!-- You see again that systems are organising features in more or less a continuous fashion. Features along the branch of a tree represent the same feature with different levels of selectivity. Features along the periphery vary more or less continuously because there is no inhibition. -->
 
-Per addestrare questo sistema, ad ogni iterazione si dà in pasto al modello una $x$ e si trova un $z$ che minimizzi la funzione di energia. Quindi si opera un passo della discesa del gradiente per aggiornare $W$. Si può anche operare un passo di ascesa del gradiente per rendere i termini di $S$ più grandi.
+Per addestrare questo sistema, ad ogni iterazione si dà come input al modello una $x$ e si trova un $z$ che minimizzi la funzione di energia. Quindi si opera un passo della discesa del gradiente per aggiornare $W$. Si può anche operare un passo di ascesa del gradiente per rendere i termini di $S$ più grandi.
 
 <!-- To train this system, at each iteration, you give an $x$ and find the $z$ which minimizes this energy function.Then do one step of gradient descent to update $W$. You can also do one step of gradient ascent to make the terms in $S$ larger. -->