You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Il codificatore, $W_e$ è simile al codificatore del metodo LISTA. La variabile $X$ viene passata attraverso $W_e$ e attraverso della non-linearità. Questo risultato è poi moltiplicato per un'altra matrice appresa, $S$, e aggiunto a $W_e$. Dopodiché viene passato nuovamente attraverso della non-linearità. Il processo può venir ripetuto più volte; ogni ripetizione identifica uno strato.
26
+
Il codificatore, $W_e$ è simile al codificatore del metodo LISTA. La variabile $X$ viene passata attraverso $W_e$ e attraverso delle funzioni non-lineari. Questo risultato è poi moltiplicato per un'altra matrice appresa, $S$, ed aggiunto a $W_e$. Dopodiché viene passato nuovamente attraverso delle funzioni non-lineari. Il processo può venir ripetuto più volte; ogni ripetizione identifica uno strato.
25
27
26
28
<!-- The encoder, $W_e$, is similar to the encoder in the LISTA method. The X variable is run through $W_e$, and then through a non-linearity. This result is then multiplied by another learned matrix, S, and added to $W_e$. Then it is sent through another non-linearity. This process can be repeated a number of times, with each repetition as a layer. -->
27
29
@@ -39,7 +41,7 @@ Il sistema è addestrato al fine di minimizzare contemporaneamente tutti questi
39
41
40
42
<!-- The system is trained to minimize all 3 of these criteria at the same time. -->
41
43
42
-
Il vantaggio di ciò è il seguente: forzando il sistema a trovare rappresentazioni che possono ricostruire l'input, si sta praticamente distorcendo il sistema all'estrazione di caratteristiche che contengano il massimo dell'informazione riguardo l'input. In altre parole, arricchisce le caratteristiche.
44
+
Il vantaggio di ciò è il seguente: costringendo il sistema a trovare rappresentazioni che possono ricostruire l'input, si sta praticamente distorcendo il sistema all'estrazione di caratteristiche che contengano il massimo dell'informazione riguardo l'input. In altre parole, arricchisce le caratteristiche.
43
45
44
46
<!-- The advantage of this is by forcing the system to find representations that can reconstruct the input, then you're basically biasing the system towards extracting features that contain as much information about the input as possible. In other words, it enriches the features. -->
45
47
@@ -50,8 +52,10 @@ Il vantaggio di ciò è il seguente: forzando il sistema a trovare rappresentazi
50
52
Qui l'idea è di generare caratteristiche sparse, ma non normali caratteristiche estraibili tramite convoluzione, ma caratteristiche che siano sparse dopo l'operazione di aggregazione (*pooling*).
51
53
52
54
<!-- The idea here is to generate sparse features, but not just normal features that are extracted by convolutions, but to basically produce features that are sparse after pooling. -->
<!-- **Fig 2:** Auto-Encoder with Group Sparsity -->
57
61
@@ -101,20 +105,22 @@ R: La risposta non è chiara, di lavoro su questo tema n'è stato fatto prima ch
101
105
102
106
<!-- ## Image Level Training, local filters but no weight sharing -->
103
107
104
-
La risposta se ciò aiuta non è chiara. Le persone interessate in questo tema sono o interessate nel restauro d'immagini o un certo tipo di apprendimento auto-supervisionato. Ciò funzionerebbe bene se il dataset fosse molto piccolo. Quando si hanno dei codificatori e decodificatori che sono convoluzionali che si addestrano con sparsità di gruppo su cellule complesse, dopo che è stato fatto il pre-addestramento, si prende il decodificatore e lo si scarta, si conserva il codificatore e lo si utilizza come estrattore di caratteristiche, ad esempio come primo strato di una rete convoluzionale, a cui si aggiungono ulteriori strati convoluzionali di seguito.
108
+
Non è chiaro se questi siano d'aiuto o meno. Le persone interessate in questo tema sono o interessate nel restauro d'immagini o un certo tipo di apprendimento auto-supervisionato. Ciò funzionerebbe bene se il dataset fosse molto piccolo. Quando si hanno dei codificatori e decodificatori che sono convoluzionali che si addestrano con sparsità di gruppo su cellule complesse, dopo che è stato fatto il pre-addestramento, si prende il decodificatore e lo si scarta, si conserva il codificatore e lo si utilizza come estrattore di caratteristiche, ad esempio come primo strato di una rete convoluzionale, a cui si aggiungono ulteriori strati convoluzionali di seguito.
105
109
106
110
<!-- The answer about whether it helps is not clear. People interested in this are either interested in image restoration or some kind of self-supervised learning. This would work well when dataset was very small. When you have an encoder and decoder that is convolutional and you train with group sparsity on complex cells, after you are done pre-training, the system you get rid of the decoder and only use the encoder as a feature extractor, say the first layer of the convolutional net and you stick a second layer on top of it. -->
<b>Fig. 3</b>: struttura di uno strato convoluzionale ReLU con sparsità di gruppo
115
+
</center>
110
116
111
-
<!-- **Fig 2:** Structure of Convolutional RELU with Group Sparsity -->
117
+
<!-- **Fig 3?:** Structure of Convolutional RELU with Group Sparsity -->
112
118
113
-
Come si può notare sopra, s'inizia con un'immagine, si ha a disposizione un codificatore che è sostanzialmente uno strato convoluzionale ReLU e, di seguito, una sorta di strato di riscalamento. Si addestra la rete con sparsità di gruppo. Si ha un decodificatore lineare e un criterio che è il raggruppamento per 1. Si considera la sparsità di gruppo come un regolarizzatore. Ciò equivale ad effettuare un'aggregazione tramite norma $L_2$ con un'architettura simile alla sparsità di gruppo.
119
+
Come si può notare sopra, s'inizia con un'immagine, si ha a disposizione un codificatore che è sostanzialmente uno strato convoluzionale ReLU e, di seguito, una sorta di strato di riscalamento. Si addestra la rete con sparsità di gruppo. Si ha un decodificatore lineare e un criterio di raggruppamento per 1. Si considera la sparsità di gruppo come un regolarizzatore. Ciò equivale ad effettuare un'aggregazione tramite norma $L_2$ con un'architettura simile alla sparsità di gruppo.
114
120
115
121
<!-- As can be seen above, you are start with an image, you have an encoder which is basically Convolution RELU and some kind of scaling layer after this. You train with group sparsity. You have a linear decoder and a criterion which is group by 1. You take the group sparsity as a regularizer. This is like L2 pooling with an architecture similar to group sparsity. -->
116
122
117
-
Si può anche addestrare un'altra istanza della medesima rete. Stavolta, si possono aggiungere più strati e avere un decodificatore con l'aggregazione $L_2$ e un criterio di sparsità, lo si addestra a ricostruire l'input con un'aggregazione alla fine. Questo creerà una rete convoluzionale pre-addestrata di due strati. Questa procedura viene anche chiamata "*Autoencoder* sovrapposti". La caratteristica pricipale qui è che la rete è addestrata per produrre caratteristiche invarianti con sparsità di gruppo.
123
+
Si può anche addestrare un'altra istanza della medesima rete. Stavolta, si possono aggiungere più strati e avere un decodificatore con l'aggregazione $L_2$ e un criterio di sparsità, lo si addestra a ricostruire l'input con un'aggregazione alla fine. Questo creerà una rete convoluzionale pre-addestrata di due strati. Questa procedura viene anche chiamata "*autoencoder* sovrapposti". La caratteristica pricipale qui è che la rete è addestrata per produrre caratteristiche invarianti con sparsità di gruppo.
118
124
119
125
<!-- You can also train another instance of this network. This time, you can add more layers and have a decoder with the L2 pooling and sparsity criterion, train it to reconstruct its input with pooling on top. This will create a pretrained 2-layer convolutional net. This procedure is also called Stacked Autoencoder. The main characteristic here is that it is trained to produce invariant features with group sparsity. -->
120
126
@@ -126,10 +132,12 @@ R: Sta a voi decidere, si possono avere anche alberi multipli se lo si desidera.
126
132
127
133
<!-- A : It’s upto you, you can use multiple trees if you want. We can train the tree with a bigger tree than necessary and then removes branches rarely used. -->
<b>Fig. 4</b>: addestramento a livello d'immagine, filtri locali senza condivisione dei pesi
138
+
</center>
131
139
132
-
<!-- **Fig 3:** Image Level Training, local filters but no weight sharing -->
140
+
<!-- **Fig 4:** Image Level Training, local filters but no weight sharing -->
133
141
134
142
Questi sono chiamati *pattern* a girandola. Sono una tipologia di organizzazione delle caratteristiche. L'orientamento varia in continuazione come ci si muove attorno ai punti rossi. Se prendiamo uno di questi punti rossi e ci disegnamo attorno un piccolo cerchio, noteremo che l'orientamento dell'estrattore sembra variare in continuazione come ci si muove attorno. Trend simili si sono notati anche nel cervello.
135
143
@@ -143,28 +151,32 @@ D: Il termine relativo alla sparsità di gruppo è addestrato affinché assuma v
143
151
144
152
<!-- It is a regulariser. The term itself is not trained, it's fixed. It's just the L2 norm of the groups and the groups are predetermined. But, because it is a criteron, it determines what the encoder and decoder will do and what sort of features will be extracted. -->
<b>Fig. 5</b>: caratteristiche invarianti ottenute tramite inibizione laterale
157
+
</center>
148
158
149
159
<!-- **Fig 4:** Invariant Features through Lateral Inhibiton -->
150
160
151
161
Qui c'è un decodificatore lineare con errore quadratico di ricostruzione. C'è un criterio nell'energia. La matrice $S$ è determinata a mano o addestrata per massimizzare questo termine. Se i termini in $S$ sono grandi e positivi, ne consegue che il sistema non vuole che $z_i$ e $z_j$ si attivino contemporaneamente. Di conseguenza, è una specie di mutua inibizione (chiamata inibizione naturale nelle neuroscienze). Di conseguenza, si cerca di trovare un valore di $S$ più grande possibile.
152
162
153
163
<!-- Here, there is a linear decoder with square reconstruction error. There is a criterion in the energy. The matrix SSS is either determined by hand or learned so as to maximise this term. If the terms in S are positive and large, it implies that the system does not want $z_i$ and $z_j$ to be on at the same time. Thus, it is sort of a mutual inhibition (called natural inhibition in neuro science). Thus, you try to find a value for S that is as large as possible. -->
<b>Fig. 6</b>: caratteristiche invarianti ottenute tramite inibizione laterale (forma ad albero)
168
+
</center>
157
169
158
170
<!-- **Fig 5:** Invariant Features through Lateral Inhibiton (Tree Form) -->
159
171
160
-
Organizzando $S$ nei termini di un albero, le linee rappresentano i termini a zero nella matrice $S$. La mancanza di una linea corrisponde ad un termine non-nullo. Quindi, ogni caratteristica inibisce tutte le altre, ad eccezione di quelle che si trovano più in alto o più in basso nell'albero. Ciò è qualcosa di inverso rispetto alla sparsità di gruppo.
172
+
Organizzando $S$ nei termini di un albero, le linee rappresentano i termini a zero nella matrice $S$. La mancanza di una linea corrisponde ad un termine non-nullo. Quindi, ogni caratteristica inibisce tutte le altre, ad eccezione di quelle che si trovano più in alto o più in basso nell'albero. Ciò è come la converse della sparsità di gruppo.
161
173
162
174
<!-- If you organise S in terms of a tree, the lines represent the zero terms in the S matrix. Whenever you don't have a line, there is a non-zero term. So, every feature inhibits all other features expect those which are up the tree or down the tree from it. This is something like the converse of group sparsity. -->
163
175
164
176
Si nota nuovamente come i sistemi organizzano le caratteristiche in una maniera più o meno continua. Le caratteristiche lungo i rami di un albero rappresentano le stesse caratteristiche con diversi livelli di selettività. Le caratteristiche lungo la periferia variano più o meno in maniera continua perché non c'è inibizione.
165
177
166
178
<!-- You see again that systems are organising features in more or less a continuous fashion. Features along the branch of a tree represent the same feature with different levels of selectivity. Features along the periphery vary more or less continuously because there is no inhibition. -->
167
179
168
-
Per addestrare questo sistema, ad ogni iterazione si dà in pasto al modello una $x$ e si trova un $z$ che minimizzi la funzione di energia. Quindi si opera un passo della discesa del gradiente per aggiornare $W$. Si può anche operare un passo di ascesa del gradiente per rendere i termini di $S$ più grandi.
180
+
Per addestrare questo sistema, ad ogni iterazione si dà come input al modello una $x$ e si trova un $z$ che minimizzi la funzione di energia. Quindi si opera un passo della discesa del gradiente per aggiornare $W$. Si può anche operare un passo di ascesa del gradiente per rendere i termini di $S$ più grandi.
169
181
170
182
<!-- To train this system, at each iteration, you give an $x$ and find the $z$ which minimizes this energy function.Then do one step of gradient descent to update $W$. You can also do one step of gradient ascent to make the terms in $S$ larger. -->
0 commit comments