Add ignore_index to NLLLoss2d

fyu · soumith · commit d6bc2642e7f8 · 2017-07-13T23:22:48.000-04:00
diff --git a/test/common_nn.py b/test/common_nn.py
@@ -283,6 +283,13 @@
         target=torch.rand(2, 5, 5).mul(3).floor().long(),
         desc='weights'
     ),
+    dict(
+        module_name='NLLLoss2d',
+        constructor_args=(None, True, 3),
+        input_size=(2, 3, 5, 5),
+        target=torch.rand(2, 5, 5).mul(4).floor().long(),
+        desc='ignore_index'
+    ),
     dict(
         module_name='HingeEmbeddingLoss',
         input=torch.rand(10),
diff --git a/torch/legacy/nn/SpatialClassNLLCriterion.py b/torch/legacy/nn/SpatialClassNLLCriterion.py
@@ -4,24 +4,28 @@
 
 class SpatialClassNLLCriterion(Criterion):
 
-    def __init__(self, weights=None, sizeAverage=True):
+    def __init__(self, weights=None, sizeAverage=True, ignore_index=-100):
         assert weights is None or weights.dim() == 1
         super(SpatialClassNLLCriterion, self).__init__()
         self.sizeAverage = sizeAverage
         self.weights = weights
+        self.ignore_index = ignore_index
 
         self.output_tensor = torch.zeros(1)
         self.total_weight_tensor = torch.ones(1)
 
     def updateOutput(self, input, target):
+        if not hasattr(self, 'ignore_index'):
+            self.ignore_index = -100
         self._backend.SpatialClassNLLCriterion_updateOutput(
             self._backend.library_state,
             input,
             target,
             self.output_tensor,
             self.sizeAverage,
             self.weights,
-            self.total_weight_tensor
+            self.total_weight_tensor,
+            self.ignore_index
         )
         self.output = self.output_tensor[0]
         return self.output
@@ -35,6 +39,7 @@ def updateGradInput(self, input, target):
             self.gradInput,
             self.sizeAverage,
             self.weights,
-            self.total_weight_tensor
+            self.total_weight_tensor,
+            self.ignore_index
         )
         return self.gradInput
diff --git a/torch/lib/THCUNN/SpatialClassNLLCriterion.cu b/torch/lib/THCUNN/SpatialClassNLLCriterion.cu
@@ -18,7 +18,8 @@ __global__ void cunn_SpatialClassNLLCriterion_updateOutput_kernel(
           int batch_size,
           int n_classes,
           int map_nelem,
-          int blocks_per_sample)
+          int blocks_per_sample,
+          long ignore_index)
 {
   __shared__ AccumT partial_sums[CUDA_NUM_THREADS];
 
@@ -35,10 +36,12 @@ __global__ void cunn_SpatialClassNLLCriterion_updateOutput_kernel(
        i < map_nelem;
        i += step) {
     t = target[toffset + i] - TH_INDEX_BASE;
-    assert(t >= 0 && t < n_classes);
-    cur_weight = weights ? weights[t] : ScalarConvert<int, T>::to(1);
-    input_sum -= input[ioffset + i + map_nelem * t] * cur_weight;
-    acc_weight += cur_weight;
+    if (t != ignore_index) {
+      assert(t >= 0 && t < n_classes);
+      cur_weight = weights ? weights[t] : ScalarConvert<int, T>::to(1);
+      input_sum -= input[ioffset + i + map_nelem * t] * cur_weight;
+      acc_weight += cur_weight;
+    }
   }
 
   __syncthreads();
@@ -71,7 +74,8 @@ __global__ void cunn_SpatialClassNLLCriterion_updateGradInput_kernel(
           int batch_size,
           int n_classes,
           int map_nelem,
-          int blocks_per_sample)
+          int blocks_per_sample,
+          long ignore_index)
 {
   if (*total_weight <= 0)
     return;
@@ -87,8 +91,10 @@ __global__ void cunn_SpatialClassNLLCriterion_updateGradInput_kernel(
        i < map_nelem;
        i += step) {
     t = (int)target[toffset + i] - TH_INDEX_BASE;
-    assert(t >= 0 && t < n_classes);
-    gradInput[ioffset + i + map_nelem * t] = -(weights ? weights[t] : ScalarConvert<int, T>::to(1)) * norm;
+    if (t != ignore_index) {
+      assert(t >= 0 && t < n_classes);
+      gradInput[ioffset + i + map_nelem * t] = -(weights ? weights[t] : ScalarConvert<int, T>::to(1)) * norm;
+    }
   }
 }
 
diff --git a/torch/lib/THCUNN/generic/SpatialClassNLLCriterion.cu b/torch/lib/THCUNN/generic/SpatialClassNLLCriterion.cu
@@ -36,7 +36,8 @@ void THNN_(SpatialClassNLLCriterion_updateOutput)(
            THCTensor *output,
            bool sizeAverage,
            THCTensor *weights,
-           THCTensor *total_weight)
+           THCTensor *total_weight,
+           long ignore_index)
 {
   THNN_(SpatialClassNLLCriterion_shapeCheck)(state, input, target, weights);
 
@@ -75,7 +76,8 @@ void THNN_(SpatialClassNLLCriterion_updateOutput)(
       THCTensor_(size)(state, input, 0),
       THCTensor_(size)(state, input, 1),
       THCTensor_(size)(state, input, 2) * THCTensor_(size)(state, input, 3),
-      blocks_per_sample
+      blocks_per_sample,
+      ignore_index
   );
   THCudaCheck(cudaGetLastError());
   if (sizeAverage) {
@@ -98,7 +100,8 @@ void THNN_(SpatialClassNLLCriterion_updateGradInput)(
            THCTensor *gradInput,
            bool sizeAverage,
            THCTensor *weights,
-           THCTensor *total_weight)
+           THCTensor *total_weight,
+           long ignore_index)
 {
   THNN_(SpatialClassNLLCriterion_shapeCheck)(state, input, target, weights);
   THArgCheck(THCTensor_(isContiguous)(state, gradInput), 4,
@@ -134,7 +137,8 @@ void THNN_(SpatialClassNLLCriterion_updateGradInput)(
       THCTensor_(size)(state, input, 0),
       THCTensor_(size)(state, input, 1),
       THCTensor_(size)(state, input, 2) *THCTensor_(size)(state, input, 3),
-      blocks_per_sample
+      blocks_per_sample,
+      ignore_index
   );
   THCudaCheck(cudaGetLastError());
 
diff --git a/torch/lib/THCUNN/generic/THCUNN.h b/torch/lib/THCUNN/generic/THCUNN.h
@@ -553,7 +553,8 @@ TH_API void THNN_(SpatialClassNLLCriterion_updateOutput)(
                   THCTensor *output,
                   bool sizeAverage,
                   THCTensor *weights,       // [OPTIONAL]
-                  THCTensor *total_weight);
+                  THCTensor *total_weight,
+                  long ignore_index);
 
 TH_API void THNN_(SpatialClassNLLCriterion_updateGradInput)(
                   THCState *state,
@@ -562,7 +563,8 @@ TH_API void THNN_(SpatialClassNLLCriterion_updateGradInput)(
                   THCTensor *gradInput,
                   bool sizeAverage,
                   THCTensor *weights,       // [OPTIONAL]
-                  THCTensor *total_weight);
+                  THCTensor *total_weight,
+                  long ignore_index);
 
 TH_API void THNN_(SpatialConvolutionLocal_updateOutput)(
                   THCState *state,
diff --git a/torch/lib/THNN/generic/SpatialClassNLLCriterion.c b/torch/lib/THNN/generic/SpatialClassNLLCriterion.c
@@ -34,7 +34,8 @@ void THNN_(SpatialClassNLLCriterion_updateOutput)(
           THTensor *output,
           bool sizeAverage,
           THTensor *weights,
-          THTensor *total_weight)
+          THTensor *total_weight,
+          long ignore_index)
 {
   INITIAL_CHECK;
 
@@ -58,6 +59,7 @@ void THNN_(SpatialClassNLLCriterion_updateOutput)(
   for (int b = 0; b < batch_size; b++) {
     for (int elem = 0; elem < map_size; elem++) {
       int cur_target = target_data[b * map_size + elem] - TH_INDEX_BASE;
+      if (cur_target == ignore_index) continue;
       THAssert(cur_target >= 0 && cur_target < n_classes);
 
       real cur_weight = weights ? weights_data[cur_target] : 1.0f;
@@ -84,7 +86,8 @@ void THNN_(SpatialClassNLLCriterion_updateGradInput)(
           THTensor *gradInput,
           bool sizeAverage,
           THTensor *weights,
-          THTensor *total_weight)
+          THTensor *total_weight,
+          long ignore_index)
 {
   INITIAL_CHECK;
   THArgCheck(THTensor_(isContiguous)(gradInput), 4,
@@ -114,6 +117,7 @@ void THNN_(SpatialClassNLLCriterion_updateGradInput)(
     int elem;
     for (elem = 0; elem < map_size; elem++) {
       int cur_target = target_data[b * map_size + elem] - TH_INDEX_BASE;
+      if (cur_target == ignore_index) continue;
       THAssert(cur_target >= 0 && cur_target < n_classes);
 
       gradInput_data[b * sample_size + cur_target * map_size + elem] =
diff --git a/torch/lib/THNN/generic/THNN.h b/torch/lib/THNN/generic/THNN.h
@@ -66,15 +66,18 @@ TH_API void THNN_(SpatialClassNLLCriterion_updateOutput)(
           THTensor *output,            // [OUT] a one-element tensor with loss
           bool sizeAverage,            // if true, the loss will be normalized by batch size and class weights
           THTensor *weights,           // [OPTIONAL] class weights
-          THTensor *total_weight);     // [BUFFER]
+          THTensor *total_weight,      // [BUFFER]
+          long ignore_index);          // target index to ignore (loss = 0, gradInput = 0)
 TH_API void THNN_(SpatialClassNLLCriterion_updateGradInput)(
           THNNState *state,            // library's state
           THTensor *input,             // input tensor (4D)
           THIndexTensor *target,       // tensor containing indexes of target classes (3D)
           THTensor *gradInput,         // [OUT] gradient w.r.t. input
           bool sizeAverage,            // if true, the loss will be normalized by batch size and class weights
           THTensor *weights,           // [OPTIONAL] class weights
-          THTensor *total_weight);     // [BUFFER]
+          THTensor *total_weight,      // [BUFFER]
+          long ignore_index);          // target index to ignore (loss = 0, gradInput = 0)
+
 
 TH_API void THNN_(ELU_updateOutput)(
           THNNState *state,            // library's state
diff --git a/torch/nn/functional.py b/torch/nn/functional.py
@@ -595,9 +595,7 @@ def nll_loss(input, target, weight=None, size_average=True, ignore_index=-100):
     if dim == 2:
         f = _functions.thnn.NLLLoss(size_average, ignore_index, weight=weight)
     elif dim == 4:
-        if ignore_index != -100:
-            raise ValueError('ignore_index is not supported for 4-D inputs')
-        f = _functions.thnn.NLLLoss2d(size_average, weight=weight)
+        f = _functions.thnn.NLLLoss2d(size_average, ignore_index, weight=weight)
     else:
         raise ValueError('Expected 2 or 4 dimensions (got {})'.format(dim))
     return f(input, target)
diff --git a/torch/nn/modules/loss.py b/torch/nn/modules/loss.py
@@ -124,7 +124,7 @@ def forward(self, input, target):
                           self.ignore_index)
 
 
-class NLLLoss2d(_WeightedLoss):
+class NLLLoss2d(NLLLoss):
     r"""This is negative log likehood loss, but for image inputs. It computes
     NLL loss per-pixel.