haroldyong
diff --git a/‎.travis.yml
Lines changed: 3 additions & 1 deletion b/‎.travis.yml
Lines changed: 3 additions & 1 deletion
diff --git a/‎deeplearning4j-cli/deeplearning4j-cli-api/src/main/java/org/deeplearning4j/cli/subcommands/Train.java
Lines changed: 2 additions & 2 deletions b/‎deeplearning4j-cli/deeplearning4j-cli-api/src/main/java/org/deeplearning4j/cli/subcommands/Train.java
Lines changed: 2 additions & 2 deletions
diff --git a/‎deeplearning4j-cli/deeplearning4j-cli-api/src/test/java/org/deeplearning4j/cli/TrainMultiLayerConfigTest.java
Lines changed: 0 additions & 1 deletion b/‎deeplearning4j-cli/deeplearning4j-cli-api/src/test/java/org/deeplearning4j/cli/TrainMultiLayerConfigTest.java
Lines changed: 0 additions & 1 deletion
diff --git a/‎deeplearning4j-core/src/main/java/org/deeplearning4j/gradientcheck/GradientCheckUtil.java
Lines changed: 2 additions & 2 deletions b/‎deeplearning4j-core/src/main/java/org/deeplearning4j/gradientcheck/GradientCheckUtil.java
Lines changed: 2 additions & 2 deletions
diff --git a/‎deeplearning4j-core/src/main/java/org/deeplearning4j/nn/api/Updater.java
Lines changed: 3 additions & 2 deletions b/‎deeplearning4j-core/src/main/java/org/deeplearning4j/nn/api/Updater.java
Lines changed: 3 additions & 2 deletions
diff --git a/‎deeplearning4j-core/src/main/java/org/deeplearning4j/nn/conf/InputPreProcessor.java
Lines changed: 5 additions & 3 deletions b/‎deeplearning4j-core/src/main/java/org/deeplearning4j/nn/conf/InputPreProcessor.java
Lines changed: 5 additions & 3 deletions
diff --git a/‎deeplearning4j-core/src/main/java/org/deeplearning4j/nn/conf/NeuralNetConfiguration.java
Lines changed: 1 addition & 11 deletions b/‎deeplearning4j-core/src/main/java/org/deeplearning4j/nn/conf/NeuralNetConfiguration.java
Lines changed: 1 addition & 11 deletions
diff --git a/‎deeplearning4j-core/src/main/java/org/deeplearning4j/nn/conf/preprocessor/BinomialSamplingPreProcessor.java
Lines changed: 2 additions & 3 deletions b/‎deeplearning4j-core/src/main/java/org/deeplearning4j/nn/conf/preprocessor/BinomialSamplingPreProcessor.java
Lines changed: 2 additions & 3 deletions
diff --git a/‎deeplearning4j-core/src/main/java/org/deeplearning4j/nn/conf/preprocessor/CnnToFeedForwardPreProcessor.java
Lines changed: 2 additions & 3 deletions b/‎deeplearning4j-core/src/main/java/org/deeplearning4j/nn/conf/preprocessor/CnnToFeedForwardPreProcessor.java
Lines changed: 2 additions & 3 deletions
diff --git a/‎deeplearning4j-core/src/main/java/org/deeplearning4j/nn/conf/preprocessor/CnnToRnnPreProcessor.java
Lines changed: 2 additions & 5 deletions b/‎deeplearning4j-core/src/main/java/org/deeplearning4j/nn/conf/preprocessor/CnnToRnnPreProcessor.java
Lines changed: 2 additions & 5 deletions
@@ -10,7 +10,9 @@ jdk:
 # for running tests on Travis CI container infrastructure for faster builds
 sudo: true
 
-
+env:
+  global:
+    JAVA_OPTS=-Xmx2g
 
 before_install:
   - sudo apt-get install build-essential git
 
@@ -170,7 +170,7 @@ public void execLocal() {
                 MultiLayerConfiguration conf = MultiLayerConfiguration.fromJson(FileUtils.readFileToString(new File(modelPath)));
                 FeedForwardLayer outputLayer = (FeedForwardLayer) conf.getConf(conf.getConfs().size() - 1).getLayer();
 
-                DataSetIterator iter = new RecordReaderDataSetIterator( reader , conf.getConf(0).getBatchSize(),-1, outputLayer.getNOut());
+                DataSetIterator iter = new RecordReaderDataSetIterator( reader ,1,-1, outputLayer.getNOut());
 
                 MultiLayerNetwork network = new MultiLayerNetwork(conf);
                 if(verbose) {
@@ -195,7 +195,7 @@ public void execLocal() {
                 NeuralNetConfiguration conf = NeuralNetConfiguration.fromJson(FileUtils.readFileToString(new File(modelPath)));
                 LayerFactory factory = LayerFactories.getFactory(conf);
                 Layer l = factory.create(conf);
-                DataSetIterator iter = new RecordReaderDataSetIterator( reader , conf.getBatchSize());
+                DataSetIterator iter = new RecordReaderDataSetIterator( reader , 1);
                 while(iter.hasNext()) {
                     l.fit(iter.next().getFeatureMatrix());
                 }
 
@@ -46,7 +46,6 @@ public void testMultiLayerConfig() throws Exception {
         Model testModelFlag = new Model();
         MultiLayerConfiguration conf = new NeuralNetConfiguration.Builder()
                 .iterations(100)
-                .batchSize(10)
                 .learningRate(1e-1f).momentum(0.9).regularization(true).l2(2e-4)
                 .optimizationAlgo(OptimizationAlgorithm.LBFGS).constrainGradientToUnitNorm(true)
                 .list(2)
 
@@ -60,13 +60,13 @@ public static boolean checkGradients( MultiLayerNetwork mln, double epsilon, dou
 
         if(useUpdater) {
             Updater updater = UpdaterCreator.getUpdater(mln);
-            updater.update(mln, gradAndScore.getFirst(), 0);
+            updater.update(mln, gradAndScore.getFirst(), 0, mln.batchSize());
         }
 
         INDArray gradientToCheck = gradAndScore.getFirst().gradient();
         INDArray originalParams = mln.params();
 
-        int nParams = mln.numParams();
+        int nParams = originalParams.length();
 
         int totalNFailures = 0;
         double maxError = 0.0;
 
@@ -12,10 +12,11 @@
 public interface Updater extends Serializable {
     /**
      * Updater: updates the model
+     *
      * @param layer
      * @param gradient
-     * @param  iteration
+     * @param iteration
      */
-    void update(Layer layer,Gradient gradient,int iteration);
+    void update(Layer layer, Gradient gradient, int iteration, int miniBatchSize);
 
 }
@@ -54,16 +54,18 @@ public interface InputPreProcessor extends Serializable, Cloneable {
     /**
      * Pre preProcess input/activations for a multi layer network
      * @param input the input to pre preProcess
+     * @param miniBatchSize
      * @return the processed input
      */
-    INDArray preProcess(INDArray input, Layer layer);
+    INDArray preProcess(INDArray input, int miniBatchSize);
 
     /**Reverse the preProcess during backprop. Process Gradient/epsilons before
      * passing them to the layer below.
-     * @param output which is a pair of the gradient and epsilon 
+     * @param output which is a pair of the gradient and epsilon
+     * @param miniBatchSize
      * @return the reverse of the pre preProcess step (if any)
      */
-    INDArray backprop(INDArray output, Layer layer);
+    INDArray backprop(INDArray output, int miniBatchSize);
 
     InputPreProcessor clone();
 }
@@ -55,7 +55,6 @@ public class NeuralNetConfiguration implements Serializable,Cloneable {
 
     protected Layer layer;
     //batch size: primarily used for conv nets. Will be reinforced if set.
-    protected int batchSize = 1;
     protected boolean miniBatch = true;
     protected int numIterations = 5;
     //number of line search iterations
@@ -65,8 +64,6 @@ public class NeuralNetConfiguration implements Serializable,Cloneable {
     //gradient keys used for ensuring order when getting and setting the gradient
     protected List<String> variables = new ArrayList<>();
     //whether to constrain the gradient to unit norm or not
-    @Deprecated
-    protected boolean constrainGradientToUnitNorm = false;
     //adadelta - weight for how much to consider previous history
     protected StepFunction stepFunction;
     protected boolean useRegularization = false;
@@ -285,7 +282,6 @@ public static class Builder implements Cloneable {
         private double adamMeanDecay = 0.9;
         private double adamVarDecay = 0.999;
         private Layer layer;
-        private int batchSize = 1;
         private boolean miniBatch = true;
         private int numIterations = 5;
         private int maxNumLineSearchIterations = 5;
@@ -352,11 +348,7 @@ public Builder maxNumLineSearchIterations(int maxNumLineSearchIterations) {
             return this;
         }
 
-        /** Minibatch size. Number of examples in a batch.*/
-        public Builder batchSize(int batchSize) {
-            this.batchSize = batchSize;
-            return this;
-        }
+
 
         /** Layer class. */
         public Builder layer(Layer layer) {
@@ -590,13 +582,11 @@ public NeuralNetConfiguration build() {
 
             conf.minimize = minimize;
             conf.maxNumLineSearchIterations = maxNumLineSearchIterations;
-            conf.batchSize = batchSize;
             conf.layer = layer;
             conf.numIterations = numIterations;
             conf.useRegularization = useRegularization;
             conf.useSchedules = useSchedules;
             conf.optimizationAlgo = optimizationAlgo;
-            conf.constrainGradientToUnitNorm = constrainGradientToUnitNorm;
             conf.seed = seed;
             conf.timeSeriesLength = timeSeriesLength;
             conf.stepFunction = stepFunction;
 
@@ -21,7 +21,6 @@
 
 import lombok.Data;
 
-import org.deeplearning4j.nn.api.Layer;
 import org.nd4j.linalg.api.ndarray.INDArray;
 import org.nd4j.linalg.factory.Nd4j;
 
@@ -33,13 +32,13 @@
 public class BinomialSamplingPreProcessor extends BaseInputPreProcessor {
 
 	@Override
-    public INDArray preProcess(INDArray input, Layer layer) {
+    public INDArray preProcess(INDArray input, int miniBatchSize) {
         return Nd4j.getDistributions().createBinomial(1, input).sample(input.shape());
     }
 
 
     @Override
-    public INDArray backprop(INDArray output, Layer layer) {
+    public INDArray backprop(INDArray output, int miniBatchSize) {
         return output;	//No op?
     }
 }
@@ -23,7 +23,6 @@
 
 import lombok.Data;
 
-import org.deeplearning4j.nn.api.Layer;
 import org.deeplearning4j.nn.conf.InputPreProcessor;
 import org.nd4j.linalg.api.ndarray.INDArray;
 import org.nd4j.linalg.api.shape.Shape;
@@ -78,7 +77,7 @@ public CnnToFeedForwardPreProcessor(){}
 
     @Override
     // return 2 dimensions
-    public INDArray preProcess(INDArray input, Layer layer) {
+    public INDArray preProcess(INDArray input, int miniBatchSize) {
         int[] otherOutputs = null;
 
         //this.inputHeight = input.size(-2);
@@ -104,7 +103,7 @@ else if(input.shape().length == 3) {
     }
 
     @Override
-    public INDArray backprop(INDArray output, Layer layer){
+    public INDArray backprop(INDArray output, int miniBatchSize){
         if (output.shape().length == 4)
             return output;
         if (output.columns() != inputWidth * inputHeight * numChannels)
 
@@ -2,9 +2,7 @@
 
 import com.fasterxml.jackson.annotation.JsonCreator;
 import com.fasterxml.jackson.annotation.JsonProperty;
-import lombok.AllArgsConstructor;
 import lombok.Data;
-import org.deeplearning4j.nn.api.Layer;
 import org.deeplearning4j.nn.conf.InputPreProcessor;
 import org.nd4j.linalg.api.ndarray.INDArray;
 
@@ -41,20 +39,19 @@ public CnnToRnnPreProcessor(@JsonProperty("inputHeight") int inputHeight,
     }
 
     @Override
-    public INDArray preProcess(INDArray input, Layer layer) {
+    public INDArray preProcess(INDArray input, int miniBatchSize) {
         if(input.rank() != 4) throw new IllegalArgumentException("Invalid input: expect CNN activations with rank 4 (received input with shape "
             + Arrays.toString(input.shape())+")");
         //Input: 4d activations (CNN)
         //Output: 3d activations (RNN)
 
         int[] shape = input.shape();    //[timeSeriesLength*miniBatchSize, numChannels, inputHeight, inputWidth]
-        int miniBatchSize = layer.getInputMiniBatchSize();
         INDArray reshaped = input.reshape(miniBatchSize,shape[0]/miniBatchSize,product);
         return reshaped.permute(0,2,1);
     }
 
     @Override
-    public INDArray backprop(INDArray output, Layer layer) {
+    public INDArray backprop(INDArray output, int miniBatchSize) {
         int[] shape = output.shape();
         INDArray output2d;
         if(shape[0]==1){
Original file line number	Diff line number	Diff line change
`@@ -21,7 +21,6 @@`
`21`	`21`
`22`	`22`	`import lombok.Data;`
`23`	`23`
`24`		`-import org.deeplearning4j.nn.api.Layer;`
`25`	`24`	`import org.nd4j.linalg.api.ndarray.INDArray;`
`26`	`25`	`import org.nd4j.linalg.factory.Nd4j;`
`27`	`26`
`@@ -33,13 +32,13 @@`
`33`	`32`	`public class BinomialSamplingPreProcessor extends BaseInputPreProcessor {`
`34`	`33`
`35`	`34`	`@Override`
`36`		`- public INDArray preProcess(INDArray input, Layer layer) {`
	`35`	`+ public INDArray preProcess(INDArray input, int miniBatchSize) {`
`37`	`36`	`return Nd4j.getDistributions().createBinomial(1, input).sample(input.shape());`
`38`	`37`	`}`
`39`	`38`
`40`	`39`
`41`	`40`	`@Override`
`42`		`- public INDArray backprop(INDArray output, Layer layer) {`
	`41`	`+ public INDArray backprop(INDArray output, int miniBatchSize) {`
`43`	`42`	`return output; //No op?`
`44`	`43`	`}`
`45`	`44`	`}`