DeepakIngole
diff --git a/‎GP.m
Lines changed: 142 additions & 98 deletions b/‎GP.m
Lines changed: 142 additions & 98 deletions
@@ -42,7 +42,7 @@
         alpha   % <N,p>: L'\(L\(Y-muX));
         % (DEPRECATED) inv_KXX_sn  % <N,N>
 
-        isOutdated  = false % <bool> model is outdated if data has been added withouth updating L and alpha matrices
+        % isOutdated  = false % <bool> model is outdated if data has been added withouth updating L and alpha matrices
         % isOptimized = false % <bool> true if model had its kernel parameters optimized and no new data has been added
     end
 
@@ -58,19 +58,19 @@
         %   M:       <n,n,p> length scale covariance matrix
         %   maxsize: <1>     maximum dictionary size
         %------------------------------------------------------------------
+            obj.n       = n;
+            obj.p       = p;
             obj.X       = [];
             obj.Y       = [];
             obj.var_f   = var_f;
             obj.var_n   = var_n;
             obj.M       = M;
             obj.Nmax    = maxsize;
-            obj.n       = n;
-            obj.p       = p;
 
             % validade model parameters
-            assert( obj.n == size(M,1),     'Matrix M has wrong dimension or parameters n/p are wrong. Expected dim(M)=<n,n,p>=<%d,%d,%d>',obj.n,obj.n,obj.p);
-            assert( obj.p == size(var_f,1), 'Matrix var_f has wrong dimension or parameter p is wrong. Expected dim(var_f)=<p>=<%d>, got <%d>.',obj.p,size(var_f,1));
-            assert( obj.p == size(var_n,1), 'Matrix var_n has wrong dimension or parameter p is wrong. Expected dim(var_n)=<p>=<%d>, got <%d>.',obj.p,size(var_n,1));
+            assert( n == size(M,1),     'Matrix M has wrong dimension or parameters n/p are wrong. Expected dim(M)=<n,n,p>=<%d,%d,%d>',n,n,p);
+            assert( p == size(var_f,1), 'Matrix var_f has wrong dimension or parameter p is wrong. Expected dim(var_f)=<p>=<%d>, got <%d>.',p,size(var_f,1));
+            assert( p == size(var_n,1), 'Matrix var_n has wrong dimension or parameter p is wrong. Expected dim(var_n)=<p>=<%d>, got <%d>.',p,size(var_n,1));
         end
 
 
@@ -81,14 +81,43 @@
             bool = obj.N >= obj.Nmax;
         end
 
-        
         function N = get.N(obj)
         %------------------------------------------------------------------
         % return dictionary size = N
         %------------------------------------------------------------------
             N = size(obj.X,2);
         end
 
+        % function set.M(obj,M)
+        %     assert( obj.n == size(M,1),     'Matrix M has wrong dimension or parameters n/p are wrong. Expected dim(M)=<n,n,p>=<%d,%d,%d>',obj.n,obj.n,obj.p);
+        %     obj.M = M;
+        %     obj.isOutdated = true;
+        % end
+        % 
+        % function set.var_f(obj,var_f)
+        %     assert( obj.p == size(var_f,1), 'Matrix var_f has wrong dimension or parameter p is wrong. Expected dim(var_f)=<p>=<%d>, got <%d>.',obj.p,size(var_f,1));
+        %     obj.var_f = var_f;
+        %     obj.isOutdated = true;
+        % end
+        % 
+        % function set.var_n(obj,var_n)
+        %     assert( obj.p == size(var_n,1), 'Matrix var_n has wrong dimension or parameter p is wrong. Expected dim(var_n)=<p>=<%d>, got <%d>.',obj.p,size(var_n,1));
+        %     obj.var_n = var_n;
+        %     obj.isOutdated = true;
+        % end
+        % 
+        % function set.X(obj,X)
+        %     obj.X = X;
+        %     % data has been added. GP is outdated. Please call obj.updateModel
+        %     obj.isOutdated = true;
+        % end
+        % 
+        % function set.Y(obj,Y)
+        %     obj.Y = Y;
+        %     % data has been added. GP is outdated. Please call obj.updateModel
+        %     obj.isOutdated = true;
+        % end
+        
 
         function mean = mu(~,x)
         %------------------------------------------------------------------
@@ -126,45 +155,26 @@ function updateModel(obj)
         % Update precomputed matrices L and alpha, that will be used when
         % evaluating new points. See [Rasmussen, pg19].
         % -----------------------------------------------------------------
-            if obj.isOutdated
-                % store cholesky L and alpha matrices
-                I = eye(obj.N);
-                
-                % for each output dimension
-                obj.alpha = zeros(obj.N,obj.p);
-                obj.L = zeros(obj.N,obj.N);
-                K = obj.K(obj.X,obj.X);
-                for pi=1:obj.p
-                    obj.L(:,:,pi) = chol(K(:,:,pi)+ obj.var_n(pi) * I ,'lower');
-                    % sanity check: norm( L*L' - (obj.K(obj.X,obj.X) + obj.var_n*I) ) < 1e-12
-                    
-                    obj.alpha(:,pi) = obj.L(:,:,pi)'\(obj.L(:,:,pi)\(obj.Y(:,pi)-obj.mu(obj.X)));
-                end
-                
-                %-------------------- (DEPRECATED) ------------------------ 
-                % % SLOW BUT RETURNS THE FULL COVARIANCE MATRIX INSTEAD OF ONLY THE DIAGONAL (VAR)
-                % % precompute inv(K(X,X) + sigman^2*I)
-                % I = eye(obj.N);
-                % obj.inv_KXX_sn = inv( obj.K(obj.X,obj.X) + obj.var_n * I );
-                %-------------------- (DEPRECATED) ------------------------
-                
-                % set flag
-                obj.isOutdated = false;
+            % store cholesky L and alpha matrices
+            I = eye(obj.N);
+
+            % for each output dimension
+            obj.alpha = zeros(obj.N,obj.p);
+            obj.L = zeros(obj.N,obj.N);
+            K = obj.K(obj.X,obj.X);
+            for pi=1:obj.p
+                obj.L(:,:,pi) = chol(K(:,:,pi)+ obj.var_n(pi) * I ,'lower');
+                % sanity check: norm( L*L' - (obj.K(obj.X,obj.X) + obj.var_n*I) ) < 1e-12
+
+                obj.alpha(:,pi) = obj.L(:,:,pi)'\(obj.L(:,:,pi)\(obj.Y(:,pi)-obj.mu(obj.X)));
             end
-        end
-        
-        
-        function set.X(obj,X)
-            obj.X = X;
-            % data has been added. GP is outdated. Please call obj.updateModel
-            obj.isOutdated = true;
-        end
-        
-        
-        function set.Y(obj,Y)
-            obj.Y = Y;
-            % data has been added. GP is outdated. Please call obj.updateModel
-            obj.isOutdated = true;
+
+            %-------------------- (DEPRECATED) ------------------------ 
+            % % SLOW BUT RETURNS THE FULL COVARIANCE MATRIX INSTEAD OF ONLY THE DIAGONAL (VAR)
+            % % precompute inv(K(X,X) + sigman^2*I)
+            % I = eye(obj.N);
+            % obj.inv_KXX_sn = inv( obj.K(obj.X,obj.X) + obj.var_n * I );
+            %-------------------- (DEPRECATED) ------------------------
         end
 
 
@@ -190,7 +200,6 @@ function add(obj,X,Y)
             if Nextra <= 0 
                 obj.X = [obj.X, X];
                 obj.Y = [obj.Y; Y];
-                obj.updateModel();
 
             % data overflow: dictionary will be full. we need to select
             % relevant points
@@ -215,22 +224,24 @@ function add(obj,X,Y)
                         [~,idx_rm] = min(D);
                         idx_keep = 1:obj.N ~= idx_rm;
 
-                        obj.X = [obj.X(:,idx_keep), X(:,i)];  % concatenation in the 2st dim.
-                        obj.Y = [obj.Y(idx_keep,:); Y(i,:)];    % concatenation in the 1st dim.
+                        obj.X = [obj.X(:,idx_keep), X(:,i)];
+                        obj.Y = [obj.Y(idx_keep,:); Y(i,:)];
                     end
 
                 % OPTION B)
                 % the point with lowest variance will be removed        
                 else
                     X_all = [obj.X,X];
                     Y_all = [obj.Y;Y];
-                    [~, var_y] = obj.eval( X_all, 'activate');
+                    [~, var_y] = obj.eval( X_all, true);
                     [~,idx_keep] = maxk(sum(reshape(var_y, obj.p^2, obj.N+Nextra )),obj.Nmax);
 
                     obj.X = X_all(:,idx_keep);
                     obj.Y = Y_all(idx_keep,:);
                 end
             end
+            % update pre-computed matrices
+            obj.updateModel();
         end
 
 
@@ -242,19 +253,20 @@ function add(obj,X,Y)
         % args:
         %   x: <n,Nx> point coordinates
         % varargin: 
-        %   'activate': force calculation of mean and variance even if GP is inactive
+        %   true: force calculation of mean and variance even if GP is inactive
         % out:
         %   muy:  <p,Nx>      E[Y] = E[gp(x)]
         %   vary: <p,p,Nx>    Var[Y]  = Var[gp(x)]
         %------------------------------------------------------------------
             assert(size(x,1)==obj.n, sprintf('Input vector has %d columns but should have %d !!!',size(x,1),obj.n));
 
             % calculate mean and variance even if GP is inactive
-            forceActive = length(varargin)>1 && strcmp(varargin{1},'activate');
+            forceActive = length(varargin)>=1 && varargin{1}==true;
 
             Nx = size(x,2);  % size of dataset to be evaluated
 
-            % if there is no data in the dictionary or GP is not active, return zeros
+            % if there is no data in the dictionary or GP is not active
+            % then return prior (for now returning zero variance)
             if obj.N == 0 || (~obj.isActive && ~forceActive)
                 mu_y  = repmat(obj.mu(x),[1,obj.p])';
                 var_y = zeros(obj.p,obj.p,Nx);
@@ -300,6 +312,8 @@ function optimizeHyperParams(obj, method)
 
             warning('off', 'MATLAB:nearlySingularMatrix')
             warning('off', 'MATLAB:singularMatrix')
+            
+            obj.updateModel();
 
             % error('not yet implemented!!!');
             for ip = 1:obj.p
@@ -311,20 +325,32 @@ function optimizeHyperParams(obj, method)
                 %       - Each output dimension is a separate GP and must 
                 %       be optimized separately.
                 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
-                % d_GP.optimizeHyperParams
-                % obj.optimizeHyperParams_costfun( [obj.var_f; diag(obj.M)])
-
-                nvars = 1 + obj.n;
+                
+                % set optimization problem
+                nvars = obj.n + 1 + 1;  % M, var_f, var_n
                 IntCon = [];
-                fun = @(vars) optimizeHyperParams_costfun(obj,ip,vars);
+                fun = @(vars) loglikelihood(obj,ip,vars);
+                nonlcon = [];
                 A = [];
                 b = [];
                 Aeq = [];
                 beq = [];
-                lb = [ 1e-4 ; ones(obj.n,1)*1e-4 ];
-                ub = [ 1e+4 ; ones(obj.n,1)*1e+4 ];
-                nonlcon = [];
+                
+                ub = [ 1e+2 * ones(obj.n,1);
+                       1e+2;
+                       1e+2 ];
+                lb = [ 1e-8 * ones(obj.n,1); 
+                       0*1e-8; 
+                       0*1e-8 ];
+                x0 = [ diag(obj.M(:,:,ip)); obj.var_f(ip); obj.var_n(ip); ];
+                
+                
+                % convert to log10 space
+                ub = log10(ub);
+                lb = log10(lb);
+                x0 = log10(x0);
 
+                % use genetic algorithm or interior-point-method
                 if strcmp(method, 'ga')
                     options = optimoptions('ga',...
                                            'ConstraintTolerance',1e-6,...
@@ -333,7 +359,6 @@ function optimizeHyperParams(obj, method)
                                            'UseParallel',false);
                     opt_vars = ga(fun,nvars,A,b,Aeq,beq,lb,ub,nonlcon,IntCon,options);
                 elseif strcmp(method,'fmincon')
-                    x0 = [obj.var_f(ip); diag(obj.M(:,:,ip))]; 
                     options = optimoptions('fmincon', ...
                                            'PlotFcn','optimplotfval',...
                                            'Display','iter');
@@ -342,52 +367,40 @@ function optimizeHyperParams(obj, method)
                     error('Method %s not implemented, please choose an existing method',method);
                 end
 
-                obj.var_f(ip) = opt_vars(1);
-                obj.M(:,:,ip) = diag( opt_vars(2:end) );
-
-
-                % update matrices alpha and L
-                obj.isOutdated = true;
-                obj.updateModel();
+                % retrieve optimal results to absolute scale
+                obj.M(:,:,ip) = diag( 10.^opt_vars(1:end-2) );
+                obj.var_f(ip) = 10.^opt_vars(end-1);
+                obj.var_n(ip) = 10.^opt_vars(end);
             end
 
+            % update matrices alpha and L
+            obj.updateModel();
+            
             warning('on', 'MATLAB:nearlySingularMatrix')
             warning('on', 'MATLAB:singularMatrix')
         end
 
-        function cost = optimizeHyperParams_costfun(obj,outdim,vars)
-            var_f = vars(1);
-            M = diag(vars(2:end));
-            Y = obj.Y(:,outdim);
-            var_n = obj.var_n(outdim);
+        function logL = loglikelihood(obj,outdim,vars)
+        %------------------------------------------------------------------
+        % calculate the log likelihood: p(Y|X,theta)
+        %
+        %   , where theta are the hyperparameters and (X,Y) the dictionary
+        %------------------------------------------------------------------
 
+            % M     = diag(vars(1:end-2));
+            % var_f = vars(end-1);
+            % var_n = vars(end);
+            
+            % variables in log10 space
+            M     = diag(10.^vars(1:end-2));
+            var_f = 10.^vars(end-1);
+            var_n = 10.^vars(end); % var_n = obj.var_n(outdim);
+                        
+            Y = obj.Y(:,outdim);
             K  = var_f * exp( -0.5 * pdist2(obj.X',obj.X','mahalanobis',M).^2 );
             Ky = K + var_n*eye(obj.N);
 
-            cost = -0.5* Y' * Ky * Y -0.5* logdet(Ky) - obj.n/2 * log(2*pi);
-        end
-        
-        function cost = optimizeHyperParams_gradfun(obj,outdim,vars)
-            
-            var_f = vars(1);
-            M = diag(vars(2:end));
-                
-            K = var_f * exp( -0.5 * pdist2(obj.X',obj.X','mahalanobis',M).^2 );
-            
-            alpha = K \ obj.Y(:,outdim);
-            
-            dK_var_f = K*2/sqrt(var_f);
-            
-            dK_l = zeros(obj.N,obj.N);
-            for i=1:obj.N
-                for j=1:obj.N
-                    ksi = obj.X(:,i) - obj.X(:,j);
-                    % dK_l(i,j) = sum( K(i,j)*0.5*inv(M)*ksi*ksi'*inv(M) * log(diag(M)) );
-                    dK_l(i,j) = sum( K(i,j)*0.5*M\ksi*ksi'/M * log(diag(M)) );
-                end
-            end            
-            % cost = 0.5 * trace( (alpha*alpha' - inv(K)) * ( dK_var_f + dK_l ) );
-            cost = 0.5 * trace( alpha*alpha'*(dK_var_f+dK_l) - K\(dK_var_f+dK_l) );
+            logL = -(-0.5*Y'/Ky*Y -0.5*logdet(Ky) -obj.n/2*log(2*pi));
         end
 
 
@@ -433,7 +446,7 @@ function plot2d(obj, truthfun, varargin)
                     mutrue = truthfun([X1(i,j);X2(i,j)]);
                     Ytrue(i,j) = mutrue(pi); % select desired output dim
                     % evaluate GP model
-                    [mu,var] = obj.eval([X1(i,j);X2(i,j)]);
+                    [mu,var] = obj.eval([X1(i,j);X2(i,j)],true);
                     if var < 0
                         error('GP obtained a negative variance... aborting');
                     end
@@ -512,3 +525,34 @@ function plot1d(obj, truthfun, varargin)
     end
 end
 
+
+
+
+
+
+
+
+
+
+% function cost = optimizeHyperParams_gradfun(obj,outdim,vars)
+% 
+%     var_f = vars(1);
+%     M = diag(vars(2:end));
+% 
+%     K = var_f * exp( -0.5 * pdist2(obj.X',obj.X','mahalanobis',M).^2 );
+% 
+%     alpha = K \ obj.Y(:,outdim);
+% 
+%     dK_var_f = K*2/sqrt(var_f);
+% 
+%     dK_l = zeros(obj.N,obj.N);
+%     for i=1:obj.N
+%         for j=1:obj.N
+%             ksi = obj.X(:,i) - obj.X(:,j);
+%             % dK_l(i,j) = sum( K(i,j)*0.5*inv(M)*ksi*ksi'*inv(M) * log(diag(M)) );
+%             dK_l(i,j) = sum( K(i,j)*0.5*M\ksi*ksi'/M * log(diag(M)) );
+%         end
+%     end            
+%     % cost = 0.5 * trace( (alpha*alpha' - inv(K)) * ( dK_var_f + dK_l ) );
+%     cost = 0.5 * trace( alpha*alpha'*(dK_var_f+dK_l) - K\(dK_var_f+dK_l) );
+% end