first commit

juanerolon · juanerolon · commit 697f5d323f81 · 2017-08-13T17:47:14.000-05:00
diff --git a/feature_importance.py b/feature_importance.py
@@ -0,0 +1,49 @@
+
+import numpy as np
+import pandas as pd
+import matplotlib.pyplot as plt
+
+from sklearn.preprocessing import MinMaxScaler
+from sklearn.cross_validation import train_test_split
+from sklearn.metrics import fbeta_score
+from sklearn.metrics import accuracy_score
+from sklearn.ensemble import GradientBoostingClassifier
+from sklearn.model_selection import GridSearchCV
+from sklearn.metrics import make_scorer
+
+def nEnc(x):
+    if x =='>50K': return 1
+    else: return 0
+
+data = pd.read_csv("census.csv")
+income_raw = data['income']
+
+features_raw = data.drop('income', axis = 1)
+
+skewed = ['capital-gain', 'capital-loss']
+features_log_transformed = pd.DataFrame(data=features_raw)
+features_log_transformed[skewed] = features_raw[skewed].apply(lambda x: np.log(x + 1))
+scaler = MinMaxScaler() # default=(0, 1)
+numerical = ['age', 'education-num', 'capital-gain', 'capital-loss', 'hours-per-week']
+features_log_minmax_transform = pd.DataFrame(data = features_log_transformed)
+features_log_minmax_transform[numerical] = scaler.fit_transform(features_log_transformed[numerical])
+features_final = pd.get_dummies(features_log_minmax_transform)
+income = income_raw.apply(nEnc)
+X_train, X_test, y_train, y_test = train_test_split(features_final,income,test_size = 0.2,random_state = 0)
+
+print "Training set has {} samples.".format(X_train.shape[0])
+print "Testing set has {} samples.".format(X_test.shape[0])
+
+clf = GradientBoostingClassifier(random_state=30)
+parameters = parameters = {'max_depth': [4,6, 8, 10], 'n_estimators': [200,300]}
+scorer = make_scorer(fbeta_score,beta=0.5)
+grid_obj = GridSearchCV(clf, parameters,scoring=scorer)
+grid_fit = grid_obj.fit(X_train,y_train)
+best_clf = grid_fit.best_estimator_
+predictions = (clf.fit(X_train, y_train)).predict(X_test)
+best_predictions = best_clf.predict(X_test)
+best_parameters = best_clf.best_params_
+
+print "Best grid search parameters: {}".format(best_parameters)
+print "Final accuracy score on the testing data: {:.4f}".format(accuracy_score(y_test, best_predictions))
+print "Final F-score on the testing data: {:.4f}".format(fbeta_score(y_test, best_predictions, beta = 0.5))