Add sklearn example for cancer dataset

tobegit3hub · tobegit3hub · commit 2a03979b1139 · 2017-04-27T10:58:56.000+08:00
diff --git a/data/README.md b/data/README.md
@@ -2,8 +2,12 @@
 
 This is the general tool to convert CSV file to TFRecords file.
 
+## Cancer
+
 The example data in [cancer.csv](cancer.csv) looks like these.
 
+From [](https://github.com/mark-watson/cancer-deep-learning-model)
+
 ```
 3,7,7,4,4,9,4,8,1,1
 1,1,1,1,2,1,2,1,1,0
diff --git a/data/a8a_test.libsvm b/data/a8a_test.libsvm
@@ -0,0 +1,2 @@
+0 5:1 6:1 17:1 21:1 35:1 40:1 53:1 63:1 71:1 73:1 74:1 76:1 80:1 83:1
+1 5:1 7:1 17:1 22:1 36:1 40:1 51:1 63:1 67:1 73:1 74:1 76:1 81:1 83:1
diff --git a/data/cancer_test.csv b/data/cancer_test.csv
@@ -0,0 +1,4 @@
+1,2,3,4,5,6,7,8,9,1
+1,1,1,1,1,1,1,1,1,1
+9,8,7,6,5,4,3,2,1,1
+9,9,9,9,9,9,9,9,9,1
diff --git a/setup.py b/setup.py
@@ -0,0 +1,2 @@
+import setuptools
+setuptools.setup(name='trainer', version='1.0', packages=['trainer'])
diff --git a/sklearn_exmaples/cancer_classifier.py b/sklearn_exmaples/cancer_classifier.py
@@ -0,0 +1,60 @@
+#!/usr/bin/env python
+
+import sys
+import numpy as np
+from sklearn import metrics
+from sklearn.svm import SVC
+from sklearn.neural_network import MLPClassifier
+from sklearn.neighbors import KNeighborsClassifier
+from sklearn.tree import DecisionTreeClassifier
+from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier
+from sklearn.naive_bayes import GaussianNB
+from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
+from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis
+
+FEATURE_NUMBER = 9
+
+# Read train and test data
+with open("../data/cancer_train.csv", "r") as f:
+  train_dataset = np.loadtxt(f, delimiter=",")
+  train_labels = train_dataset[:, FEATURE_NUMBER]
+  train_features = train_dataset[:, 0:FEATURE_NUMBER]
+
+with open("../data/cancer_test.csv", "r") as f:
+  test_dataset = np.loadtxt(f, delimiter=",")
+  test_labels = test_dataset[:, FEATURE_NUMBER]
+  test_features = test_dataset[:, 0:FEATURE_NUMBER]
+
+# Define the model
+classifiers = [
+  DecisionTreeClassifier(max_depth=5),
+  MLPClassifier(algorithm='sgd', alpha=1e-5, hidden_layer_sizes=(5, 2), random_state=1, learning_rate_init=0.001, batch_size=64, max_iter=100, verbose=False),
+  MLPClassifier(algorithm='l-bfgs', alpha=1e-5, hidden_layer_sizes=(5, 2), random_state=1),
+  MLPClassifier(algorithm='adam', alpha=1e-5, hidden_layer_sizes=(5, 2), random_state=1),
+  KNeighborsClassifier(2),
+  SVC(kernel="linear", C=0.025),
+  SVC(gamma=2, C=1),
+  RandomForestClassifier(max_depth=5, n_estimators=10, max_features=1),
+  AdaBoostClassifier(),
+  GaussianNB(),
+  LinearDiscriminantAnalysis(),
+  QuadraticDiscriminantAnalysis()]
+
+if len(sys.argv) > 1:
+  classifier_index = int(sys.argv[1])
+else:
+  classifier_index = 0
+classifier = classifiers[classifier_index]
+print("Use the classifier: {}".format(classifier))
+
+# Train the model
+print("Start to train")
+model = classifier.fit(train_features, train_labels)
+
+print("Start to validate")
+predict_labels = model.predict(test_features)
+auc = metrics.roc_auc_score(test_labels, predict_labels)
+accuracy = metrics.accuracy_score(test_labels, predict_labels)
+
+# Print the metrics
+print("Accuracy: {}, acu: {}".format(accuracy, auc))
diff --git a/trainer/__init__.py b/trainer/__init__.py

Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,2 @@`
	`1`	`+0 5:1 6:1 17:1 21:1 35:1 40:1 53:1 63:1 71:1 73:1 74:1 76:1 80:1 83:1`
	`2`	`+1 5:1 7:1 17:1 22:1 36:1 40:1 51:1 63:1 67:1 73:1 74:1 76:1 81:1 83:1`
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,2 @@`
	`1`	`+import setuptools`
	`2`	`+setuptools.setup(name='trainer', version='1.0', packages=['trainer'])`