Update train.py

alexsuttonms · alexsuttonms · commit 759fb39e96d6 · 2022-03-19T12:55:27.000-07:00
diff --git a/train.py b/train.py
@@ -5,62 +5,60 @@
 import mlflow.azureml
 import seaborn as sns
 import argparse
+from lightgbm import LGBMClassifier
 
 from sklearn.model_selection import train_test_split
 from sklearn.pipeline import Pipeline
 from sklearn.linear_model import LogisticRegression
-from sklearn.preprocessing import StandardScaler, LabelEncoder
+from sklearn.preprocessing import StandardScaler, LabelEncoder, MaxAbsScaler
 from sklearn.metrics import accuracy_score, confusion_matrix, f1_score, precision_score, recall_score, roc_auc_score, roc_curve
 
-def split_dataset(X_raw, Y):
-    A = X_raw[['UniqueCarrier']]
-    X = X_raw.drop(labels=['UniqueCarrier'],axis = 1)
-    X = pd.get_dummies(X)
+import collections
+import shutil 
 
+# brute force delete local model directory if it exists
+shutil.rmtree('model', ignore_errors=True)
+
+
+
+def split_dataset(X, Y):
 
     le = LabelEncoder()
     Y = le.fit_transform(Y)
-
-    X_train, X_test, Y_train, Y_test, A_train, A_test = train_test_split(X_raw, 
+    X_train, X_test, Y_train, Y_test = train_test_split(X, 
                                                         Y, 
-                                                        A,
                                                         test_size = 0.2,
-                                                        random_state=123,
-                                                        stratify=Y)
+                                                        random_state=123)
 
-    # Work around indexing bug
-    X_train = X_train.reset_index(drop=True)
-    A_train = A_train.reset_index(drop=True)
-    X_test = X_test.reset_index(drop=True)
-    A_test = A_test.reset_index(drop=True)
 
-    return X_train, X_test, Y_train, Y_test, A_train, A_test 
+    return X_train, X_test, Y_train, Y_test
 
 def prepareDataset(df):
     Y = df['ArrDelay15'].values
     synth_df = df.drop(columns=['ArrDelay15'])
+    print(collections.Counter(Y))
     return synth_df, Y
 
 def analyze_model(clf, X_test, Y_test, preds):
-    with mlflow.start_run() as run:
         accuracy = accuracy_score(Y_test, preds)
-        print(f'Accuracy', np.float(accuracy))
-        mlflow.log_metric(f'Accuracy', np.float(accuracy))
+        print(f'Accuracy', float(accuracy))
+        mlflow.log_metric(f'Accuracy', float(accuracy))
 
         precision = precision_score(Y_test, preds, average="macro")
-        print(f'Precision', np.float(precision))
-        mlflow.log_metric(f'Precision', np.float(precision))
+        print(f'Precision', float(precision))
+        mlflow.log_metric(f'Precision', float(precision))
         
         recall = recall_score(Y_test, preds, average="macro")
-        print(f'Recall', np.float(recall))
-        mlflow.log_metric(f'Recall', np.float(recall))
+        print(f'Recall', float(recall))
+        mlflow.log_metric(f'Recall', float(recall))
         
         f1score = f1_score(Y_test, preds, average="macro")
-        print(f'F1 Score', np.float(f1score))
-        mlflow.log_metric(f'F1 Score', np.float(f1score))
-        
-        mlflow.sklearn.log_model(clf, artifact_path="outputs", registered_model_name="fd_model_mlflow_proj")
+        print(f'F1 Score', float(f1score))
+        mlflow.log_metric(f'F1 Score', float(f1score))
         
+        mlflow.lightgbm.log_model(clf, artifact_path="outputs", registered_model_name="fd_model_mlflow_proj")
+        mlflow.lightgbm.save_model(clf, path="model")
+
         class_names = clf.classes_
         fig, ax = plt.subplots()
         tick_marks = np.arange(len(class_names))
@@ -91,25 +89,31 @@ def analyze_model(clf, X_test, Y_test, preds):
     
     parser = argparse.ArgumentParser()
 
-    parser.add_argument("--data", type=str, help="input data path")
+    parser.add_argument("--data", type=str, help="input data path", default=".")
 
     args = parser.parse_args()
     print(args.data)
 
     data = pd.read_csv(args.data+'/flightdelayweather_ds_clean.csv')
 
-    mlflow.sklearn.autolog()
+    # mlflow.sklearn.autolog()
 
-    synth_df, Y = prepareDataset(data)
+    X, y = prepareDataset(data)
 
     #Split dataset
-    X_train, X_test, Y_train, Y_test, A_train, A_test = split_dataset(synth_df, Y)
+    X_train, X_test, y_train, y_test = split_dataset(X, y)
+    print(X_train.dtypes)
+    print(y_train)
 
     # Setup scikit-learn pipeline
-    numeric_transformer = Pipeline(steps=[('scaler', StandardScaler())])
+    
+    clf = LGBMClassifier(learning_rate=0.24945760279230222, max_bin=511,
+               min_child_samples=29, n_estimators=80, num_leaves=21,
+               reg_alpha=0.0020334241010261135, reg_lambda=0.04344763354508823, metric='auc', is_unbalance='true')
+
 
-    clf = Pipeline(steps=[('classifier', LogisticRegression(solver='liblinear', fit_intercept=True))])
+# Analyze the model
 
-    model = clf.fit(X_train, Y_train)
-    preds = clf.predict(X_test)
-    analyze_model(clf, X_test, Y_test, preds)
+model = clf.fit(X_train, y_train)
+preds = model.predict(X_test)
+analyze_model(clf, X_test, y_test, preds)