README.md

arita37 · arita37 · commit 36b34480842f · 2021-02-03T10:01:24.000+09:00
diff --git a/README.md b/README.md
@@ -44,15 +44,12 @@ Preprocessors Check
     2) Update script        in   data/input/mydata/clean.py
        to load column names, basic profile...
 
-    3) Run  python clean.py profile   and check results
 
-
-    4) run  python clean.py train_test
+    3) run  python clean.py train_test
         which generates train and test data in :   
            data/input/mydata/train/features.parquet   target.parquet  (y label)        
            data/input/mydata/test/features.parquet    target.parquet  (y label)                
                 
-
     4) Copy Paste titanic_classifier.py  into  mydata_classifier.py
     
     5) Modify the script     mydata_classifier.py
@@ -73,59 +70,48 @@ Preprocessors Check
 
 ### List of preprocessor
 
-        prepro_sampler.pd_autoencoder
-        prepro_sampler.pd_col_genetic_transform
-        prepro_sampler.pd_colcat_encoder_generic
-        prepro_sampler.pd_filter_resample
-        prepro_sampler.pd_filter_rows
-
-
-        prepro.pd_autoencoder
-        prepro.pd_col_covariate_shift_adjustment
-        prepro.pd_col_genetic_transform
-        prepro.pd_colcat_bin
-        prepro.pd_colcat_encoder_generic
-        prepro.pd_colcat_minhash
-        prepro.pd_colcat_to_onehot
-        prepro.pd_colcross
-        prepro.pd_coldate
-        prepro.pd_colnum
-        prepro.pd_colnum_bin
-        prepro.pd_colnum_binto_onehot
-        prepro.pd_colnum_normalize
-        prepro.pd_colnum_quantile_norm
-        prepro.pd_coltext
-        prepro.pd_coltext_clean
-        prepro.pd_coltext_universal_google
-        prepro.pd_coltext_wordfreq
-        prepro.pd_coly
-        prepro.pd_filter_resample
-        prepro.pd_filter_rows
-        prepro.pd_label_clean
-
-
-        prepro_tseries.pd_ts_autoregressive
-        prepro_tseries.pd_ts_basic
-        prepro_tseries.pd_ts_date
-        prepro_tseries.pd_ts_detrend
-        prepro_tseries.pd_ts_generic
-        prepro_tseries.pd_ts_groupby
-        prepro_tseries.pd_ts_identity
-        prepro_tseries.pd_ts_lag
-        prepro_tseries.pd_ts_onehot
-        prepro_tseries.pd_ts_rolling
-        prepro_tseries.pd_ts_template
-
-
-
-
-
-
-
-
-
-
-
+        #### Data Over/Under sampling 
+        prepro_sampler.pd_autoencoder(df,col, pars)
+        prepro_sampler.pd_col_genetic_transform(df,col, pars)
+        prepro_sampler.pd_colcat_encoder_generic(df,col, pars)
+        prepro_sampler.pd_filter_resample(df,col, pars)
+        prepro_sampler.pd_filter_rows(df,col, pars)
+
+        #### Auto-Encoder
+        prepro.pd_autoencoder(df,col, pars)
+        prepro.pd_col_genetic_transform(df,col, pars)
+        prepro.pd_colcat_bin(df,col, pars)
+        prepro.pd_colcat_encoder_generic(df,col, pars)
+        prepro.pd_colcat_minhash(df,col, pars)
+        prepro.pd_colcat_to_onehot(df,col, pars)
+        prepro.pd_colcross(df,col, pars)
+        prepro.pd_coldate(df,col, pars)
+        prepro.pd_colnum(df,col, pars)
+        prepro.pd_colnum_bin(df,col, pars)
+        prepro.pd_colnum_binto_onehot(df,col, pars)
+        prepro.pd_colnum_normalize(df,col, pars)
+        prepro.pd_colnum_quantile_norm(df,col, pars)
+        prepro.pd_coltext(df,col, pars)
+        prepro.pd_coltext_clean(df,col, pars)
+        prepro.pd_coltext_universal_google(df,col, pars)
+        prepro.pd_coltext_wordfreq(df,col, pars)
+        prepro.pd_coly(df,col, pars)
+        prepro.pd_filter_resample(df,col, pars)
+        prepro.pd_filter_rows(df,col, pars)
+        prepro.pd_label_clean(df,col, pars)
+
+        #### Time Series 
+        prepro_tseries.pd_ts_autoregressive(df,col, pars)
+        prepro_tseries.pd_ts_basic(df,col, pars)
+        prepro_tseries.pd_ts_date(df,col, pars)
+        prepro_tseries.pd_ts_detrend(df,col, pars)
+        prepro_tseries.pd_ts_generic(df,col, pars)
+        prepro_tseries.pd_ts_groupby(df,col, pars)
+        prepro_tseries.pd_ts_identity(df,col, pars)
+        prepro_tseries.pd_ts_lag(df,col, pars)
+        prepro_tseries.pd_ts_onehot(df,col, pars)
+        prepro_tseries.pd_ts_rolling(df,col, pars)
+        prepro_tseries.pd_ts_template(df,col, pars)