Cleaned up betaVIX and applied override

chenandrewy · chenandrewy · commit fd9f4d85b196 · 2025-09-29T15:34:22.000-04:00
diff --git a/Signals/pyCode/DataDownloads/VIX.py b/Signals/pyCode/DataDownloads/VIX.py
@@ -12,100 +12,71 @@
 """
 
 import os
+
 import pandas as pd
-import numpy as np
 import requests
 from dotenv import load_dotenv
-import sys
-import os
-sys.path.insert(0, os.path.join(os.path.dirname(__file__), '..'))
-from config import MAX_ROWS_DL
+
+FRED_URL = "https://api.stlouisfed.org/fred/series/observations"
+OUTPUT_PATH = "../pyData/Intermediate/d_vix.parquet"
+
+print("=" * 60, flush=True)
+print("VIX.py - FRED Volatility Series", flush=True)
+print("=" * 60, flush=True)
 
 load_dotenv()
+print("Environment variables loaded.", flush=True)
 
 
 def download_fred_series(series_id, api_key):
-    # Set up FRED API request parameters
-    url = "https://api.stlouisfed.org/fred/series/observations"
+    """Pull a single FRED series as a tidy DataFrame."""
     params = {
-        'series_id': series_id,
-        'api_key': api_key,
-        'file_type': 'json',
-        'observation_start': '1900-01-01'
+        "series_id": series_id,
+        "api_key": api_key,
+        "file_type": "json",
+        "observation_start": "1900-01-01",
     }
-
-    print(f"Downloading {series_id}...")
-    response = requests.get(url, params=params, timeout=30)
+    response = requests.get(FRED_URL, params=params, timeout=30)
     response.raise_for_status()
-    data = response.json()
-
-    # Process successful response
-    df = pd.DataFrame(data['observations'])
-
-    # Clean and format the data
-    df['date'] = pd.to_datetime(df['date'])
-    df['value'] = pd.to_numeric(df['value'], errors='coerce')
-    df = df[['date', 'value']]
-    df.columns = ['date', series_id]
-    print(f"Successfully downloaded {len(df)} observations")
-    return df
-
-
-print("Downloading VIX data from FRED...")
-
-# Get FRED API key from environment
-fred_api_key = os.getenv("FRED_API_KEY")
-
-# Download both VIX series
-vxocls_data = download_fred_series('VXOCLS', fred_api_key)  # VXO (older series)
-vixcls_data = download_fred_series('VIXCLS', fred_api_key)  # VIX (current series)
-
-# Merge the two series
-vix_data = pd.merge(vxocls_data, vixcls_data, on='date', how='outer')
-vix_data = vix_data.sort_values('date').reset_index(drop=True)
-
-# Create combined VIX series (equivalent to Stata logic)
-cutoff_date = pd.to_datetime('2021-09-23')
-vix_data['vix'] = vix_data['VXOCLS']
-
-# Fill with VIXCLS for missing VXOCLS values after cutoff date
-post_cutoff = vix_data['date'] >= cutoff_date
-missing_vxo = vix_data['VXOCLS'].isna()
-fill_mask = post_cutoff & missing_vxo
-vix_data.loc[fill_mask, 'vix'] = vix_data.loc[fill_mask, 'VIXCLS']
-
-# Keep only necessary columns and rename date first
-final_data = vix_data[['date', 'vix']].copy()
-final_data = final_data.rename(columns={'date': 'time_d'})
-
-# Apply precision control to match Stata format
-final_data['vix'] = final_data['vix'].astype('float32')
-
-# Calculate daily change in VIX (equivalent to gen dVIX = vix - l.vix)
-final_data['dVIX'] = final_data['vix'].diff().astype('float32')
-
-# Apply row limit for debugging if configured
-if MAX_ROWS_DL > 0:
-    final_data = final_data.head(MAX_ROWS_DL)
-    print(f"DEBUG MODE: Limited to {MAX_ROWS_DL} rows")
-
-# Save the data
-final_data.to_parquet("../pyData/Intermediate/d_vix.parquet")
-
-# Print summary information
-print(f"VIX data saved with {len(final_data)} records")
-date_min = final_data['time_d'].min().strftime('%Y-%m-%d')
-date_max = final_data['time_d'].max().strftime('%Y-%m-%d')
-print(f"Date range: {date_min} to {date_max}")
-
-print("\nSample data:")
-print(final_data.head())
-
-print("\nVIX summary:")
-print(f"Total records: {len(final_data)}")
-print(f"Missing VIX values: {final_data['vix'].isna().sum()}")
-print(f"Missing dVIX values: {final_data['dVIX'].isna().sum()}")
-print(f"Mean: {final_data['vix'].mean():.2f}")
-print(f"Std: {final_data['vix'].std():.2f}")
-print(f"Min: {final_data['vix'].min():.2f}")
-print(f"Max: {final_data['vix'].max():.2f}")
+    observations = response.json()["observations"]
+
+    # Build DataFrame with parsed dates and numeric values for the requested series
+    df = pd.DataFrame(observations)
+    df["date"] = pd.to_datetime(df["date"])
+    df["value"] = pd.to_numeric(df["value"], errors="coerce")
+    return df.rename(columns={"value": series_id})[["date", series_id]]
+
+
+print("Downloading VIX data from FRED...", flush=True)
+api_key = os.getenv("FRED_API_KEY")
+
+if not api_key:
+    # Fail fast so the user knows credentials are missing before making requests
+    raise ValueError("FRED_API_KEY not found in environment variables")
+
+vxocls = download_fred_series("VXOCLS", api_key)
+vixcls = download_fred_series("VIXCLS", api_key)
+
+print(f"Downloaded {len(vxocls)} VXO observations and {len(vixcls)} VIX observations.", flush=True)
+
+cutoff = pd.Timestamp("2021-09-23")
+# Merge both series and take VXO up to the cutoff, VIX afterwards to build a continuous history
+vix_data = vxocls.merge(vixcls, on="date", how="outer").sort_values("date")
+
+vix_data["vix"] = vix_data["VXOCLS"]
+fill_mask = (vix_data["date"] >= cutoff) & vix_data["VXOCLS"].isna()
+vix_data.loc[fill_mask, "vix"] = vix_data.loc[fill_mask, "VIXCLS"]
+
+# Compute daily changes for the blended series and persist to parquet
+final_data = vix_data[["date", "vix"]].rename(columns={"date": "time_d"})
+final_data["vix"] = final_data["vix"].astype("float32")
+final_data["dVIX"] = final_data["vix"].diff().astype("float32")
+final_data.to_parquet(OUTPUT_PATH)
+
+date_min = final_data["time_d"].min().date()
+date_max = final_data["time_d"].max().date()
+print(f"Saved {len(final_data)} rows to {OUTPUT_PATH}", flush=True)
+print(f"Date range: {date_min} to {date_max}", flush=True)
+print("=" * 60, flush=True)
+print("VIX.py completed successfully", flush=True)
+print("=" * 60, flush=True)
diff --git a/Signals/pyCode/Predictors/ZZ2_betaVIX.py b/Signals/pyCode/Predictors/ZZ2_betaVIX.py
@@ -14,44 +14,50 @@
     - betaVIX = coefficient on daily change in VIX from 1-month rolling regression (20-day window, min 15 obs)
 """
 
+import os
+import sys
+
+import pandas as pd
 import polars as pl
 import polars_ols as pls  # Registers .least_squares namespace
-import sys
-import os
 
 sys.path.insert(0, os.path.join(os.path.dirname(__file__), ".."))
 from utils.save_standardized import save_predictor
 
-print("Starting ZZ2_betaVIX.py...")
-
-# Data load
-print("Loading data...")
-daily_crsp = pl.read_parquet("../pyData/Intermediate/dailyCRSP.parquet")
-daily_ff = pl.read_parquet("../pyData/Intermediate/dailyFF.parquet")
-d_vix = pl.read_parquet("../pyData/Intermediate/d_vix.parquet")
-
-# Select required columns
-df = daily_crsp.select(["permno", "time_d", "ret"])
-
-# Merge with FF data
-df = df.join(daily_ff.select(["time_d", "rf", "mktrf"]), on="time_d", how="inner")
 
-# Calculate excess return
-df = df.with_columns([(pl.col("ret") - pl.col("rf")).alias("ret_excess")])
+print("=" * 80)
+print("ZZ2_betaVIX.py")
+print("Generating betaVIX predictor from daily market and VIX data")
+print("=" * 80)
 
-# Merge with VIX data
-df = df.join(d_vix.select(["time_d", "dVIX"]), on="time_d", how="inner")
-
-# Critical: Sort data first (from Beta.py success pattern)
-df = df.sort(["permno", "time_d"])
+# DATA LOAD
+print("Loading daily datasets...")
+print("Loading dailyCRSP.parquet...")
+daily_crsp = pl.read_parquet("../pyData/Intermediate/dailyCRSP.parquet")
+print(f"Loaded daily CRSP observations: {len(daily_crsp):,}")
 
-# Set up time index for rolling window
-df = df.with_columns([pl.int_range(pl.len()).over("permno").alias("time_temp")])
+print("Loading dailyFF.parquet...")
+daily_ff = pl.read_parquet("../pyData/Intermediate/dailyFF.parquet")
+print(f"Loaded daily Fama-French observations: {len(daily_ff):,}")
 
-# Use direct polars-ols for rolling regression
-# Rolling regression of excess returns on market factor and VIX changes using 20-day window with minimum 15 observations
+print("Loading d_vix.parquet...")
+d_vix = pl.read_parquet("../pyData/Intermediate/d_vix.parquet")
+print(f"Loaded daily VIX change observations: {len(d_vix):,}")
+
+# MERGE DATA SOURCES
+print("Merging CRSP returns with factors and VIX changes...")
+df = (
+    daily_crsp.select(["permno", "time_d", "ret"])
+    .join(daily_ff.select(["time_d", "rf", "mktrf"]), on="time_d", how="inner")
+    .with_columns((pl.col("ret") - pl.col("rf")).alias("ret_excess"))
+    .join(d_vix.select(["time_d", "dVIX"]), on="time_d", how="inner")
+    .sort(["permno", "time_d"])
+)
+print(f"Combined daily panel observations: {len(df):,}")
+print(f"Unique permnos in panel: {df['permno'].n_unique():,}")
 
-# Sort is already done above
+# ROLLING REGRESSION
+print("Running rolling 20-day regressions (min 15 obs) per permno...")
 df = df.with_columns(
     pl.col("ret_excess")
     .least_squares.rolling_ols(
@@ -65,29 +71,36 @@
     )
     .over("permno")
     .alias("coef")
-).with_columns(
-    [
-        pl.col("coef").struct.field("const").alias("b_const"),
-        pl.col("coef").struct.field("mktrf").alias("b_mktrf"),
-        pl.col("coef").struct.field("dVIX").alias("b_dVIX"),
-    ]
+).with_columns(pl.col("coef").struct.field("dVIX").alias("betaVIX"))
+print("Extracted betaVIX coefficients from rolling regressions")
+
+# MONTHLY AGGREGATION
+print("Aggregating daily coefficients to month-end values...")
+monthly = (
+    df.drop("coef")
+    .with_columns(pl.col("time_d").dt.truncate("1mo").alias("time_avail_m"))
+    .sort(["permno", "time_avail_m", "time_d"])
+    .group_by(["permno", "time_avail_m"])
+    .agg(pl.col("betaVIX").drop_nulls().last().alias("betaVIX"))
+    .select(["permno", "time_avail_m", "betaVIX"])
 )
-
-# Extract betaVIX coefficient from dVIX regression term
-df = df.with_columns([pl.col("b_dVIX").alias("betaVIX")])
-
-# Convert to monthly and keep last observation per month
-df = df.with_columns([pl.col("time_d").dt.truncate("1mo").alias("time_avail_m")])
-
-# Keep last non-missing betaVIX per permno-month
-df = df.sort(["permno", "time_avail_m", "time_d"])
-df = df.group_by(["permno", "time_avail_m"]).agg(
-    [pl.col("betaVIX").drop_nulls().last().alias("betaVIX")]
-)
-
-# Select final data
-result = df.select(["permno", "time_avail_m", "betaVIX"])
-
-# Save predictor
-save_predictor(result, "betaVIX")
-print("ZZ2_betaVIX.py completed successfully")
+print(f"Monthly betaVIX rows: {len(monthly):,}")
+
+if len(monthly) > 0:
+    monthly_pd = monthly.to_pandas()
+    print("betaVIX summary stats:")
+    print(f"  Mean: {monthly_pd['betaVIX'].mean():.6f}")
+    print(f"  Std: {monthly_pd['betaVIX'].std():.6f}")
+    print(f"  Min: {monthly_pd['betaVIX'].min():.6f}")
+    print(f"  Max: {monthly_pd['betaVIX'].max():.6f}")
+
+    # SAVE OUTPUT
+    print("Saving betaVIX predictor...")
+    save_predictor(monthly_pd, "betaVIX")
+    print("betaVIX predictor saved")
+else:
+    print("No betaVIX values produced; skipping save")
+
+print("=" * 80)
+print("betaVIX pipeline complete")
+print("=" * 80)
diff --git a/Signals/pyCode/StataComparison/predictors_overrides.yaml b/Signals/pyCode/StataComparison/predictors_overrides.yaml