-
项目概述:用户在预定酒店后并不一定会最终入住,为了深入了解用户的流失特性,对造成预订用户流失的关键因素进行挖掘,并深入刻画用户画像及行为偏好,针对不同的用户提出针对性的营销建议。
-
项目流程:
1)基于pandas、numpy、matplotlib等进行EDA探索,对各项特征呈现出的分布特性进行描述性统计,并对异常值和缺失值进行数据处理;
2)对原始49个特征进行相关性分析,并基于实际业务理解采用PCA进行特征降维处理,对降维后的41个特征进行正态化和标准化;
3)采用LR、naive_bayes、SVM、DecisionTree和RandomForest进行流失预测,并对各类模型的混淆矩阵和ROC曲线进行对比分析;
4)基于RFM理论,将距离上次下单的时长、用户年订单数、用户消费水平分别作为R、F、M的值对各类用户占比进行分析,采用k-means对用户进行聚类分析,根据聚类结果对各类用户的典型特征进行分析并刻画用户画像。
-
项目结论:RandomForest模型能够实现精确率90%和召回率90%,AUC值0.901,“客户价值”、“预定日期距离入住日期时长”、“价格敏感指数”等是影响流失的关键特征;根据聚类结果,低价值用户占比较高,其次是高价值用户和中等价值用户,低价值用户虽然群体庞大,但是营销成本较高,建议营销方式以推送信息为主,内容主要为减价、酬宾等优惠信息。
-
项目概述:用户在进行金融借贷后将有可能会违约,利用用户的的信用信息和借贷信息,来对用户未来违约的可能进行预测,以此帮助借贷者做出最佳的财务决策。
-
项目流程:
1)对基本数据情况和数据平衡性进行探索,利用直方图、箱型图和热力图等对数据特征统计,实现数据EDA;
2)进行特征工程处理,对异常数据和缺失数据进行众数、中位数或分位数处理,构造去除共线性函数,对高度相关的几个特征值进行为新特征;
3)构造LR、RandomForest、XGBOOST预测模型管道,以roc_auc作为评估函数进行模型交叉验证,利用表现最好的模型对测试集进行预测。
-
项目结论:XGBOOST在训练集的交叉验证得分为0.8655,“可用信贷额度比例”、“年龄”,、“负债率”等是用户是否会违约的关键特征。
-
项目概述:对华盛顿区域某一时段的自行车租赁数量进行预测,帮助经营户主根据不同的天气状况、日期特性等对区域自行车进行合理安排。
-
项目流程:
1)对数据进行EDA探索,对缺失数据和异常数据进行数据清洗和转化;
2)开展特征工程,将主要的时间性特征和气候性特征进行关联性分析和可视化分析,对特征间表现出的多重共线性和偏态分布进行特征工程处理;
3)以均方根对数误差RMSLE作为损失函数,采用RandomForest、LR、GDBT进行模型预测。
-
项目结论:GDBT能取得较好的预测效果,RMSLE为0.1908。
-
项目概述:文本分类是NLP的典型应用场景,利用TEXT-RNN深度学习神经网络模型对文本进行分别识别。
-
项目流程:
1)对文本进行预处理,去除冗余标签已经无意义停用词;
2)对文本进行数值化处理,创建vocabulary_list和content_list,并通过word2id_dict实现文本数值化;
3)利用tensorflow构建GRU循环神经网络,以交叉熵为损失函数优化模型参量,实现高精度分类。
-
项目结论:模型实现总体精度0.88,召回率0.882,F1-score0.875,其中针对房产类的样本能够实现最高F1-score0.997。
-
项目概述:银行通常会面向广大的客户群体进行营销,但是业务成功营销的概率却往往不高。通过对目标群体、营销渠道、定价策略等维度进行分析,刻画客户群体肖像,并对营销是否会成功进行预测,帮助银行合理制定营销方案。
-
项目流程:
1)利用pandas、numpy对数据进行清洗和过滤,并对各项离散型和连续性特征进行EDA探索,了解数据整体分布情况;
2)对17项关键特征进行多重探究分析,通过矩阵相关性分析,挖掘影响用户营销结果的关键因素;
3)采用DecisionTree、naive_bayes、SVM和Neural Network进行营销结果预测,利用混淆矩阵对比模型精度并筛选最优模型。
-
项目结论:DecisionTree模型能够实现精确率82%和召回率81%,模型效果更好;从营销结果来看,20岁以下或60岁以上的群体似乎更容易营销成功,因此可以考虑将他们作为重点的营销对象;随着通话时间越长,客户的营销成功率明显增加,因此可以将通话时间高于平均值的客户设为目标群体。