文本挖掘应用——高端车潜在用户的发现(基于线下线上数据的研究)



《文本挖掘应用——高端车潜在用户的发现(基于线下线上数据的研究)》由会员分享,可在线阅读,更多相关《文本挖掘应用——高端车潜在用户的发现(基于线下线上数据的研究)(44页珍藏版)》请在文档大全上搜索。
1、 高端车潜在用户的发现 基于线下线上数据的研究PPT模板下载: 行业PPT模板: 节日PPT模板: PPT素材下载: PPT图表下载: 优秀PPT下载: PPT教程: Word教程: Excel教程: 资料下载: PPT课件下载: 范文下载: 试卷下载: 教案下载: 目录概述01理论基础02线下数据的研究0304线上数据的研究目录概述01理论基础02线下数据的研究0304线上数据的研究概述全文思路目录概述01理论基础02线下数据的研究0304线上数据的研究理论基础数据挖掘理论基础逻辑回归分析 逻辑回归用于估计某事物的可能性。 逻辑回归模型是一个定性响应变量(因变量Y)的预测模型。 逻辑模型中的
2、定性响应变量其实又是一个二值变量(binary)。 = (/ )=+ +理论基础决策树理论基础关联规则 支持度和信任度是两个最基本和最重要的衡量规则强弱的指标。X-Y的支持度:指的是集合T中包含XY事件的百分比,即P(XY)的估计。 如果支持度很小,那么就可以说该规则的发生并没有必然性。 X-Y的置信度:指X和Y同时发生的事件数量占所有X事件发生数量的百分比。即P(Y|X)的估计。 置信度决定了关联规则的可预测度。如果一条关联规则的置信度很低,那么从X就很难可靠地推出Y。目录概述01理论基础02线下数据的研究0304线上数据的研究线下数据的研究基于逻辑回归模型的研究返回返回理论假设 用户购买高
3、端车行为的影响因素: 购车方式 用户的性别 预期保险费用 预期装设费用 已有车品牌 收入情况线下数据的研究基于逻辑回归模型的研究理论假设 对影响用户购买高端车行为的因素提出的假设: H1:若用户曾经使用全款方式来购车,那么其购买高端车的概率会低; H2:男性用户相比于女性用户,其购买高端车的概率会高;H3:用户的预期保险费用越高,那么其购买高端车的概率越大;H4:用户的预期装设费用越高,那么其购买高端车的概率越大; H5:若用户已拥有宝马品牌的车,那么相比于没有车或没有宝马车的用户,其购买高端车的概率会高。 H6:若用户的收入越高,那么其购买高端车的概率会越高。 线下数据的研究基于逻辑回归模型
4、的研究数据准备1.数据来源“来自国内某汽车经销商后台的ERP系统,总数据量超过50万条线下数据的研究基于逻辑回归模型的研究数据准备2.数据预处理根据客户id、订单id、产品id等主键将上述5张表连接成一张总表(“宽表”)缺失值处理3.定义高端车用户本文将选择汽车的价格作为高端车的定义标准,高于60万元的汽车将被标注为高端车。(在“宽表”后面添加因变量字段“是否购买高端车”,取值为“是”和“否”)线下数据的研究基于逻辑回归模型的研究数据准备4.变量设置因变量Y为 “是否购买高端车”(对字符型变量进行哑变量的变换): “1”-“是”;“0”-“否” 。自变量X是“宽表”中的任意字段,比如客户性别、
5、年龄、购买意向、订单详情等。线下数据的研究基于逻辑回归模型的研究模型的构建与实证1.公式解释线下数据的研究基于逻辑回归模型的研究模型的构建与实证1.公式解释找出那些较大的影响因素以及其系数。通过反函数将得出用户购买高端车的概率P:线下数据的研究基于逻辑回归模型的研究模型的构建与实证2.模型结果逐步回归:每次都选择对因变量影响最显著的自变量进入模型,同时对所有已经被选择进入模型的变量进行逐一检查,将不显著的自变量剔除。线下数据的研究基于逻辑回归模型的研究模型的构建与实证2.模型结果-2.8818线下数据的研究基于逻辑回归模型的研究3.结果讨论C1:用户如果使用全款方式购车,那么其购买高端车的概率
6、将较小,如果使用分期付款方式购车,那么其购买高端车的概率会比较大。这个结论验证了假设H1。 C2:用户如果为男性,那么其购买高端车的概率会高一点。这个结论验证了假设H2。C3:用户预期保险费用越高,其购买高端车的概率越大。这个结论验证了假设H3。C4:用户预期装设费用越高,其购买高端车的概率越大。这个结论验证了假设H4。C5:用户如果已经拥有宝马系列的车,那么其再次购车会选择高端车的概率会较大。这个结论验证了假设H5。C6:用户收入水平最终没有被选入模型,所以无法验证假设H6。线下数据的研究基于决策树模型的研究数据准备1.数据来源:在Logistic回归模型中使用的数据是同一组数据2.数据预处
7、理(与Logistic回归模型中基本相同)第一,决策树模型不需要对字符型变量进行哑变量的变换。第二,决策树模型不需要对缺失值进行填充、删除等操作。线下数据的研究基于决策树模型的研究模型的构建与实证1.决策树停止生长问题的确定(两种方法)“错误率”指标法:即选择最低验证集错误率的时候,同时叶子节点最少时的叶子数量作为最终模型的叶子节点数量。同时参考了25%渗透率下的响应率。选择7个叶子作为决策树叶子节点数!线下数据的研究基于决策树模型的研究模型的构建与实证2.模型结果线下数据的研究基于决策树模型的研究规则解释与分析1.规则解释规则一:规则二:线下数据的研究基于决策树模型的研究1.规则解释规则三: