数据化运营笔记
本文是阅读数据挖掘与数据化运营实战:思路、方法、技巧与应用一书所做的笔记,大部分内容是书中原文,非作者本身原创,在阅读此文时,注意区分不是作者思想,而是来源于卢辉的该书,当然,其中的观点欢迎在邮箱讨论。
概念观点
4P:产品为核心,产品重功能,强调卖点;价格随市场定位;重分销商的培养和销售网络的建设;促销(改变销售行为刺激消费者)
4C:以消费者为核心,满足消费者需要;得到消费者满足的成本;购买方便性;与用户沟通交流
NPNC:数据分析挖掘所支撑的目标响应概率为核心。。
数据化运营,海量数据的存储和分析的挖掘应用为核心,企业全员参与,精准、细分和精细特点的企业运营制度和战略。(各个部门,运营、销售、客服等等)
互联网下的数据化运营,量化、细分、预测;
全员参与数据化运营是现代企业的竞争核心
数据化运营,追求高运营效率,(传统的方法已到极限),提高竞争力
数据化运营的条件:数据来源、技术支持、需求、决策和持续支持
数据存储:先前传统的关系数据库,大型机+DB2解决方案:关系型数据库管理系统,(缺陷:处理需求时间延后;升级维护成本高;数据集中差,)
现今,分布式的服务器集群+分布式存储的海量存储器,
未来的数据仓库将是以流计算为主的实时数据仓库和分布式计算为主流的准实时数据仓库。
web1.0:传统媒体的电子化
web2.0:制造者与使用者的合一
web3.0:SNS模式,社会网络服务模式
技术
决策树
if,then一系列规则的反应;可以得到属性/特征的效用性,对结果的效用,起着多大的作用。所分析的数据样本先是集成为一个树根,然后,经过层层分支,最终有规则分成节点,每个节点代表一个结论。
CART:分类与回归树,每一层的划分都是基于所有自变量的检验和选择,采取的是基尼系数(Gini)等不纯度的指标。让树尽可能生长,再回头进行修剪(prune);树是二分的。缺失值会被填充。
ID3:迭代的二分器,自变量的挑选标准,基于信息增益选择高值来分裂(分割)属性。
C4.5:ID3的发展版本,采用信息增益率,信息增益度量倾向选择具有大量值的属性。
神经网络
数学算法模拟人脑,机器学习的代表算法,通过输入多个非线性模型以及不同模型之间的加权互联(加权在隐藏层实现),最后得到一个输出模型。知识和结果的不可解释性,缺点也是优势。
回归
多元线性回归,逻辑斯蒂回归
多元,描述一个因变量如何随着一批自变量的变化而变化,回归公式是因变量与自变量关系的数据反映。因变量的变化,系统性(自变量引起)和随机(残值,不能由自变量解释),最小二乘法估算自变量的系数。。
逻辑斯蒂回归,二分类常用此法。
预测因变量是介于0-1之间的概率。最大似然法估计自变量系数。
聚类
将观察对象按相似性和相异性进行不同群组的划分。
目标:组内相似度高,组间相似度低
划分的方法:给定m个对象的数据集D,希望生成的细分群体数m,常用的是K-means,大致思想:随机K个对象,(每个对象均代表一个组的初始均值或中心值),剩余的对象,计算其与各个组初始均值的距离,划分到最近(最相似)的小组;重新计算每个小组新的均值;这个过程循环,直到所有的对象在K组分布中找到离自己最近的组。(固定结果聚类的数目,计算相似度,相似度高聚合)
层次的方法:依次让最相似的数据对象两两合并,不断合并,形成一颗聚类树。
支持向量机
新的分类方法,结构风险小的原则,线性下,原空间中寻找两类样本的最优分类超平面;非线性下,将原训练数据映射到较高的维上,在新的维上,搜索最佳的分类超平面。
分类线H,那么离H最近的样本1且平行H的直线为H1,依次类推,样本2的为H2。那么H1和H2间的距离为分类间隔。最优分类线H,就是正确分开类别,并,分类间隔最大。在高维下,最优分类线既是最优分类面。那么距离超平面最近的一类向量称为支持向量。支持向量(唯一,最近)–>超平面(区分能力好),分类间隔最大。
数据分析项目类型
明确业务需求
1,目标客户的特征分析
原因:数据化运营第一步是找准目标客户、目标受众,业务场景可以是虚拟的,也可以是运营后的真实数据
2,目标客户的预测(响应、分类)模型
既是预测、分类模型,概率是核心。。。
3,活跃度的定义
根据特定业务场景和运营需求来定,两个基本点:
1,是该业务场景中最核心的行为因素
2,能有效回答业务需求的终极目标
主要技术:主成分分析,把多个核心行为指标转化为一个或少数几个主成分,最后综合成一个分数,数据标准化,不同指标有不同度量尺度,标准化后才能将数据进行比例缩放,落入到小的区间中。
4,用户路径的分析
用户在网页上流转的规律和特点,所用数据时web服务器中的日志数据,聚类得到不同群体-->群体-->不同群体分析的路径
5,交叉销售模型
为了捆绑消费,留住顾客,频繁模式。。关联规则
6,信息质量模型
信息质量。优化等。。。展示的数据对评判有力
7,商品的推荐
规则模型、协同过滤、基于内容的推荐模型
协同过滤算法
基于启发式和基于模型两种,启发式的是,基于用户(based-user),基于项目(based-item),
步骤:收集用户偏好数据—》寻找相似商品或用户—》产生推荐
显示数据,打分;隐式数据点击、购买、搜索等行为。
1,基于用户的协同过滤
根据用户历史行为信息,寻找与新用户相似的其他用户;再根据这些相似用户对其他项的评分预测当前新用户可能喜欢的项。
问题:相似度的度量,皮尔逊和余弦相似度
预测分值:均值+相似用户对其他项的评分值()
一个隐含的问题:求相似用户时,只求评过预测项i的那些用户。。
2,基于项目的协同过滤
算项目间的相似,然后,根据用户评分数据和计算的item的相似度矩阵,计算预测的分值。。
相似度的计算:皮尔逊、余弦。还有基于条件概率,
freq是只出现的频率。。。参数是指阻力因子,平衡控制流行和热门的item。。。。
预测值: ,,,S是与项i相似的项集。。。
跨团队的合作
数据挖掘和数据分析项目的价值,一定要落实到企业具体的数据化运营(业务低应用)实践中才可以得到检验和实现。
运营团队,使用数据指定措施的人,提交需求给数据分析团队;数据化运营来自业务需求,服务于业务需求;
业务员必备的技能:图表处理;细分用户;监控;数据库查询;分析与预测;
业务员具备可解释,可评判(特征)的作用;
分析师常犯的错误:
关键点:不能忽视业务领域。不光是技术,
矛盾点:数据分析师认为自己的分析到位,技术含量高;
业务部门认为数据分析师的工作对业务作用不大。
对于数据分析师来说,最大的问题是没有真正地深入了解业务。轻视业务所致。
1,轻视业务,
直接后果,数据分析师对业务逻辑,业务背景和业务知识缺乏起码得认识和了解;
表现形式,提出的分析报告或解决方案没有回答业务所希望的问题;没有提出切实的决策帮助;没有与业务所挂钩,只是单纯地数据展示;
假若数据分析师可以在分析报告中提出业务所需的提醒和帮助,那么业务部门的意义何在?业务部门只是来验证这些建议是否可行?
数据分析师深入了解业务,那么从何开始?业务部门的指导是最短的路径了。但是,后面的分析靠的是分析师了。所以,业务部门和分析师的职责应当分析师领导业务部门,给予分析师管辖业务更为合适。
2,技术万能,不能认为数据分析的技术可以解决一切问题,对数据挖掘技术期望过高。此外,数据分析和挖掘不能发现因果关系,只发现关联。数据是从海量中提取的,杂,乱,价值低,难完美得到所需;技术对数据要求是有规定的,现实中满足不了.应当先考虑分析需求的合理性,而不是采取哪种技术来解决所要分析的项目。
技术不是万能的根本原因:
1,数据本身不是切合,数据不是能回答需求。2,业务条件不配合,业务因素导致技术不能实现。
3,技术尖端,需求合理,应当考虑合理,高性价比的技术。
最贵的,不一定是最好的。思路、适用性比尖端性更好,性价比比单纯的技术性高低更有意义。越是尖端技术,越是对数据要求严格,
或者越是对业务的忽略;实现起来代价高。
4,建模与应用分开,
建好模型交付业务使用后,就完全不去关心了,即模型的开发与应用断层,责任在于数据分析师没有负责人地去监控后续的模型应用。
数据挖掘模型和分析报告的价值在于业务的应用环节,需要整个企业的部门配合,离不开数据分析师的跟踪和建议,模型也不是一次就成,
必须经过实际验证,修改再验证的过程。而修改离不开曾开发模型的那些数据分析和挖掘工程师们。
5,建模过程认为机器万能
建模的过程,一律依靠“分析软件”,代替徒手,对原始数据单纯地处理后交付给机器就完事了,这是对数据挖据技术不熟练,
数据挖掘项目完整应用案例演示
流程、模型只是一部分、业务技能
1,背景、业务分析需求的提出
从免费会员用户中提升付费用户。首先,免费会员按照活跃度划分为:高活跃度、中活跃度、低活跃度3类群体。
活跃度指标:在30天内,登录网站的次数,某核心入口30天以来的PV量) ---PV量:page view网页浏览量
高活跃度用户是成为付费用户的集中群体,转化的数量最多;但是,高活跃度用户流失率较大(从高活跃度跌落到中活跃度群体),
目标:提前锁定最可能流失的高活跃度用户;运营团队可以对这些“高危”用户群采取挽留措施,从而降低流失率和流失数量。
2,与业务方进行需求讨论
- 1,收集数据、指标,业务逻辑,业务方对需求的建议和看法
- 2,专业上,初步分析需求的可行性,验证合理,是否可以完成
3,制定需求分析框架和分析计划
- 1,需求转化为数据分析中的目标变量定义分析。这时的定义只是初步的,需再进行修改和完善.
- 2,思路描述,大致采取的办法,模型还是统计,
- 3,样本数据抽取规则。根据目标定义,选择合适时间段
- 4,潜在分析变量,大致罗列。这些变量描述问题,解释目标,关键是用于模型。(数据分析师和业务方共同商定的)
- 5,分析风险和应对策略。
- 6,实用价值和展望。
4,样本数据抽取、熟悉、清洗
- 1,抽取到的数据,字段可能缺失,可删除某些字段;
- 2,输入变量的相关性分析(相关性分析方法有哪些?),找出潜在共线性问题的相关输入变量,高度线性相关的只留一个。
- 3,数据仓库的数据回滚,会造成数据不合逻辑,或矛盾。(重新回滚,知道正确)
经处理:1,删除严重缺失数据—>2,数据仓库回滚明显矛盾的数据—>3,高度相关性部分数据的取舍。=》保留有意义的字段、变量、和对应的数据。
5,按计划搭建模型
- 1,进一步删选输入变量。最终的原则是:少而精。。。(变量的少提高稳定性,提高预测精度。原因何在??)
- 2,不同算法的比较和分析,效果、效率、稳定性。
- 3,经过比较,得到了一些核心输入变量,作为实地应用的参考。
(神经网络有更好的预测能力)
6, 模型的初步结论,提出新丝路和优化方案
7,优化方案重新提取数据并建模
8,分析报告及建议
- 1,预测效果和效率,最新数据的验证结果,
- 2,可作为运营参考的变量及相应的特征和规律
- 3,分层建议,
9,落地实用的应用方案和评估方案
10,跟踪评估效果
11,修正
12,总结和反馈
13,项目应用的总结与反思
数据挖掘建模的优化和限度
优化需要资源投入,性价比要平衡
1,遵循有效、适度原则
模型针对某一个业务,总有方法去不断完善和改进。改进的过程中,结论或应用的效果必须满足当初业务的需求,即有效性;
其次,在有效的基础上,不是一味追求结果的好,必须考虑投入的资源成本(硬性、人力等),性价比要合适。
数据挖掘建模,有丰富的经验项目积累,没有捷径可走,
2,优化的思路
2.1业务思路
针对业务上的优化是从根本上优化模型。需关注以下几点:
- 1,是否有更直观的规则、指标替代建模;有效变量(或衍生变量)直接可以反映最终的结果,就无需建模,或者可以减少建模的变量数;
- 2,有无业务逻辑(假设)在建模前期被忽视;除了本身数据,是否有其他方面的数据影响结果的判断,单纯的数字外,还有动作数据等
- 3,一旦建模好后,是否会发现有致命的错误在内,或者没有考虑关键的因素;当模型效果不好时,需考虑引进的变量是否真的能反应结果;或者还有一些关键的反应结果的变量没有引入到模型中。
- 4,目标变量是否稳定,时间会改变变量的意义,需判断是否稳定;
2.2建模的技术思路上优化
技术层面,思路:不同的建模算法、不同的抽样方法、细分群体建模.针对不同问题,算法不具有完全优越性,对比才能找到适合的算法;抽样,关注的是稀有事件;细分群体,对分析的对象进行一次筛选;细分建模,目的是抽取有代表性的数据,然后分别建模.2.3建模的技巧上
3,优化的限度
- 1,时效性,按时完成;2,性价比,投入和产出比
4,评价体系
针对的是二类问题(二元)
4.1准确度和精度(True False Positive Negative)(预测正确 )
TP,实际真,预测正,正确识别真
TN,实际假,预测负,正确识别假
FP,实际假,预测正,错误识别真
FN,实际真,预测负,错误识别假正确率=实际与预测一致/全部
错误率=1-正确率
灵敏性=TP/TP+FN(正确识别正/实际为正)
精度=TP/TP+FP(预测为正)4.2 ROC曲线(接收者运行特征)
AUC=ROC曲线下面的面积,大对应准确率高;曲线离对角线越近,准确率越低.
ROC曲线,Y轴是真正率(灵敏性),X轴是假正率(FP/TN+FP),绘制的步骤如下:
- 1,从左下角开始,
- 2,按照预测(判断)为正的概率(预测正/(全部)),递减画点
- 3,实际为正,上移一个点;实际为负,右移一个点(移动点之前的点,就按照前面确定的x和y轴绘制的点,即点(真正率,假正率)基础上移动)
- 4.3 KS值
KS越大,区分度越大,预测性越高;大于0.2就不错了
- 1,预测分区间,区间内,实际为正,实际为负的数量统计;(靠前越判断为正)
- 2,计算区间内的累计值和累计占比
- 3,按照累计占比绘制曲线,(正和负的两条)
- 4,计算两条曲线的最大差值=KS值
数据预处理的技巧
数据挖掘项目的时间,60%-80%的时间和精力是用来熟悉、清理和转换数据。
1,数据抽取
数据的抽取,1,保证要熟悉业务背景,才知道要抽取什么样的数据;2,确保抽取的数据对应的背景与业务需求背景没有大的差别,才能保证数据的可靠性。
2,数据抽样
因为数据量大;增加稀有事件占比;
抽样必须保证变量不变;分布不变;(稀有事件的建模,必须抽样)
3,分析数据的规模
一般是,训练集,验证集,测试集,训练达到总的40%-70%,训练集中的目标事件,不低于1000;
预测模型的自变量,8-20个左右
4,处理异常和缺失值
4.1缺失值的常见处理
- 1,了解缺失的原因, - 2,缺失的判断,是否是真正意义上的缺失,还是处理后的空值 - 3,直接删除缺失值的数据元组(或对象,记录) - 4,直接删除大量缺失的变量 - 5,替换 - 6,赋值
4.2 异常值的判断和处理
异常值不清理,对结果是负面影响
异常的判断:
- 1,类别型变量,出现频率过少,可能是异常值,(但是,与目标事件是正相关,则价值必须保留下) - 2,区间型变量,排序,最大值或者其他,出现次数少;标准差超过多少就判定异常;
异常的处理就是直接删除。异常的处理,不一定完全是删除,需看待业务需求和背景)(脏数据:异构数据源,存在不完整、不一致、不精确和重复的数据。
5,数据的转换
- 1,衍生变量,现有的变量中简单的数学处理,得到新的变量;
- 2,改变分布,
- 2.1取Log
- 2.2开根号
- 2.3取倒数
- 2.4开平方
。。。。。。
- 3,分箱转换,区间型---》次序型
3.1降低自变量复杂度
3.2提高预测能力
- 4,数据标准化
不同数据,范围不一致
Min-Max
6,筛选有效输入变量
原因:
- 1,模型稳定性
- 2,预测能力提升
- 3,速度和效率
(可根据业务或者异常,删除一些变量)
相关性判断,进行删除:
- 1,皮尔逊相关系数(两个变量之间)
- 2,R平方
- 3,卡方检验
7,共线性问题
自变量之间存在强甚至完全线性相关关系
发现:
- 1,相关系数,皮尔逊
- 2,模型观察,回归系数的标准差大
- 3,主成分分析,主成分载荷大
- 4,区间型变量聚类,发现相似
- 5,业务统计,发现无关预测
处理:
根据需要进行删除或者重组,
聚类典型应用和技术窍门
1,聚类是模型技术,可直接指导落地实践;
2,聚类常作为数据分析前期的数据摸底和数据清洗、整理的工具
1,应用的场景
针对目标群体进行多指标的群体划分。
- 1.1 目标用户的群体分类,指标变量的聚类,把目标群体分成几个具有明显特征区别的细分群体;
- 1.2不同产品的价值组合,依照指标变量对众多产品的种类聚类,可细分产品成,具不同价值、不同目的的多维度产品组合;
- 1.3探测、发现孤立点、异常值,
(风险管理中,特殊行为–欺诈)
2,主要的聚类算法分类
聚类发展已经成熟。
- 2.1划分的方法
n个对象k个划分,每个划分至少一个对象,每个对象只属于一个组。让对象在不同组间移动来改进准确度,迭代重新定位技术。
好的划分原则:同组对象相似度高,不同组对象相似度低;
- 1,K-mean算法:给定K值后,根据距离函数把对象分到不同组里,直到收敛。
每个簇的标识,是簇内所有对象的平均值。
- 2,K-Medoids算法,用簇中最靠近中心点的一个真实数据对象标识簇。
- 2.2层次方法
n个对象进行层分解。
- 1,凝聚层次聚类, 自顶向上方法,开始时,每个对象作为单独的一类,相继合并与其最相近的对象或者类(距离或相似度度量),
直到合并成一个类,或者达到收敛条件;
- 四种类间相似度:
- 1,单链接,最大相似度,离得越近
- 2,全链接,最小相似度,离得越远
- 3,质心,平均类间相似度
- 4,组平均,所有相似度平均
(层次方法缺陷在于,合并或分裂点选择困难,局部的优不能保证全局好效果,一旦分裂或合并,不能撤销)
2.3基于密度的方法
基于对象的距离,只能发现球状类型,非球状数据距离无法判断。
因此,密度方法诞生。。。。。
原理:邻近区域里的密度(对象数量)超过一定值,继续聚类,密度大的区域连接在一起,可以发现任意形状的类。
DBSCAN ,根据密度阈值控制簇的增长,参数需用户输入,对参数敏感。
OPTICS2.4基于网格的方法
聚类分析实践重点注意事项(针对K-means)
1,异常值和噪声,
K-means对异常和噪声的影响非常大,因为是求解平均值。
处理的方法:
删除,但要监控异常值,根据业务和多次循环对比,是否删除
随机抽样
2,数据标准化,参与聚类的变量大多数是区间型变量,Z-Score标准化
均值和标准差
3,聚类的变量,少而精,
- 1,围绕具体分析目的和业务需求挑选变量,
- 2,相关性检测,防止相关度高的变量同时进入聚类计算
- 3,衍生变量(需要经验和判断)
- 4,主成分分析,(缺陷是降低解释性)
聚类的拓展应用
- 1,从聚类的结果中提取核心指标,可以与非聚类的指标相辅相成
2,数据的清洗工具,
- 1,聚类产生的类别可作为新的字段加入到其他模型中
- 2,细分群体的依据
- 3,探索和熟悉数据的过程
- 4,精简变量的好办法,
- 5,检查共线性问题,—-怎么判断????
3,个性化推荐
聚类分析应用的优势和缺点
优势:- 1,聚类技术成熟,算法可靠,有实践证明 - 2 ,本身是模型技术;可作为前期的数据探索工具 - 3,容易解释业务逻辑 - 4,K-means算法简单,高效 - 5,K-means算法不依赖顺序,
缺点:
- 1,需先指定k值
- 2,异常和噪声敏感
案例
找出付费用户的特征
1,整理出可能的特征字段
2,确认聚类的具体变量
3,聚类得出结果,按照评价进行分析
4,对相似类进行合并
5,得出描述群体的特征
预测响应(分类)模型的典型应用和技术
一、神经网络技术—40年代
神经网络是一组互相连接的输入/输出单元,其中每个连接都会与一个权重相关联。学习阶段,通过调整这些连接的权重,就能够预测输入观察值的正确类标号。
1.1 神经网络的原理和核心要素
结构可分为前向型网络和反馈型网络,
前向型网络,传播方向是从输入端向输出端,并且无任何反馈;
反馈型网络,传播方向除从输入端向输出端外,还有回环或反馈存在。
神经网络输入多个非线性模型,以及不同模型间的加权互联,最终得到一个输出模型。
多元输入是指一些自变量,加权结合到中间层(称为隐藏层)。
隐藏层主要包含非线性函数(转换函数或挤压函数)。—-相当黑箱,组合自变量方式不知
影响神经网络的5大因素:
- 1,层数;需要多少隐藏层,尝试
- 2,每层输入变量的数量;只有第一个输入层需要考虑,变量挑选
- 3,联系方向;
- 4,转换函数。
前向型网络,设计原理:
- 1,影藏层一般2层,实践中1层就够;
- 2,输入变量的数量;输出层的变量由分析的目标决定;隐藏层数量= ,输入的变量应精简,少而精原则
- 3,层次间均有联系
- 4,转换函数—逻辑斯蒂函数
神经网络的优势:
1,良好的自组织学习能力;外界数据来修正,未经训练的数据模式分类能力好;
2,数据中挑选非线性关系的能力,(怎么发现和体现非线性的呢?)
3,结构复杂,效果优于其他算法;对异常值不敏感;
4,对噪声数据有较高的承受能力
使用神经网络需注意的事项:
1,训练时间长
2,少而精的变量才能充分发挥神经网络模型效率;然而,神经网络本身无法挑选变量;
3,需要多次尝试
4,对缺失值敏感
5,有过度拟合数据的倾向,落地实用前应仔细验证;
6,结构负责和结论难解释,商业实践远不如回归和决策树。
二、决策树技术
1960年Hunt等人提出概念学习系统框架;
常见的,CHID、CART、ID3,后来的C4.5
建模过程如一棵树,从根开始–子树–叶子节点。每个叶子节点代表一个结论,从根到叶子的路径就是对象的预测。
2.1决策树原理和核心要素
决策树是自顶向下的贪婪算法,会在每个节点选择分类效果最好的属性对样本进行分类,循环此过程,
直到树能准确分类训练样本,或者所有属性被用过。
决策树的核心,是在每个节点的测试后,选择最佳的属性,还进行剪枝处理。
节点的属性选择方法:信息增益、信息增益率、Gini指数、卡方检验
剪枝的处理分为,先剪枝和后剪枝
先剪枝:决策树生长之前,人为定好层数,每个节点允许的最少样本数量;
后剪枝:让树充分增长,剪去子树,删除分支用叶子节点替代。
CHAID算法:卡方检验来选择因变量中最有影响的自变量。
前提:因变量是类别型变量;
1,对所有的自变量逐一检测,利用卡方检验确定每个自变量与因变量的关系。
(每次取自变量的两个值,与因变量进行卡方检验,关系不显著则合并,如此循环;每个自变量类似处理后,再比较找出最显著的自变量,并进行样本分割)
2,每个新的节点也类似操作。
卡方检验用于类别型变量;如果自变量是区间型的则改用F检验
CART算法:分类与回归树,
每一层的划分基于所有自变量的检验和选择,采取Gini系数等不纯度指标。
CHAID,局部最优,当前节点确定后,下面的过程完全在节点内进行;
CART,总体规划,先生长后剪枝,是二分的。
ID3算法,迭代的二分器,挑选自变量是基于信息增益率,
信息增益度量有个缺点,倾向于选择具有大量值的属性,(不同值数量多的)
决策树的优势:
1,决策树模型非常直观,逻辑判断易理解和应用;
2,决策树的搭建和应用速度较快,处理区间型变量稍慢;
3,对数据的分布没有特别要求
4,对缺失值宽容
5,不易受异常值的影响
6,可同时对付数据中的线性和非线性
7,可作为其他模型算法挑选自变量
8,准确定位哪些属性对分类具有意义(咋么体现呢?)
决策树使用的注意项:
1,决策树使用贪心算法,只保证局部最优
2,目标变量是连续型变量,决策树不适用,则改用线性回归算法去解决
3,缺乏检测指标和评价方法,(为什么???)
4,自变量的类别数量较多,自变量是区间型时,过拟合的风险增加(为什么呢??),需要进行数据转换,比如分箱,多次验证和测试。
三、逻辑回归技术
目标变量是二元(是与否),逻辑回归分析是一个非常成熟的、可靠的模型算法。
只需在[0,1]间计算概率,sigmid函数,
可能性比(ODDS),一件事,发生的概率/不发生的概率;
可能性比是逻辑回归中连接自变量和因变量的纽带,
回归中的变量筛选方法:
1,向前引入法,逐个引入自变量,一开始没有自变量,引入一个,就进行F和T检验,计算残差平方和,通过检验则保留该自变量。
最先引入的变量,随后不会被剔除;
2,向后剔除法,先把所有自变量放进回归模型,进行F和T检验,逐个删除不显著的变量,删除的原则—偏回归平方和的大小。
3,逐步回归法,结合上述两者,不断检验和删除(原来的引入也会被删除)
逻辑回归的优势:
成熟、应用广泛
应用逻辑回归注意的事项:
1,数据量不能过少,样本要均衡,每个类别数量均衡
2,排除自变量的共线性问题
3,异常值干扰大,应删除
4,缺失值应当处理好,
四、线性回归技术
线性回归的目标变量是区间型的;逻辑回归针对的是类别型的;
系统性变化,自变量引起;随机变化,随机误差
五、过拟合的对策
模型对样本数据拟合的非常好,但是对于样本以外的数据,拟合效果差;
过拟合产生的原因:
1,样本抽取错误,少,抽样错误,不代表业务
2,噪声数据干扰大,使得忽略“特征”,记住了噪声数据的特征
3,建模过程的错误,决策树没有进行剪枝等
4,建模时的假设到应用时不能用了。
5,建模的输入变量过多。
解决的办法:
1,最基本的技术,就是合理、有效地抽样;分成抽样等
2,不同情况数据的测试,时间不同、范围不同
3,目标观测值的数量过少,谨慎选择比例
4,不同模型需要注意,模型本身的缺陷
案例分析:
目标:促成成交量(初次成交)
(初次成交的卖家数量越多、周期越短,后续就持续性、规模化)
找出短期内最有可能实现初次成交的卖家群体,分析其典型特征。
1,数据摸底,先针对某一类产品的卖家,数据的量要进行筛减(不可能的卖家删除,)
2,字段和分析指标确定,与业务方讨论;(衍生变量等)
3,对数据进行清洗,空值、脏数据、一致性
4,相关性和共线性检测
5,自变量的分布转换,
偏度和峰度:
6,自变量的筛选
7,模型建模
8,分析讨论,评价等
用户特征分析的典型应用和技术小窍门
1.1用户特征分析适用的场景
为了—》了解用户、细分群体特征
一、寻找目标用户——-谁是用户
真实的用户有两种情形:
- 1,虚拟的目标用户特征分析,新产品的用户,还未实际使用。通过产品的功能、卖点来模拟相应的行为特征和属性特征
- 2,真实的目标用户特征分析,
二、寻找运营的抓手—改善、提升客户满意度的手段
用户的主动行为,(被动行为不是用户主观意识)
所有的主动行为是用户自身努力就可以做到的。
被动行为取决于双方交易的因素,无法通过运营手段来改善
(你的店是靠自己打理,而不是买家打理)
三、用户群体细分的依据–一对一服务不可能—》只能细分群体
由于资源配置和服务效率,使得不能一对一服务。
四、新产品开发的线索和依据
与传统产品开发在于—-》以用户为中心;就是要找到:1,用户是谁?2,要满足何种需求。
1.2用户特征分析的典型思路和技术
面对海量数据和成千上万的变量字段,累积了新的思路和技术。
一、3种划分区别——-》从业务上
预先定义、数据分析、复合的划分。
企业的数据化运营中,并非依靠数据分析技术,还可以基于业务的流程和原理,
- 1,预先定义的划分,需对业务和用户有深度理解。业务需求(商业目标)明确,易找到最佳的标示变量。
- 2,基于数据分析的划分,主流的用户特征的分析方法,对用户不了解,针对不同需求进行不同数据分析。
- 3,复合划分。
二、RFM–最近消费时间–频度–金额
recency、frequency、monetary—-》重要程度降低
- R---客户消费新鲜度(最近一次购买产品的时间)
天数、月数,预测下一次是否再购买,权重大,倾向会
- F---客户消费频度,客户在特定时间段里购买产品的次数
次数多,老客户,特定时间段里
- M--客户消费金额,客户在特定时间段消费产品的总金额
金额大,大客户,易成为老客户
应用时,三个字段需分箱处理,即离散化,转为类别型变量。
以上类别的数量不超过5-8个,对三个字段的数值再进行组合,根据最后的类别组合(搭配),进行分析。RFM方法,可以了解业务状况,(进而预测前景)
三、聚类技术的应用
参与聚类的变量数量,应增加与业务目标和商业背景相关的非聚类变量。
(P4P产品,pay for performance按效果付费的产品)
增加必要的变量(与业务相关),为定位更多用户的信息
1.3特征提炼后的评价
数据分析师应当评价,采取如下思路进行
一、结论(典型特征)是否与当初的分析需求(商业目标)一致。
二、结论是否易被理解,是否易特征化。可解释性,
三、基于此结论来圈定的客户基数是否足够大,
四、结论是否方便业务开发出有效的个性化运营方案,主动性特征,
1.4用户特征分析与用户预测模型的区别和联系
都是为了圈定一些用户,得到该类用户的特征。
但是,还是有区别的,
一、业务上的精度不同,预测模型一般基于用户特征分析。
二、产出物不同。预测模型是对概率打分,通过概率细分群体;用户特征分析得到的群体不能再分了。
三、有先后的顺序,先用户特征分析,之后才是预测模型
运营效果分析
一是模型本身是否稳定,结论正确性、新数据的拟合效果,需要实践数据检验;
二是运营效果的分析,是否可提升效益
假设检验:
1,精确确定运营效果的差别,来源于哪些因素
2,效果的评估基于样本的观测,是否可代表总体
假设检验的基本思想:
会遇到二元选择,是与非,对应的就是两个假设,原假设 和备选假设
一次观察或试验中几乎不可能发生的事情—小概率事件;而小概率事件发生的概率则称为——显著水平。
假设检验的思想和原理,观测小概率事件在假设成立的情况下是否会发生。
1,一次试验中,小概率事件发生了,说明在一定显著水平下不可靠,
—–》拒绝原假设,接收备选假设
2,一次试验中,小概率事件未发生,说明无足够理由相信假设是错误的;
———》不能说明假设是正确的。(是原假设还是备选假设????)
因此,在观测事件并下结论时,会犯如下错误:
第I类错误:原假设为真时,却否定它而犯的错误,拒绝正确假设的错误。
犯第I类错误的概率为 ,且
第II类错误:原假设为假时,却肯定它而犯的错误,
假设检验之前,会先指定一个 的具体数值,通常为0.05
T检验,以检验两组样本的均值相等的原假设。
漏斗模型和路径分析
漏斗模型通常是对用户在网页浏览中一系列关键节点的转化程度所进行的描述。
漏斗模型的主要分析目的:
针对网站运营过程中各个关键环节的转化效率、运营效果及过程进行监控和管理,对于低的转化率环节或者波动异常的环节加以改正,从而提升转化效率,最终提升运营效率;
路径分析的目的:
对用户的每一个网络行为进行精细跟踪和记录,基于此分析、挖掘用户的路径特点、转化特点、来源与去向。帮助找出主流路径,进行产品优化和升级。
漏斗模型包含在路径分析之中,互联网行业有用户日志数据,可以有据可查。
日志的分析包含有:日志布点(记录用户行为的一段小程序)、日志采集(采集服务器)、日志解析(非结构转为结构化)和日志分析(page view和unique visiter)。
漏斗模型和路径分析,都是对用户路径和轨迹进行发现、分析和提炼,以上下环节转化率为计算核心。
二者的区别在于:
1,漏斗模型侧重监控管理;路径分析除此外,还有产品优化、频繁项识别、特征分析等;
2,漏斗模型会抽象出环节;路径分析无需抽象、转化、整合,原始的操作
3,漏斗模型是先确定分析的关键环节,再抽取数据计算转化率;
路径分析是根据业务,数据显示的关键环节。
4,漏斗模型是关键环节的先后顺序,易理解;路径分析技术专业深度达。
只要有流程,只要有转化,就有漏斗模型来解决;
漏斗模型对运营过程进行监控,对运营效率进行分析,
路径分析的应用场景:
1,用户典型频繁路径,体现用户特征
2,用户行为特征的识别,付费过程
3,网站产品设计和优化的依据及参考
4,网站运营和产品运营的过程监控和管理,
路径分析的算法:
1,社会网络分析法,链接分析,中心性分析法,重要程度,
2,基于序列的分析法,先后顺序的关联
3,遍历方法