金融领域--数据清洗
互联网金融的数据是异常的特别少,但是数据来源特别广,特别杂,维度高,需要对数据进行聚合,而这带来数据缺失,数据相关性太强(这个没get意思??),容易过拟合。
数据的来源不同,覆盖人群也不同,数据拼接存在缺失,变量缺失对线性模型影响效果。
数据缺失的填充方法,常用的是均值/众数/中值等,以及一些模型处理后的结果作为填充;缺点是在后面模型应用中,这类填充的变量没有拿到原始信息,降低效果,填充是基于似然估计的。
概率主成分和贝叶斯网络
概率pca和pca是同理论方法,一种变换,从一个空间到另一个空间。p维数据,求p维数据的协方差矩阵,得到协方差矩阵的特征根和特征向量,特征根排序前k的特征向量作为p维降到k维。
概率pca是p个变量来自于k隐变量,这些隐变量有条件概率服从正态分布。
参考文章:概率图模型在金融风控中的应用