站浏览量 站访问人数
目录
  1. 1. 概率主成分和贝叶斯网络

互联网金融的数据是异常的特别少,但是数据来源特别广,特别杂,维度高,需要对数据进行聚合,而这带来数据缺失,数据相关性太强(这个没get意思??),容易过拟合。

数据的来源不同,覆盖人群也不同,数据拼接存在缺失,变量缺失对线性模型影响效果。
数据缺失的填充方法,常用的是均值/众数/中值等,以及一些模型处理后的结果作为填充;缺点是在后面模型应用中,这类填充的变量没有拿到原始信息,降低效果,填充是基于似然估计的。

概率主成分和贝叶斯网络

概率pca和pca是同理论方法,一种变换,从一个空间到另一个空间。p维数据,求p维数据的协方差矩阵,得到协方差矩阵的特征根和特征向量,特征根排序前k的特征向量作为p维降到k维。

概率pca是p个变量来自于k隐变量,这些隐变量有条件概率服从正态分布。

参考文章:概率图模型在金融风控中的应用