CTR-点击汇总
点击率预测,在广告、推荐领域应用,精细化操作,平衡用户、商品、平台,传统的逻辑回归,到深度学习,一波浪潮下,带来很多新的方法。
关键问题
点击率预测,重在解决的是特征问题,在逻辑回归下,经过经验会挑选少而精的特征,房产领域有均价、小区、面积、位置等,金融领域有职业、身份状态、月收入、生活轨迹等,这些特征具有代表性,很容易得到,对领域下的目标有着重要影响度,但是它们的共同点是单一,适合线性模型(wx+b的拟合),另外这些特征都是人工选择的,维度高难办。
特征的自组合是增加特征丰富度,以及加入更多的信息(nlp领域的n-gram,以及skip-gram等同样原理)。特征的两两组合会得到新的特征,也需要新的权重w2(是一个对称的),用这个w2进行因子分解(因为维度太高,需要降维),因子分解fm诞生。
神经网络下
神经网络处理的向量,离散的特征都是被词嵌入方式,特征会映射成一个向量。因子分解fm的效果也是同样:
fm对离散的特征进行嵌入处理;对嵌入后的向量进行内积得到二阶特征组合;然后与线性模型结果求和预测结果。
在实际应用,特征的组合不是单单两两组合,需要考虑上下文,即哪些特征可以融合,带有特定领域的组合,即ffm。另外,离散的特征进行one-hot,再嵌入得到低维特征。
来源文章:由FM推演CTR预估的深度学习模型,