推荐的思考
在58的房产事业群部门,职责是负责资讯、问答、经纪人以及房源的推荐工作,主要偏文本一类,做数据展现的逻辑处理。后来,离开去了新的领域,着重于数据源清洗挖掘出用户行为背后的价值信息,支持推荐等功能。因为,两个不同方向、不同数据源、不同场景平台,感触颇多,对于推荐这块的更深理解和实现也跟着学习,所以,也就记录下来,以便未来做对比和提升。
以往的
前公司的数据源是集中在房源、问答、资讯类,用户的基本信息是空置的,只能获取到在app/pc/touch/小程序上的行为信息,而房产有个缺陷在于用户的生命周期短,粘性低,重在信息的查询。所以,推荐基于协同过滤(item-based和user-based)能获得好的效果,房源的地段/价格/户型/面积等基本维度用户关注高。
房源推荐
房源测的信息,典型的几个特征,面积/价格/小区/户型/地点/pv/uv/小区均价/….等,推荐模块针对不同需求调用不同的推荐逻辑,热度uv/pv高的;相似根据房子属性计算相似值;感兴趣则经过改版的协同过滤计算。关键是特征维度少,使用模型预测难,需要构造特征,因此在几个典型的特征基础上,使用ffm,gbdt等重构特征进行预测,效果还是不错的。
缺点也明显,数据维度少,仅仅在app/pc/wap上使用的轨迹,而且三段的id还不一样无法打通,实际上对用户测仅仅拿到一端的行为。缺少用户测信息。拓展用户测信息,首先三段打通,增加用户测信息,需要评估量;另外,引入外部数据特征。
至于虚假房源,单单从房源测信息数据很难判断,需要人工干预,从价格上可以干掉一些,但是误伤很大;比对外部房源,基准有限;另外重复发的情况占比多,计算成本很大,虽然限制地域;
资讯流
资讯流有两大块,一是问答,二是信息流,三是文本生成。均是大内容模块。
问答
问答是做得较为成功的项目,在负责的一年里,提问量和参与量都翻倍增长,尤其人数增了10倍。当然,在一个许久没有优化的版本上,提升容易些。
首先是问题的每日新增量,其实ugc的体温量占比少些,媒体拿大概1万左右,有时会更少。而这些问题经纪人是愿意回答的,因为是用户问的,如果能带来连接,对经纪人收益是很大的。实际上这部分带来的经纪人不是很多。反而小区类的问题带来的参与经纪人日均8000多。这部分精确到小区,背后逻辑也推荐给经纪人偏好的小区,有针对性,所以回答率和参与率很高。
另外,在排序上,ugc和小区类问题也穿插排序。问题的回答也根据问题和经纪人回答历史进行权重排序,提升优质内容靠前。
缺点是还没在语义上进行优化,可以挖掘人关心的问题语义,这需要对问题进行抽象层,然后关联背后的词;另外,还需要对分发进行工程控制,保证每个问题的曝光率,以及每个经纪人的接受量。在推送的探索中,一个问题曝光给50个人,带来的回答率是很高的。
问题的每日增量,大部分是自动生成小区问题,这部分效益高,可以在词语上做精确些,现有每日关心词的排名,可以拿这些词作为基准生成很多问题;
资讯流
资讯想要做千人千面,最初的产品给的意见是转化低,这是对于新房下的资讯,当初刚进来,没太怼回去,个性化转化率怎么会比通用的排序低?后来自己接手资讯的个性化推荐后,作了一些背后的逻辑工程和算法工作。
首先要千人千面,物料item就要有tag,这些标签一开始打的很粗,小区/板块/类型/价格/面积等,这些粒度粗的tag在排序上根本用不上,因为区分度小,导致大部分排序后集中在一块了。
后续的优化点是对资讯进行打标签,由bi我们负责,这样可以掌握标签的粒度,能够区分大些,使得排序上来的资讯分散化。
而对于tag的喜好权重,从曝光和点击日志中拉取样本,通过线性回归进行训练,得到属性的权重,带给检索的排序。
资讯流背后需要做的事继续tag细化,tag的量多,可以带来区分,如果tag集中没有区分度,就会导致太集中;另外在排序上还需改进,线性的权重累加,一天变动一次权重,需要频次快些。
其他文本
除了问答和资讯,其他的文本重心在生成上,小区问题的生层和板块解读的生成,前者是短文本,后者是短文章;后者是前者的多个拼凑。
原理是基于既定的对象点,然后在对象点的周围加上描述观点,最后整合成描述对象的观点句子;短文章就是多个对象的观点句子的顺序拼凑。
这部分,在通顺上目前没有好的评估函数。
现在的
现在的百度内部数据很多,各个产品线的数据,数据量实在是太大太多。需要对业务场景细化后才去拉取分析数据。比如,对好看视频,针对的是新客,那么在爱奇艺数据源观看的行为数据很有效。ugc的内容很难提取,需要针对性挖掘。另外,特征的挖掘,其实是数据的清洗,使得在模型上更好使用,偏向底层的数据处理。
尴尬的处境,也带来优势,接触最原始的数据,价值也最大。通过这些,可以挖掘出真实的意图,从而做意图的推荐关系预测等工作。数据的广度和深度使得做起来比其他人快些。
未来的
未来的推荐,是数据的共享,需要外部数据的引入,数据的边界限制了推荐的精准度。一个人的维度描述,是多维分,朝着更准更全目标。