推荐的思考

1. 以往的
1. 1.1. 房源推荐
2. 1.2. 资讯流
2. 现在的
3. 未来的

在58的房产事业群部门，职责是负责资讯、问答、经纪人以及房源的推荐工作，主要偏文本一类，做数据展现的逻辑处理。后来，离开去了新的领域，着重于数据源清洗挖掘出用户行为背后的价值信息，支持推荐等功能。因为，两个不同方向、不同数据源、不同场景平台，感触颇多，对于推荐这块的更深理解和实现也跟着学习，所以，也就记录下来，以便未来做对比和提升。

以往的

前公司的数据源是集中在房源、问答、资讯类，用户的基本信息是空置的，只能获取到在app/pc/touch/小程序上的行为信息，而房产有个缺陷在于用户的生命周期短，粘性低，重在信息的查询。所以，推荐基于协同过滤（item-based和user-based）能获得好的效果，房源的地段/价格/户型/面积等基本维度用户关注高。

房源推荐

房源测的信息，典型的几个特征，面积/价格/小区/户型/地点/pv/uv/小区均价/….等，推荐模块针对不同需求调用不同的推荐逻辑，热度uv/pv高的；相似根据房子属性计算相似值；感兴趣则经过改版的协同过滤计算。关键是特征维度少，使用模型预测难，需要构造特征，因此在几个典型的特征基础上，使用ffm，gbdt等重构特征进行预测，效果还是不错的。

缺点也明显，数据维度少，仅仅在app/pc/wap上使用的轨迹，而且三段的id还不一样无法打通，实际上对用户测仅仅拿到一端的行为。缺少用户测信息。拓展用户测信息，首先三段打通，增加用户测信息，需要评估量；另外，引入外部数据特征。

至于虚假房源，单单从房源测信息数据很难判断，需要人工干预，从价格上可以干掉一些，但是误伤很大；比对外部房源，基准有限；另外重复发的情况占比多，计算成本很大，虽然限制地域；

资讯流

资讯流有两大块，一是问答，二是信息流，三是文本生成。均是大内容模块。

问答

问答是做得较为成功的项目，在负责的一年里，提问量和参与量都翻倍增长，尤其人数增了10倍。当然，在一个许久没有优化的版本上，提升容易些。
首先是问题的每日新增量，其实ugc的体温量占比少些，媒体拿大概1万左右，有时会更少。而这些问题经纪人是愿意回答的，因为是用户问的，如果能带来连接，对经纪人收益是很大的。实际上这部分带来的经纪人不是很多。反而小区类的问题带来的参与经纪人日均8000多。这部分精确到小区，背后逻辑也推荐给经纪人偏好的小区，有针对性，所以回答率和参与率很高。

另外，在排序上，ugc和小区类问题也穿插排序。问题的回答也根据问题和经纪人回答历史进行权重排序，提升优质内容靠前。
缺点是还没在语义上进行优化，可以挖掘人关心的问题语义，这需要对问题进行抽象层，然后关联背后的词；另外，还需要对分发进行工程控制，保证每个问题的曝光率，以及每个经纪人的接受量。在推送的探索中，一个问题曝光给50个人，带来的回答率是很高的。

问题的每日增量，大部分是自动生成小区问题，这部分效益高，可以在词语上做精确些，现有每日关心词的排名，可以拿这些词作为基准生成很多问题；

资讯流

资讯想要做千人千面，最初的产品给的意见是转化低，这是对于新房下的资讯，当初刚进来，没太怼回去，个性化转化率怎么会比通用的排序低？后来自己接手资讯的个性化推荐后，作了一些背后的逻辑工程和算法工作。
首先要千人千面，物料item就要有tag，这些标签一开始打的很粗，小区/板块/类型/价格/面积等，这些粒度粗的tag在排序上根本用不上，因为区分度小，导致大部分排序后集中在一块了。
后续的优化点是对资讯进行打标签，由bi我们负责，这样可以掌握标签的粒度，能够区分大些，使得排序上来的资讯分散化。

而对于tag的喜好权重，从曝光和点击日志中拉取样本，通过线性回归进行训练，得到属性的权重，带给检索的排序。

资讯流背后需要做的事继续tag细化，tag的量多，可以带来区分，如果tag集中没有区分度，就会导致太集中；另外在排序上还需改进，线性的权重累加，一天变动一次权重，需要频次快些。

其他文本

除了问答和资讯，其他的文本重心在生成上，小区问题的生层和板块解读的生成，前者是短文本，后者是短文章；后者是前者的多个拼凑。
原理是基于既定的对象点，然后在对象点的周围加上描述观点，最后整合成描述对象的观点句子；短文章就是多个对象的观点句子的顺序拼凑。

这部分，在通顺上目前没有好的评估函数。

现在的

现在的百度内部数据很多，各个产品线的数据，数据量实在是太大太多。需要对业务场景细化后才去拉取分析数据。比如，对好看视频，针对的是新客，那么在爱奇艺数据源观看的行为数据很有效。ugc的内容很难提取，需要针对性挖掘。另外，特征的挖掘，其实是数据的清洗，使得在模型上更好使用，偏向底层的数据处理。

尴尬的处境，也带来优势，接触最原始的数据，价值也最大。通过这些，可以挖掘出真实的意图，从而做意图的推荐关系预测等工作。数据的广度和深度使得做起来比其他人快些。

未来的

未来的推荐，是数据的共享，需要外部数据的引入，数据的边界限制了推荐的精准度。一个人的维度描述，是多维分，朝着更准更全目标。

山上掏金

每天早上起床就是为了比昨天更快乐，掏金者的一天是新的开始.

推荐的思考

以往的

房源推荐

资讯流

问答

资讯流

其他文本

现在的

未来的