站浏览量 站访问人数
目录
  1. 1. 任务划分
    1. 1.1. 挖掘意图
    2. 1.2. 意图关系构建
    3. 1.3. 新意图推测
  2. 2. 实施
  3. 3. 风险
  4. 4. 迭代优化

在互联网上,不论是手机端/web端/pc端,用户浏览的路径能够显现用户的意图,从这些浏览路径挖掘得到一个可解释的意图转换。这里涵盖了三个部分,首先是从用户的行为路径挖掘出各个明确的意图,然后在多个意图中寻找出意图间的联系,最后在意图间联系的基础上推测出新的意图。

应用场景主要是推荐,可以更加精确地标记用户,给其推荐相关的商品信息。

任务划分

三个阶段出发:挖掘意图、意图关系构建、新意图推测。

挖掘意图

从用户浏览行为中解析出具有的实体词,一般是名词一类,比如搜索行为的搜索词,浏览带有文字信息的商品,观看的视频等。从这些实体词中进行聚合,即主题的训练,得到某些主题明确,选取10个以内。这里需要训练一份具有高效的lda主题模型,应当迭代优化训练。我们这里假设主题即位意图。

lda是基于词概率,可以考虑聚类或词向量等进行聚合,找到中心作为词作为意图。

意图关系构建

从第一阶段得到的意图,即一个用户下就有挂靠着多个意图,并且可以获得各个意图的时间序列顺序,显然可以得到前后的意图关系,但是,我们还需得到其他意图关系,比如因果关系,递进关系等。
因果关系,暂时未想到好的方法;
递进关系可以通过关联规则计算得到,如果pair对的置信度高,则认为是有递进关系的。
当然,还有其他意图关系待实现。

新意图推测

当挖掘出一个用户的意图,以及构建了意图间的关系(不只是某个用户下,而是所有意图间),就可以用来推测新的意图了,这里可以采取的方法有多样,比如关联规则,比如rnn序列模型,比如归纳演绎等方法。

实施

通过上述的分析和初步方案的设定,将制定如下计划进行实现:
1,整理组织文本信息,用来训练主题模型,这里需要清洗/抽取/训练/挑选/训练/。。。。
2,当得到一个初版本的主题模型时(不必考虑精确度,而是能用即可),保存下来作为基准。
3,抽取出用户的行为实体,输入到保存的主题模型,得到该用户的多个主题,即得到多个意图;
4,训练意图间的关系,这里仅仅实现前后关系和递进关系;
5,新意图推理,使用rnn和关联规则推测新的意图,归纳演绎暂时只研究不实现。

风险

1,lda模型训练不精准,粒度太粗,导致意图输出不理想;
2,主题太少,lda模型训练主题不宜过多,这需要专门去挑选主题,以便得到更精确的,花费时间将很多;
3,新意图的推理,在意图很少时,可能就100左右,对于rnn或者关联规则是否可用,得出的意图是否置信度高,还需进一步验证。

迭代优化

首先评估使用lda主题模型挖掘用户意图,仅仅只能解决目前已有历史数据情况下挖掘用户的意图,存在如下缺点:
1,lda会损失掉大部分语义,远不如直接拿词作训练;
2,lda训练出后,需要人工取界定实际主题下词分布属于哪个特定的主题,缺乏自动性和准确性,拓展性较差,新的主题需要不断迭代lda模型;

因此,新的方案打算如下操作,
1,拉取用户搜索词,并按照时间排好序,得到用户id(可能是baiduid/cuid)–>sortList(query_1,query_2,query_3,……,query_n);
2,得到步骤1的结果,然后进行实意词的抽取,得到id–>sortList(word_1,word_2,word_3,……,word_n);
3,对这些word_i进行搜索次数的统计,看词分布情况,拉取词的量能够覆盖尽可能多的搜索次数;
4,过滤后2的结果,得到新的id–>sortNewList(word_1,word_2,word_3,……,word_m);
5,根据5的结果序列作序列预测,