用户行为意图

1. 任务划分
2. 实施
3. 风险
4. 迭代优化

在互联网上，不论是手机端/web端/pc端，用户浏览的路径能够显现用户的意图，从这些浏览路径挖掘得到一个可解释的意图转换。这里涵盖了三个部分，首先是从用户的行为路径挖掘出各个明确的意图，然后在多个意图中寻找出意图间的联系，最后在意图间联系的基础上推测出新的意图。

应用场景主要是推荐，可以更加精确地标记用户，给其推荐相关的商品信息。

任务划分

三个阶段出发：挖掘意图、意图关系构建、新意图推测。

挖掘意图

从用户浏览行为中解析出具有的实体词，一般是名词一类，比如搜索行为的搜索词，浏览带有文字信息的商品，观看的视频等。从这些实体词中进行聚合，即主题的训练，得到某些主题明确，选取10个以内。这里需要训练一份具有高效的lda主题模型，应当迭代优化训练。我们这里假设主题即位意图。

lda是基于词概率，可以考虑聚类或词向量等进行聚合，找到中心作为词作为意图。

意图关系构建

从第一阶段得到的意图，即一个用户下就有挂靠着多个意图，并且可以获得各个意图的时间序列顺序，显然可以得到前后的意图关系，但是，我们还需得到其他意图关系，比如因果关系，递进关系等。
因果关系，暂时未想到好的方法；
递进关系可以通过关联规则计算得到，如果pair对的置信度高，则认为是有递进关系的。
当然，还有其他意图关系待实现。

新意图推测

当挖掘出一个用户的意图，以及构建了意图间的关系（不只是某个用户下，而是所有意图间），就可以用来推测新的意图了，这里可以采取的方法有多样，比如关联规则，比如rnn序列模型，比如归纳演绎等方法。

实施

通过上述的分析和初步方案的设定，将制定如下计划进行实现：
1，整理组织文本信息，用来训练主题模型，这里需要清洗/抽取/训练/挑选/训练/。。。。
2，当得到一个初版本的主题模型时（不必考虑精确度，而是能用即可），保存下来作为基准。
3，抽取出用户的行为实体，输入到保存的主题模型，得到该用户的多个主题，即得到多个意图；
4，训练意图间的关系，这里仅仅实现前后关系和递进关系；
5，新意图推理，使用rnn和关联规则推测新的意图，归纳演绎暂时只研究不实现。

风险

1，lda模型训练不精准，粒度太粗，导致意图输出不理想；
2，主题太少，lda模型训练主题不宜过多，这需要专门去挑选主题，以便得到更精确的，花费时间将很多；
3，新意图的推理，在意图很少时，可能就100左右，对于rnn或者关联规则是否可用，得出的意图是否置信度高，还需进一步验证。

迭代优化

首先评估使用lda主题模型挖掘用户意图，仅仅只能解决目前已有历史数据情况下挖掘用户的意图，存在如下缺点：
1，lda会损失掉大部分语义，远不如直接拿词作训练；
2，lda训练出后，需要人工取界定实际主题下词分布属于哪个特定的主题，缺乏自动性和准确性，拓展性较差，新的主题需要不断迭代lda模型；

因此，新的方案打算如下操作，
1，拉取用户搜索词，并按照时间排好序，得到用户id（可能是baiduid/cuid）–>sortList(query_1,query_2,query_3,……,query_n);
2，得到步骤1的结果，然后进行实意词的抽取，得到id–>sortList(word_1,word_2,word_3,……,word_n);
3，对这些word_i进行搜索次数的统计，看词分布情况，拉取词的量能够覆盖尽可能多的搜索次数；
4，过滤后2的结果，得到新的id–>sortNewList(word_1,word_2,word_3,……,word_m);
5，根据5的结果序列作序列预测，

山上掏金

每天早上起床就是为了比昨天更快乐，掏金者的一天是新的开始.