新起点新领域

进入新的业务领域，使用新的环境、新的工具，有些不太适应，有些心里抵触，在一个环境习惯后，接触到新的完全不同氛围，会有些隔离状态。

在旧的环境中，一切都是熟悉的，随拿随取，流程清晰明了，不用请教任何人，时常自己做一些小工具方便自己；而新的环境，需要去熟悉每一个环境
啊，每一个流程，一切都是新的，而且流程上比旧的复杂很多。

取数，直接在hdfs上直接读取，同属一个集群就行，而且yarn集群的好处就是提交job自己不用去管，另外，hive的方便性，对于数据的统计和视图都是很友好方便的；而在新的环境中，需要去熟悉底层的mr流程，另外集群也多个，因此job的提交变得费时费力。

百度的数据确实多，量大，而且都是只存储了最原始的行为数据，中间的一些处理结果都是需要自己去计算的，没有一个管理的平台.

bigflow代码与性能说是比spark好些，但是，唯一不方便之处它依赖于hadoop-1.4.8版本，而且是内部的版本；另外，在mac上还不能本地测试，这就十分地费解，只能在另一个机器上去测试写代码；

山上掏金