站浏览量 站访问人数
目录

进入新的业务领域,使用新的环境、新的工具,有些不太适应,有些心里抵触,在一个环境习惯后,接触到新的完全不同氛围,会有些隔离状态。

在旧的环境中,一切都是熟悉的,随拿随取,流程清晰明了,不用请教任何人,时常自己做一些小工具方便自己;而新的环境,需要去熟悉每一个环境
啊,每一个流程,一切都是新的,而且流程上比旧的复杂很多。

取数,直接在hdfs上直接读取,同属一个集群就行,而且yarn集群的好处就是提交job自己不用去管,另外,hive的方便性,对于数据的统计和视图都是很友好方便的;而在新的环境中,需要去熟悉底层的mr流程,另外集群也多个,因此job的提交变得费时费力。

百度的数据确实多,量大,而且都是只存储了最原始的行为数据,中间的一些处理结果都是需要自己去计算的,没有一个管理的平台.

bigflow代码与性能说是比spark好些,但是,唯一不方便之处它依赖于hadoop-1.4.8版本,而且是内部的版本;另外,在mac上还不能本地测试,这就十分地费解,只能在另一个机器上去测试写代码;