Flink实践-job打包

讲述把一个Flink的job怎么打包提交到集群上运行，当然也可以在Eclipse本地运行。Flink本地运行不用像Spark那样需要设置本地为master，即setMaster(“local”),可以直接点击Run。编辑一个简单的Flink程序当sbt eclipse运行成功后

Flink实践-读取HDFS

讲述Flink读取、写入hdfs文件。 hdfs简介hdfs(Hadoop Distributed File System),Hadoop的分布式文件系统，由google开源实现的。存储文件大，容错性能高，是当前集群环境下文件存储的必备系统，许多计算框架都用此。具体可参考goog

讲述Flink消费RabbitMQ消息，并进行处理。 RabbitMQRabbitMQ另一种消息发送系统，与kafka类似，但有差别。kafka的消息可以有保存期限，rabbitMQ的消息一般在消费后就焚毁。另外，rabbitMQ的消息有一个唯一id，而kafka则是靠offse

讲述Flink读取kafka下topic的消息，并进行处理。 kafka简介分布式消息系统Apache Kafka ，在实际生产中常作为消息传递的工具，其稳定，高并发，接受多个数据源，并可保存数据（自定义数据的周期），在消费端，可以做到相互独立，基于数据的处理工具，可保证数据的有

本文讲述在Flink下怎么实现批处理操作，以计算文档的TF-IDF向量为例子。批处理Flink下批处理用的数据类型是DataSet，按照一条一条记录存储，可以在多个分区上。Flink操作算子分为不打乱数据的分区和打乱数据分区两种；像map，flatmap这样单条执行的不打乱原有

讲述怎么搭建一个Flink的项目，一开始怎么安装环境。开始Flink开发之旅。准备需要下载的文件有sbt，Eclipse，以及插件的网址。 sbt设置sbt的作用与maven一样，这里不做讲述，可以从sbt官网获取更多信息。下面讲述怎么安装sbt，以及验证sbt安装成功与否。

翻译Flink官网文档，Flink在YARN集群提交job，调试，以及命令行提交格式。最后，是Flink与YARN的交互分析。文中会夹杂一些实践经验，读者可以参考或者进行实践，完善。快速开始在YARN上启动一个长期的Flink集群启动一个拥有4个Task Manager的yar

hive的笛卡尔积hive中默认不使用笛卡尔积，需要开启才能运行，hive不建议运行笛卡尔积，但是，在实践过程中，难免需要使用到，这时就得开启该功能；然后，hive中做笛卡尔积的结果就是最后的数据运算都集中在一个reduce上，亲测确实如此。那么，该怎么优化呢？优化历程笛卡尔积

从git起，使用hexo搭建自己的博客，git上传各种资料方便快捷,基于win7系统搭建。安装软件1,安装git，确保在cmd下可以git –version出版本，关键配置好环境变量,这时git下会有三个终端，Git Bash，Git CMD,Git GUI，后续命令均在Git

hive一些操作常用集合命令. 建表构建一个以时间分区的表, 12345678910use 库名;drop table if exists 表名;create table 表名( a string, b string, c int)partitioned by (ca