Flink实践-job打包
讲述把一个Flink的job怎么打包提交到集群上运行,当然也可以在Eclipse本地运行。Flink本地运行不用像Spark那样需要设置本地为master,即setMaster(“local”),可以直接点击Run。 编辑一个简单的Flink程序当sbt eclipse运行成功后
讲述把一个Flink的job怎么打包提交到集群上运行,当然也可以在Eclipse本地运行。Flink本地运行不用像Spark那样需要设置本地为master,即setMaster(“local”),可以直接点击Run。 编辑一个简单的Flink程序当sbt eclipse运行成功后
讲述Flink读取、写入hdfs文件。 hdfs简介hdfs(Hadoop Distributed File System),Hadoop的分布式文件系统,由google开源实现的。存储文件大,容错性能高,是当前集群环境下文件存储的必备系统,许多计算框架都用此。具体可参考goog
讲述Flink消费RabbitMQ消息,并进行处理。 RabbitMQRabbitMQ另一种消息发送系统,与kafka类似,但有差别。kafka的消息可以有保存期限,rabbitMQ的消息一般在消费后就焚毁。另外,rabbitMQ的消息有一个唯一id,而kafka则是靠offse
讲述Flink读取kafka下topic的消息,并进行处理。 kafka简介分布式消息系统Apache Kafka ,在实际生产中常作为消息传递的工具,其稳定,高并发,接受多个数据源,并可保存数据(自定义数据的周期),在消费端,可以做到相互独立,基于数据的处理工具,可保证数据的有
本文讲述在Flink下怎么实现批处理操作,以计算文档的TF-IDF向量为例子。 批处理Flink下批处理用的数据类型是DataSet,按照一条一条记录存储,可以在多个分区上。Flink操作算子分为不打乱数据的分区和打乱数据分区两种;像map,flatmap这样单条执行的不打乱原有
讲述怎么搭建一个Flink的项目,一开始怎么安装环境。开始Flink开发之旅。 准备需要下载的文件有sbt,Eclipse,以及插件的网址。 sbt设置sbt的作用与maven一样,这里不做讲述,可以从sbt官网获取更多信息。下面讲述怎么安装sbt,以及验证sbt安装成功与否。
翻译Flink官网文档,Flink在YARN集群提交job,调试,以及命令行提交格式。最后,是Flink与YARN的交互分析。文中会夹杂一些实践经验,读者可以参考或者进行实践,完善。 快速开始在YARN上启动一个长期的Flink集群启动一个拥有4个Task Manager的yar
hive的笛卡尔积hive中默认不使用笛卡尔积,需要开启才能运行,hive不建议运行笛卡尔积,但是,在实践过程中,难免需要使用到,这时就得开启该功能;然后,hive中做笛卡尔积的结果就是最后的数据运算都集中在一个reduce上,亲测确实如此。那么,该怎么优化呢? 优化历程笛卡尔积
从git起,使用hexo搭建自己的博客,git上传各种资料方便快捷,基于win7系统搭建。 安装软件1,安装git,确保在cmd下可以git –version出版本,关键配置好环境变量,这时git下会有三个终端,Git Bash,Git CMD,Git GUI,后续命令均在Git
hive一些操作常用集合命令. 建表构建一个以时间分区的表, 12345678910use 库名;drop table if exists 表名;create table 表名( a string, b string, c int)partitioned by (ca