Flink批处理理及其应⽤用
WhatisApacheFlink
*ApacheFlink是⼀一个分布式⼤大数据处理理引擎*可对有限数据流和⽆无限数据流进⾏行行有状态计算*可部署在各种集群环境*对各种⼤大⼩小的数据规模进⾏行行快速计算
为什什么Flink能做批处理理
BoundedData
Table
Runtime
Stream
UnboundedData
⾼高吞吐
SQL
SQL
低延时
Hivevs.Sparkvs.FlinkBatch
模型吞吐性能稳定性APISQL易易⽤用性⼯工具/⽣生态
Hive/Hadoop
MRTB-PB⼀一般(分钟⼩小时级别)
好差(MR)HiveSQL
⼀一般⼀一般
Spark
MR(Memory/Disk)
TB-PB
快(秒级)
⼀一般最丰富(RDD/DataSet/DataFrame)Python/Scala/R/JavaSparkSQL易易⽤用
丰富
Flink
Pipeline
未经⼤大规模⽣生产验证
优秀x2
已在阿⾥里里内部验证丰富
(TableAPI)Scala/JavaANSISQL
⼀一般
⼀一般
FlinkBatch应⽤用-数据湖
DataLakevs.DataWarehouse
FlinkBatch应⽤用-数据湖
FlinkBatch应⽤用-数据湖
存储
•Kafka•Datahub•SLS•MQ
Queue
•OSS•OTS•HBase•RDS•ADS•HDFS
存储类
计算
Blink
SQL+UDF
存储
Queue存储类
•Kafka•Datahub•SLS•MQ
•OSS•HDFS•ElasticSearch•OTS•HBase•RDS•ADS•PetaData•HiTSDB•HyBridDB
FlinkBatch应⽤用-数仓
ӱۓᔮᕹ/ಸᤒᔮᕹ
ӱۓᔮᕹ/ಸᤒᔮᕹ
ᐶᕚᦇᓒᵞᗭ
ADS:ຽDWD:ଶᘸݳᤒ
ODS:ܻত෭ப
᧣ଶزහഝᓕቘ
ᴴ
ਫᦇᓒᵞᗭ
ਫຽᕹᦇ
ADS:ຽ
)OLQNDWD:ଶᘸݳᤒ
ODS:ܻত෭ப
᧣ଶزහഝᓕቘ
ᴴ
ਫຽᕹᦇ
KafkaClientአಁ
KafkaClientአಁ
FlinkBatch应⽤用-数仓
简化架构
⽅方便便运维
Flink社区规划
Flink
1 AliFlink SotmrepaumteC2 实时计算 3Flink 社区 ⽣生态 商业化版本 4实时计算 阿⾥里里云实时计算产品⽅方向 全功能⼤大数据处理理能⼒力力 存储计算分离架构 ⾼高性能 全托管架构 Thanks
1 AliFlink SotmrepaumteC2 实时计算 3Flink 社区 ⽣生态 商业化版本 4实时计算 阿⾥里里云实时计算产品⽅方向 全功能⼤大数据处理理能⼒力力 存储计算分离架构 ⾼高性能 全托管架构 Thanks
声明:
该资讯来自于互联网网友发布,如有侵犯您的权益请联系我们。