Flink,java大数据是干什么的

数据 0
Flink批处理理及其应⽤用 WhatisApacheFlink *ApacheFlink是⼀一个分布式⼤大数据处理理引擎*可对有限数据流和⽆无限数据流进⾏行行有状态计算*可部署在各种集群环境*对各种⼤大⼩小的数据规模进⾏行行快速计算 为什什么Flink能做批处理理 BoundedData Table Runtime Stream UnboundedData ⾼高吞吐 SQL SQL 低延时 Hivevs.Sparkvs.FlinkBatch 模型吞吐性能稳定性APISQL易易⽤用性⼯工具/⽣生态 Hive/Hadoop MRTB-PB⼀一般(分钟⼩小时级别) 好差(MR)HiveSQL ⼀一般⼀一般 Spark MR(Memory/Disk) TB-PB 快(秒级) ⼀一般最丰富(RDD/DataSet/DataFrame)Python/Scala/R/JavaSparkSQL易易⽤用 丰富 Flink Pipeline 未经⼤大规模⽣生产验证 优秀x2 已在阿⾥里里内部验证丰富 (TableAPI)Scala/JavaANSISQL ⼀一般 ⼀一般 FlinkBatch应⽤用-数据湖 DataLakevs.DataWarehouse FlinkBatch应⽤用-数据湖 FlinkBatch应⽤用-数据湖 存储 •Kafka•Datahub•SLS•MQ Queue •OSS•OTS•HBase•RDS•ADS•HDFS 存储类 计算 Blink SQL+UDF 存储 Queue存储类 •Kafka•Datahub•SLS•MQ •OSS•HDFS•ElasticSearch•OTS•HBase•RDS•ADS•PetaData•HiTSDB•HyBridDB FlinkBatch应⽤用-数仓 ӱ‫ۓ‬ᔮᕹ/ಸᤒᔮᕹ ӱ‫ۓ‬ᔮᕹ/ಸᤒᔮᕹ ᐶᕚᦇᓒᵞᗭ ADS:೰ຽDWD:᫷ଶᘸ‫ݳ‬ᤒ ODS:ܻত෭ப ᧣ଶ‫ز‬හഝᓕቘ ๦ᴴ ਫ෸ᦇᓒᵞᗭ ਫ෸೰ຽᕹᦇ ADS:೰ຽ )OLQNDWD:᫷ଶᘸ‫ݳ‬ᤒ ODS:ܻত෭ப ᧣ଶ‫ز‬හഝᓕቘ ๦ᴴ ਫ෸೰ຽᕹᦇ KafkaClientአಁ KafkaClientአಁ FlinkBatch应⽤用-数仓 简化架构 ⽅方便便运维 Flink社区规划 Flink
1 AliFlink SotmrepaumteC2 实时计算 3Flink 社区 ⽣生态 商业化版本 4实时计算 阿⾥里里云实时计算产品⽅方向 全功能⼤大数据处理理能⼒力力 存储计算分离架构 ⾼高性能 全托管架构 Thanks

标签: #语言 #设计师 #程序员 #cpu #什么用 #能干 #什么用 #能干