是时候准备结束数仓领域流批一体的讨论了---增量数仓系列其二

ℹ️ 本文原先发表于 zhihu @ 2024-03-27 书接上文(由于工作等原因,两篇文章之间拖得有点久)离线数仓近实时化的成本问题— 增量数仓系列其一

更多 →

September 14, 2025

离线数仓近实时化的成本问题--- 增量数仓系列其一

ℹ️ 本文原先发表于 zhihu @ 2023-10-07 离线数仓近实时化的需求 离线数仓尤其是Spark + Hive的这一套计算存储架构,已经经过了十多年的发展和业界验证,成为了工业界的事实标准。不过随着业界对数据时效性越来越高的需求,逐渐发展出了Flink + 多种类型存储的实时计算存储架构。二者的使用场景不同,成本以及数据加工准确性等方面都有所不同,所以导致了也就是至今依然在业界广为使用的Lambda架构。

更多 →

September 14, 2025

那些逐渐消亡的流式计算引擎

ℹ️ 本文原先发表于 zhihu @ 2023-03-06 一代人终将老去,但总有人正年轻 — 《火车驶向云外,梦安魂于九霄》

更多 →

September 14, 2025

是时候让流批一体的计算引擎大规模落地了

ℹ️ 本文原先发表于 zhihu @ 2023-02-20 这是一篇夹杂着这十年个人学习成长史来认知流批一体计算引擎发展与迭代的文章,笔者从一名懵懵懂懂的在校生,学习和旁观着大数据系统领域的发展,到逐步参与其中,进而成为Apache Flink社区的一名committer,走了一个螺旋上升的认知历程:从MapReduce批处理入门,到借助于Spark便捷强大的批处理能力进行机器学习功能库的开发;步入社会在微软推广Spark基于micro-batch的实时计算能力,再到进入阿里巴巴参与Flink的实时计算开发和推广,一路从离线批处理走到了实时在线处理,在离开阿里之后回过头又在公司内做流批一体计算引擎的推广。 毕竟长者有云:个人奋斗当然重要,但是也要顺应历史的进程。

更多 →

September 13, 2025