批量计算和流计算简单比对
刚刚说的:收集数据 – 放到DB中 – 取出来分析 的传统的流程,叫做批量计算,顾名思义,将数据存起来,批量进行计算。
而流式计算,也跟名字一样,是对数据流进行实时计算,它不是更快的批计算,可以说,是完全不同的处理思路。
通过与批量计算进行对比的方式,介绍下其原理:
(1) 与批量计算那样慢慢积累数据不同,流式计算将大量数据平摊到每个时间点上,连续地进行小批量的进行传输,数据持续流动,计算完之后就丢弃。
(2) 批量计算是维护一张表,对表进行实施各种计算逻辑。流式计算相反,是必须先定义好计算逻辑,提交到流失计算系统,这个计算作业逻辑在整个运行期间是不可更改的。
(3) 计算结果上,批量计算对全部数据进行计算后传输结果,流式计算是每次小批量计算后,结果可以立刻投递到在线系统,做到实时化展现。