Category Archives: 流处理系统

在这篇文章中,我想要更进一步地探讨数据处理模式,抓住更多的细节,并且结合它们的实际使用案例进行分析。这篇文章的脉络主要依照如下两个部分展开:
 流处理 101 终极版:简要地回顾一下Streaming 101中所介绍的概念,然后补充一些使用案例来突出重点。
 流处理 102:Streaming 101的配套内容,引入了处理无界数据时,在一些细节上的重要概念,并且使用一些使用案例来帮助理解。

原文:The world beyond batch: Streaming 101

参看“流处理系统与实时程序会话”,the Strata Data Conference in London。

编辑批注:这是关于数据处理演变的两部曲文章中的第一篇,聚焦于流式系统,无穷数据集,以及大数据的未来。

我们有足够的理由可以说,流数据处理对于现今的大数据来说,是一个不容小觑的内容。这些理由包括但不限于:

商业活动愈发渴望实时性更强的数据,而把数据转化为流数据进行处理,正好是一个实现更低延迟的好方法。
在海量、无穷的数据集越来越常见的今天,使用这种专门用来处理无穷无尽的数据的系统,能够使我们处理数据更加得心应手。
因为流处理在数据到达时就开始处理,所以,随着时间推移,它能够使得后续任务负载的传播更加平稳,进而使得资源的消耗更具有一致性和可预测性。

离线计算的特点
离线计算:批量获取数据、批量传输数据、周期性批量计算数据、数据展示

代表技术:Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据、Kettle任务调度

3.流式计算的特点
流式计算:数据实时产生、数据实时传输、数据实时计算、实时展示

代表技术:Flume实时获取数据、Kafka实时数据存储、Storm/JStorm实时数据计算、Redis实时结果缓存

一句话总结:将源源不断产生的数据实时收集并实时计算,尽可能快的得到计算结果

4.流式计算与实时计算的区别
最大区别:实时收集、实时计算、实时展示

Insert math as
Block
Inline
Additional settings
Formula color
Text color
#333333
Type math using LaTeX
Preview
\({}\)
Nothing to preview
Insert