Tag Archives: streaming

在之前的学习中我们知道,如果在算法的训练样本量m不足的时候得到的模型具有高方差(High Variance),那么此时我们需要更多的训练样本。但是如果算法具有高偏差,提高样本数量并不会显著改善模型的性能。

在今天,数据集很容易就可以达到m=100,000,000这样的数量级(比如人口调查、通讯消息等)。在这样的背景下,梯度下降算法每一步都需要汇总上亿个训练样本来完成一次迭代。那么我们能不能通过一些方法来分流如此大量的计算呢?

在这篇文章中,我想要更进一步地探讨数据处理模式,抓住更多的细节,并且结合它们的实际使用案例进行分析。这篇文章的脉络主要依照如下两个部分展开:
 流处理 101 终极版:简要地回顾一下Streaming 101中所介绍的概念,然后补充一些使用案例来突出重点。
 流处理 102:Streaming 101的配套内容,引入了处理无界数据时,在一些细节上的重要概念,并且使用一些使用案例来帮助理解。

原文:The world beyond batch: Streaming 101

参看“流处理系统与实时程序会话”,the Strata Data Conference in London。

编辑批注:这是关于数据处理演变的两部曲文章中的第一篇,聚焦于流式系统,无穷数据集,以及大数据的未来。

我们有足够的理由可以说,流数据处理对于现今的大数据来说,是一个不容小觑的内容。这些理由包括但不限于:

商业活动愈发渴望实时性更强的数据,而把数据转化为流数据进行处理,正好是一个实现更低延迟的好方法。
在海量、无穷的数据集越来越常见的今天,使用这种专门用来处理无穷无尽的数据的系统,能够使我们处理数据更加得心应手。
因为流处理在数据到达时就开始处理,所以,随着时间推移,它能够使得后续任务负载的传播更加平稳,进而使得资源的消耗更具有一致性和可预测性。

Insert math as
Block
Inline
Additional settings
Formula color
Text color
#333333
Type math using LaTeX
Preview
\({}\)
Nothing to preview
Insert