实时流式计算,即realtime,streaming,analyse,在大数据领域有着独特的定义。实时计算、流式计算和实时流式计算在大数据领域基本上是相似的概念。那么,究竟什么是实时流式计算呢?
在谷歌的Tyler Akidau撰写的《the-world-beyond-batch-streaming-101》文章中,提到了实时流式计算的三个特征:
1、无限数据:这是指一种不断增长,基本上是无限的数据集。这些数据通常被称为“流数据”,与之相对的是有限的数据集。
2、无界数据处理:这是一种持续的数据处理模式,能够通过处理引擎反复处理上述无限数据,从而突破有限数据处理引擎的瓶颈。
3、低延迟:虽然延迟的具体时间没有明确定义,但我们都知道数据的价值会随时间流逝而降低,因此时效性是需要持续解决的问题。
在早期的推荐系统等大数据应用中,由于技术限制,可能需要一分钟、一小时甚至更长时间来对用户进行推荐,这显然无法满足需求。我们需要更快地处理数据,而不是进行离线批处理。
然而,这种模型会带来离线批处理中不存在的两个问题:正确性和时间。
这正是实时流式计算的关键点:
1、正确性:一旦确保了正确性,实时流式计算可以与批处理相媲美。
2、时间推导工具:一旦提供了时间推导工具,实时流式计算将完全超越批处理。
总结来说,我们会得到一条条随时间不断增长的数据,需要进行实时的数据分析,解决大数据量、灾备、时序、时间窗口、性能等问题。
实时和流式实际上是相对的概念,当前的许多技术更像是近实时或微批处理。但只要不断优化这些问题,实时流式计算的价值就会越来越大。
在大数据兴起之初,Hadoop并没有提供实时计算解决方案,随后Storm、SparkStreaming、Flink等实时计算框架应运而生。Kafka和ES的兴起使得实时计算领域的技术日益完善,而随着物联网和机器学习等技术的推广,实时流式计算将在这些领域得到充分应用。
接下来简单介绍目前常见的几种应用场景,未来将对Kafka、Storm、SparkStreaming、Flink等相关技术进行具体介绍。
主要应用:
1、日志分析
例如,对网站用户访问日志进行实时分析,计算访问量、用户画像、留存率等,实时进行数据分析,帮助企业进行决策。
2、物联网
例如,对电力系统进行实时数据检测,实时报警和显示,或根据历史数据进行实时分析和预测。
3、车联网
现在的车联网不仅限于物联网,还包括对用户、交通等进行分析的一个庞大系统,改善用户出行体验。
4、金融风控
通过对交易等金融行为进行实时分析,预测未知风险。
还有许多应用领域,而且未来会越来越多。在这个过程中,具体的业务以及与技术的结合能产生什么样的价值,还需要不断探索。
《the-world-beyond-batch-streaming-101》文章地址:
https://www.php.cn/link/449ddfa2100f691195ad1b10e5bcd846
以上就是什么是实时流式计算?的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号