由软件开发公司ApacheFlink实施的数据流架构

由软件开发公司ApacheFlink实施的数据流架构

* 来源: * 作者: * 发表时间: 2019-09-23 0:35:57 * 浏览: 0
由软件开发公司ApacheFlink实现的数据流体系结构,dataArtisans的应用工程总监JamieGrier在OSCON2016Conference会议上谈到了使用ApacheFlink构建的数据流体系结构。它还讨论了数据流应用程序的构建块。与传统的静态数据集不同,数据流体系结构可用于处理随时间连续作为事件流连续生成的数据。与传统的集中式“状态数据库”和数据仓库相比,数据流应用程序可以处理事件流,并且可以将应用程序的本地状态汇总为历史事件。流数据处理的一些优点包括:从信号到决策的处理延迟减少。以统一的方式处理实时和历史数据Timetravel查询ApacheFlink是一个开源的分布式流和批处理数据处理平台。受Google DataFlow模型的启发,适用于Java和Scala语言开发的StreamProcessing API支持Flink。与其他流数据处理框架相比,Flink中没有微批量(Microbatching)数据。相反,它一次使用一种消息流处理技术。 Jamie介绍了状态流处理并演示了Flink应用程序的代码示例,以及使用开源时序数据库和Graphana可视化工具Influxdb进行监视的方法。同时,他还介绍了流处理中的窗口化概念以及处理时间(ProcessingTime)和事件时间(EventTime)的窗口概念。处理时间窗口会影响流数据的分析,并可能导致数据处理中的一些错误。在事件时间方法中,窗口来自数据,而不是时钟时间。对于事件时间,可以通过数据嵌入的时间戳来处理数据,从而可以获得更多结果。 Jamie还在应用程序中使用Flink时引入了错误处理和容错能力。 Flink中的Savepoints功能可更新程序和Flink群集,而不会丢失任何状态。如果要流式传输实时数据,则保存点数据快照将非常重要。如果您想了解有关ApacheFlink的更多信息,可以访问他们的网站。此外,FlinkForward2016Conference会议将于9月在柏林举行,提交提案的截止日期为2016年6月30日。