大数据平台Lambda架构详解 - 大数据从业者FelixZh - 博客园知识图谱

大数据平台Lambda架构详解 - 大数据从业者FelixZh - 博客园

本站和网页 https://www.cnblogs.com/felixzh/p/9868764.html 的作者无关，不对其内容负责。快照谨为网络故障时之索引，不代表被搜索网站的即时页面。

大数据平台Lambda架构详解 - 大数据从业者FelixZh - 博客园
首页
新闻
博问
专区
闪存
班级
我的博客
我的园子
账号设置
简洁模式 ...
退出登录
注册
登录
大数据从业者
最新文章，见微信公众号：大数据从业者
博客园
首页
新随笔
联系
管理
订阅
大数据平台Lambda架构详解
Lambda架构由Storm的作者Nathan Marz提出。旨在设计出一个能满足。实时大数据系统关键特性的架构，具有高容错、低延时和可扩展等特。 Lambda架构整合离线计算和实时计算，融合不可变（Immutability，读写分离和隔离一系列构原则，可集成Hadoop，Kafka，Storm，Spark,HBase等各类大数据组件。
Lambda架构的主要思想就是将大数据系统构建为多个层次，三层架构：批处理层、实时处理层、服务层，如下图
批处理层：批量处理数据，生成离线结果实时处理层：实时处理在线数据，生成增量结果服务层：结合离线、在线计算结果，推送上层1.批处理层在Lambda架构中，实现batch view = function(all data)的部分被称之为 batch layer。它承担了两个职责：
存储Master Dataset，这是一个不变的持续增长的数据集针对这个Master Dataset进行预运算
显然，Batch Layer执行的是批量处理，例如Hadoop或者Spark支持的Map-Reduce方式。它的执行方式可以用一段伪代码来表示1 function runBatchLayer(): while (true): recomputeBatchViews()123利用Batch Layer进行预运算的作用实际上就是将大数据变小，从而有效地利用资源，改善实时查询的性能。但这里有一个前提，
就是我们需要预先知道查询需要的数据，如此才能在Batch Layer中安排执行计划，定期对数据进行批量处理。此外，还要求这些预运算的统计数据是支持合并（merge）的。
2实时处理层只要batch layer完成对batch view的预计算，serving layer就会对其进行更新。这意味着在运行预计算时进入的数据不会马上呈现到batch view中。这对于要求完全实时的数据系统而言是不能接受的。要解决这个问题，就要通过speed layer。从对数据的处理来看，speed layer与batch layer非常相似，它们之间最大的区别是前者只处理最近的数据，后者则要处理所有的数据。另一个区别是为了满足最小的延迟，speed layer并不会在同一时间读取所有的新数据，相反，它会在接收到新数据时，更新realtime view，而不会像batch layer那样重新运算整个view。 speed layer是一种增量的计算，而非重新运算（recomputation）。因而，Speed Layer的作用包括：
对更新到serving layer带来的高延迟的一种补充快速、增量的算法最终Batch Layer会覆盖speed layerSpeed Layer的等式表达如下所示：
realtime view = function(realtime view, new data)13服务层Batch Layer通过对master dataset执行查询获得了batch view，而 Serving Layer就要负责对batch view进行操作，从而为最终的实时查询提供支撑。因此Serving Layer的职责包含：
对batch view的随机访问更新batch view Serving Layer应该是一个专用的分布式数据库，例如Elephant DB，以支持对batch view的加载、随机读取以及更新。
注意，它并不支持对batch view的随机写，因为随机写会为数据库引来许多复杂性。简单的特性才能使系统变得更健壮、可预测、易配置，也易于运维。
总结下来，Lambda架构就是如下的三个等式
batch view = function(all data)realtime view = function(realtime view, new data)query = function(batch view . realtime view)1234.Lambda架构组件选型下图给出了Lambda架构中各个层常用的组件。数据流存储可选用基于不可变日志的分布式消息系统Kafka；Batch Layer数据集的存储可选用Hadoop的 HDFS，或者是阿里云的ODPS；Batch View的预计算可以选用MapReduce或 Spark；Batch View自身结果数据的存储可使用MySQL（查询少量的最近结果数据），或HBase（查询大量的历史结果数据）。Speed Layer增量数据的处理可选用 Storm或Spark Streaming；Realtime View增量结果数据集为了满足实时更新的效率，可选用Redis等内存NoSQL
5.Lambda架构组件选型原则Lambda架构是个通用框架，各个层选型时不要局限时上面给出的组件，特别是对于View的选型。从我对Lambda架构的实践来看，因为View是个和业务关联性非常大的概念，View选择组件时关键是要根据业务的需求，来选择最适合查询的组件。不同的View组件的选择要深入挖掘数据和计算自身的特点，从而选择出最适合数据和计算自身特点的组件，同时不同的View可以选择不同的组件。
6.Lambda架构优缺点优点：
实时：低延迟处理数据可重计算：由于数据不可变，重新计算一样可以得到正确的结果容错：第二点带来的，程序bug、系统问题等，可以重新计算复杂性分离、读写分离缺点：
开发和运维的复杂性：Lambda需要将所有的算法实现两次，一次是为批处理系统，另一次是为实时系统，还要求查询得到的是两个系统结果的合并
欢迎关注微信公众号：大数据从业者
posted @
2018-10-29 09:30
大数据从业者FelixZh
阅读(6542)
评论(0)
编辑
收藏
举报
刷新评论刷新页面返回顶部
Copyright 2022 大数据从业者FelixZh
Powered by .NET 7.0 on Kubernetes