数据网格与企业数据体系结构的未来

数据管理策略总是在变化——企业必须准备好适应这种变化,通过及时和可靠地交付见解来保持竞争力.

数据仓库范式可以追溯到20世纪80年代. 当时, 组织需要一个集中的数据平台来集成来自多个数据源的数据, 比如大型机和操作系统, 并从中获得见解. 到2000年代, 数据仓库解决方案已经成为当时经常被称为“商业智能”操作的固定装置.

随着时间的推移, 数据仓库也促进了互补数据体系结构的发展, 最值得注意的是数据湖和, 最近, 混合数据湖屋. 这些替代方案现在经常与数据仓库一起使用. 但企业数据最深刻的变革之一是数据网格, 这成为了一个著名的 趋势 从2019年开始.

数据网格企业架构

什么是数据网格,它是如何工作的?

数据网格是围绕业务领域组织的数据生态系统模型. 它是通过自助服务功能进行治理的,该功能允许跨职能团队进行管理, 服务, 并最终拥有自己领域的数据. 它可以生成不同的数据产品来通知关键的业务流程和决策.

数据网格的三个主要组成部分

1. 面向领域的数据所有权,以及联合治理

在数据网格体系结构中, 数据主要存在于不同领域的基础设施中, 或主题领域, 这与不同的业务关注点相对应, 例如销售和客户支持. 每个域可以有自己的模式.

跨职能团队, 其中包括产品经理, 开发人员, 业务分析师, 其他的则是独立的, 使用他们自己的数据,并根据需要与其他域共享. 这些团队是数据存储位置以及如何加载和转换的专家. 它们可以将多个数据源连接到它们的数据网格部分, 在某些情况下,使用他们自己专用的数据湖或数据中心.

每个团队可以有自己的物理数据网格基础设施来管理其领域数据. 然而,多个模式的共存也可能是有效的, 特别是对于经常相互连接的不同领域的数据集: 如果存储在同一个数据库中,它们的性能会更好. 因此,数据网格可以是物理的或逻辑的企业数据体系结构.

即使所有权是按领域划分的, 联合治理有助于防止这种情况变得不可管理. 数据互操作性和质量标准,加上DevOps文化,确保了这种数据治理.

2. 关于数据集的产品思考

因为每个业务域都是它自己的独立单元, 域数据过于分散存在风险, 以至于它粉碎了整个企业高效协作的前景. 这就是产品思维的概念, 应用于企业的数据集, 在实现数据网格的全部价值方面有很大的不同.

每个领域团队应该将其数据资产视为数据产品的组件,其“客户”是组织中的其他用户, 比如开发人员或数据科学家, 谁需要方便和安全的访问权限. 例如, 人工智能(AI)数据工程师可能需要电子健康记录(EHR)系统中运行的程序的分析数据, 来改进软件的算法.

数据网格可以通过一致的数据产品在整个企业中提供这种级别的便利. 每个产品应该:

  • 可发现的:数据产品进入数据目录,其中包含关于其所有权和内容的元数据. 这种设置可以帮助用户可靠地找到他们需要的东西.
  • 可寻址:每个可发现的产品也应该是唯一可识别的,这样它就可以被定位. 在包含各种数据格式的环境中,这种编程访问的一致标准至关重要, 从csv到公共云桶.
  • 值得信赖的:数据网格平台旨在为领域数据所有者制定服务水平目标, 管理他们数据产品的可信度. 这些产品不应该需要与更传统的产品相同级别的广泛数据清理, 严格集中的数据体系结构.
  • 自描述:一个数据产品应该有清晰的语义, 语法, 以及其预期数据消费者的数据库模式. “我该如何使用它??当在数据网格中工作时,这个问题很少出现.
  • 可互操作的:数据网格中的数据产品应该是跨域相关的. 加入他们, 例如, 应该是直接的,不受元数据字段或格式差异的阻碍.

可以将数据网格看作企业数据管理中的关税联盟, 就像欧盟那样. 每个国家都是自己的自治实体,但同时又遵守与其他成员国交换产品和服务的某些总体标准. 同样地, 领域数据团队独立工作,但也遵循各自数据产品特征的全局“规则”.

3. 自助服务通过数据基础设施作为平台

数据网格的分布模型似乎暗示了大量复制数据管道和存储基础设施的存在, 每个域都有一个. 这种设置会产生技术上的复杂性,阻碍快速和可操作的见解. 但是您可以使用一个与领域无关的数据基础设施平台来解决这个问题,该平台为企业中的每个团队提供相同级别的自助服务.

这样的数据平台隐藏了底层的复杂性,并简化了存储过程, 处理, 服务数据产品. 在当前 云计算的趋势 而在 多重云世界 现在很多企业都存在这样的问题,数据网格应该提供:

  • 吸收任何分布式数据源,以任何格式,在任何维度具有可伸缩性,例如.g.,在数据量或查询的复杂性,或数据模式的复杂性.
  • 选择的云, 因此,企业可以使用云服务提供商,其分析系统最接近当前的性能和价格要求.
  • 支持跨本地资源和公共云服务的混合部署.
  • 一个开放的设计,允许团队使用他们自己的库, 他们已经知道的语言(SQL, R, 等等), 和文档良好的api,因为他们构建他们的领域数据产品.
  • 整合人工智能和机器学习(ML),缩短时间 先进的分析 从分布式数据.
  • 计算和存储分离, 动态满足用户需求,而不需要IT干预或浪费产能.
  • 管理混合工作负载和满足多个应用程序的服务水平协议的简单控制.

为什么数据网格? 它与其他数据架构相比如何

整体, 数据网格能够提高团队的敏捷性,因为他们在云计算中工作,使用的数据源和以创新为中心的项目的范围不断扩大.

传统的数据体系结构在一个数据源相对较少、业务用例范围较窄的世界中已经足够了. 但现在, 那些集中的模型可以为需要从原始数据源快速转移到洞察力的团队创建瓶颈.

想象一个人, 比如十大电子游艺平台首选前面提到的在EHR系统上工作的人工智能数据工程师, 需要创建新的数据产品,以满足快速变化的业务需求. 他们的速度可能会变慢,因为他们无法独自更改数据摄取和处理的相对较小和不同的组件——他们必须让其他人参与和修改 整个数据管道.

这个场景就是为什么老的数据架构经常被描述为“单片——改变它的一部分意味着改变它的全部. 与此形成鲜明对比的是, 数据网格平台更像是微服务体系结构, 使用可由多个团队处理的独立可更新组件.

通过数据网格实现的灵活性和敏捷性将其与其他构建的数据体系结构区分开来 专门 集中的数据仓库和数据湖.

数据仓库与. 数据和湖. 数据lakehouse vs. 数据网格

这四种数据设计模式并不是相互排斥的——它们可能同时存在于企业中, 例如, 拥有自己的数据湖的跨职能领域团队. 然而, 从数据仓库到数据湖再到数据网格,其演变过程具有可追溯性, 由克服某些架构限制的需求驱动.

数据仓库

  • 它是什么:一个集成的面向主题的数据体系结构 详细的数据 以一致的方式维护它的非易失性历史. 
  • 好处:产生可操作的见解(e.g., 在仪表板中)从大量的管理数据, 包括创建预测分析和驱动运营操作的仪表板. 它将所有企业来源的数据聚集在一个具有一致治理的中心位置,并支持新想法测试的沙箱.
  • 限制:对于需要存储和从大量原始数据中提取价值的大数据用例来说并不理想, 比如由物联网设备、网络和移动源创造的.
数据湖
  • 它是什么:一组用于管理和精炼原始数据的长期数据容器, 使用低成本的对象存储,通常来自云.
  • 好处:捕获之前丢弃的内容 “暗数据” 为了推动以后的创新和存储数据,而不需要先构造它. 人工智能和机器学习服务还可以通过分析原始信息来有效地捕捉信息.
  • 限制:针对数据湖的现成工具相对较少, 哪些需要使用开源软件的经验. 由于有限的治理,竖井的风险也很高, 在安全性和易用性之间取得平衡是非常困难的.

数据lakehouse

  • 它是什么:数据仓库和数据湖的结合.
  • 好处:使企业能够系统地从数据仓库模式中提取洞察力——通过SQL, 机器学习, 或任何其他流程——同时利用数据湖的巨大规模和低成本.
  • 限制:增加新特性的灵活性有限,因为一切都是集中的和单一的. 数据工程师最终花费了大量的时间来清理来自团队的数据,这些团队没有足够的动力来确保信息的准确性.

数据网格

  • 它是什么:域驱动的数据设计模式,逻辑上或物理上划分为在这些领域工作的团队.
  • 好处:数据网格允许最接近它的团队自主主动地管理数据,并允许提高敏捷性,因为没有中心瓶颈. 每个团队都可以创建自己的数据产品.
  • 限制这是一个相对较新的架构,企业仍在摸索. 性能和治理可能会受到影响,因为用户每次都需要通过网络访问不同的数据. 没有跨域治理和数据语义链接, 它可能变得非常孤立,并产生令人失望的结果.

数据网格可能成为未来数据体系结构的三个原因

即使有早期的局限性, 数据网格可能是未来的数据架构, 主要有三个原因:

1. 增加的敏捷性和卓越的组织伸缩性

数据网格使团队能够按照自己的方式访问和使用数据, 不需要经过一个单一的瓶颈, 中央企业范围的数据仓库或数据湖. 他们可以使用自己的仓库和湖泊作为数据网格中的节点, 加载和查询它们的域数据, 更快地创建数据产品.

数据工程师不再承担对所有被倾倒到中央数据仓库或湖泊中的不同信息进行排序的责任, 因为数据是在许多较小的域中管理的. 作为一个结果, 组织中的每个人都可以使用自助数据基础设施平台更快速地响应更改,并根据需要扩展工作负载.

2. 明确数据所有权和问责制

在数据网格出现之前,企业数据的所有权往往不明确,甚至存在争议. 不同领域的操作团队将他们的数据发送到一个集中的位置, 它是由专门的数据工程师处理的,而这些工程师被隔离在组织的其他部门之外.

这些工程师面临着一项艰巨的任务,即处理来自他们不一定是专家的领域的数据. 它们还充当了从事同一项目的领域团队之间的中介, 努力创建所有人都可以使用的数据集.

在数据网格中,由于域驱动的设计,所有权是明确的. 团队可以遵循“发球+拉”的方法——而不是上面描述的传统的“推+吸”方法——不同的团队在各自熟悉的领域工作, 使数据产品在整个企业中可用, 并根据需要访问其他团队的产品.

3. 改进的数据质量和与devops一致的文化

因为数据所有权在数据网格中是显而易见的, 团队更有动力在分发数据产品之前确保其质量. 数据网格概念与DevOps基本原理的紧密联系进一步提高了质量.

DevOps强调通过跨职能团队的协作以及对产品的持续监控和细化. 当DevOps原则——像把工作分解成更小的部分, 更易于管理的部分和创建共享的产品愿景-应用在数据网格中, 数据体系结构的不同组件更易于使用, 迭代, 和维护.

这样就可以比以前更快地交付更高质量的数据产品. DevOps既是一场文化运动,也是一场技术运动, 数据网格需要正确的文化——强调责任和协作的文化——以使其技术有利于业务. DevOps本身有助于实现这种文化变革.

构建数据网格:开始之前的关键考虑事项

在全力投入数据网格之前,企业应首先考虑以下几个关键问题:

规模和业务要求

数据网格是具有众多数据源和领域的大型组织的理想选择, 团队之间在谁拥有什么方面存在潜在的摩擦.

如果一个组织 选择一个数据网格, 然后,域的分布应该与实际的业务活动密切一致, 比如创造全渠道的客户体验或供应链优化. 这种对齐为领域数据团队创造了更清晰的目标, 并确保数据网格交付真正的业务价值, 而不仅仅是一个实验.

数据管理和治理专业知识

尽管每个领域的团队都拥有自己的数据, 这并不意味着不需要企业范围的协调和治理. 现代工具使人们更容易开始处理复杂的工作负载, 但是,这些工具的选择和实施仍然需要专家的彻底监督.

数据管理专家在指导每个团队开发其流程和产品方面也很有用. 尽早解决这些问题, 有经验的指导, 为整个公司节省了以后这样做的时间和费用.

模式共存和性能

每个域 应该有一个单独的数据模式,以消除所有数据使用一个模式所产生的瓶颈. 在某些场景中,出于性能考虑,模式应该位于并连接在一起. 同时, 重要的是要记住,跨数据网格中所有域的数据集成是关键的. 这样做将允许您的组织通过数据放置策略来驱动业务导向的性能.

这些步骤为高度复杂的工作负载提供了速度和成本的最佳组合, 经常与其他数据集连接, 并且有规律地重复使用——只要有一个高性能的数据结构.

展望数据网格的发展前景

尽管分布式数据所有权本身并不是一个新概念, 数据网格所需要的特定方法非常新颖,现实世界的实现仍然很少.

然而, 许多组织已经在发展他们的设计模式和云解决方案,以加速数据模型的开发,并以类似于数据网格的影响的方式更好地为客户服务. 十大电子游艺平台首选 了解更多关于这个新兴但令人兴奋的数据设计概念的潜力.