什么是数据湖?

一个数据湖和一个 数据仓库 这两种设计模式是对立的吗. 数据仓库的结构和封装数据的质量, 一致性, 重用, 和高性能与高并发. 数据湖是仓库的补充,它的设计模式专注于原始数据保真度和低成本的长期存储,同时提供一种新的分析敏捷性形式.

数据湖的价值

数据湖满足了从爆炸式的数据量中获取经济效益和价值的需求. 这些“暗”数据来自新的来源——网络, 移动, 联网设备——在过去常常被丢弃, 但它包含了有价值的见解. 巨大的体积,加上新的形式 分析,要求用一种新的方式来管理和从数据中获取价值.

数据湖是长期数据容器的集合, 完善, 并大规模地探索任何形式的原始数据. 它是由低成本技术实现的,多个下游设施可以利用,包括 数据集市、数据仓库和推荐引擎.

大数据的趋势, 数据集成将某种持久性(如数据库)中的信息规范化,从而创建了值. 仅凭这一点已经不足以管理企业中的所有数据,试图构建数据结构会破坏数据的价值. 这就是为什么数据库中很少捕捉暗数据的原因, 但是,数据科学家经常通过挖掘黑暗数据来发现一些值得重复的事实.

数据湖和新分析形式

Spark等技术和其他创新支持过程式编程语言的并行化, 这使得一种全新的分析成为可能. 这些新形式的分析可以大规模有效地处理,如图形、文本和 机器学习 得到答案的算法, 然后将答案与下一个数据进行比较, 以此类推,直到达到最终输出.

数据湖和企业记忆保留

将长时间未使用的数据归档,可以节省数据仓库的存储空间. 直到数据湖设计模式出现, 除了高性能数据仓库或脱机磁带备份之外,没有其他地方可以存放较冷的数据以供偶尔访问. 使用虚拟查询工具, 用户可以通过一个查询轻松地访问数据仓库中的冷数据和热数据.

数据湖与数据集成

在如何最大限度地压缩数据转换成本方面,该行业已经走了整整一圈. 数据湖提供了比传统ETL(提取, 变换, 负载)服务器的成本更低, 迫使公司重新思考他们的数据集成架构. 采用现代最佳实践的组织正在重新平衡数据湖上的数百个数据集成工作, 数据仓库, 和 ETL 服务器,因为每个服务器都有自己的功能和经济.

常见的数据湖陷阱

从表面上看, 数据湖看起来很简单——提供了一种管理和利用大量数据的方法 结构化非组织性数据. 但, 它们并不像看起来那么简单, 失败的数据湖项目在许多行业和组织中并不少见. 早期的数据湖项目面临着挑战,因为最佳实践尚未出现. 现在,缺乏可靠的设计是数据湖不能交付其全部价值的主要原因.

数据竖井和集群扩散: 有一种观点认为,数据湖的进入门槛很低,可以作为权宜之计 . 这将导致数据冗余和不一致,因为没有两个数据湖协调, 还有同步问题.

数据存取的相互冲突的目标: 在确定安全措施应该有多严格与敏捷访问之间需要进行平衡. 计划和程序需要到位,以使所有涉众保持一致.

有限的商用现货工具: 许多供应商声称连接到 Hadoop 或者云对象存储, 但这些产品缺乏深度集成,而且大多数产品都是为数据仓库设计的, 没有数据的湖泊.

缺乏终端用户采用: 用户有这样的看法——无论正确与否——从数据湖中得到答案太复杂了,因为它需要高级的编码技能, 或者他们在数据堆里找不到他们需要的针.

数据湖设计模式

数据湖设计模式提供了一组指导成功实现的工作负载和期望. 随着数据湖技术和经验的成熟, 体系结构和相应需求的发展使得领先的供应商对实现有协议和最佳实践. 技术是至关重要的, 但派拉蒙的设计模式是独立于技术的. 数据湖可以建立在多种技术的基础上. 而Hadoop分布式文件系统(HDFS)是大多数人首先想到的, 这不是必需的.