保持原始数据的真实性
湖泊和数据 数据仓库 这两种设计模式是对立的吗. 数据仓库的结构和封装数据的质量, 一致性, 重用, 和高性能与高并发. 数据湖是仓库的补充,它的设计模式专注于原始数据保真度和低成本的长期存储,同时提供一种新的分析敏捷性形式.
数据湖解决方案满足了从爆炸式的数据量中获取经济效益和价值的需求. 这些“暗”数据来自新的来源——网络, 移动, 联网设备——在过去常常被丢弃, 但它包含了有价值的见解. 庞大的数据量,加上新的分析形式,需要一种新的方式来管理和从数据中获取价值.
数据湖是长期数据容器的集合, 完善, 并大规模地探索任何形式的原始数据. 它是由低成本技术实现的,多个下游设施可以利用,包括 数据集市、数据仓库和推荐引擎.
在大数据趋势之前, 数据集成将某种持久性(如数据库)中的信息规范化,从而创建了值. 仅凭这一点已不足以管理企业中的所有数据, 而试图构建这一切会破坏其价值. 这就是为什么数据库中很少捕捉暗数据的原因, 但是,数据科学家经常通过挖掘黑暗数据来发现一些值得重复的事实.
云时代催生了新形式的分析. 像Apache Hadoop这样的技术, 火花, 其他的创新使过程式编程语言能够并行化, 这使得一种全新的分析成为可能. 这些新形式的分析可以大规模有效地进行处理, 像图, 文本, 机器学习算法可以得到答案, 然后将答案与下一个数据进行比较, 以此类推,直到达到最终输出.
将长时间未使用的数据归档,可以节省数据仓库的存储空间. 直到数据湖设计模式出现, 除了高性能数据仓库或脱机磁带备份之外,没有其他地方可以存放较冷的数据以供偶尔访问. 使用虚拟查询工具, 用户可以通过一个查询轻松地访问数据仓库中的冷数据和热数据.
在如何最大限度地压缩数据转换成本方面,该行业已经走了整整一圈. 数据湖解决方案提供了比传统ETL(提取, 变换, 负载)服务器的成本更低. 采用最佳实践的组织正在重新平衡数据湖上的数百个数据集成工作, 数据仓库, 和ETL服务器, 因为每个都有自己的能力和经济.
从表面上看, 它们看起来很直接——提供了一种管理和利用大量结构化和非结构化数据的方法. 但, 它们并不像看起来那么简单, 失败的数据湖项目在许多行业和组织中并不少见. 早期的项目面临着挑战,因为最佳实践还没有出现. 现在,缺乏可靠的设计是它们不能传达全部价值的主要原因.
有一种观点认为,数据湖的进入门槛很低,可以在云中临时实现. 这导致数据冗余和不一致,没有两个湖协调, 还有同步问题.
用户有这样的看法——无论正确与否——从数据湖中得到答案太复杂了,因为它需要高级的编码技能, 或者他们在数据堆里找不到他们需要的针.
许多供应商声称可以连接到Hadoop或云对象存储, 但这些产品缺乏深度集成,而且大多数产品都是为数据仓库设计的, 没有数据的湖泊.
在确定安全措施应该有多严格与敏捷访问之间需要进行平衡. 计划和程序需要到位,以使所有涉众保持一致.