什么是数据湖?

原始数据保真度和云端的长期存储.

湖泊和数据 数据仓库 两者都是设计模式,但它们是相反的吗. 数据仓库的结构和包装数据的质量, 一致性, 重用, 以及具有高并发性的性能. 数据湖是对仓库的补充,它的设计模式侧重于原始数据的保真度和低成本的长期存储,同时提供了一种新的分析敏捷形式.

数据湖的价值

数据湖解决方案满足了从爆炸式数据量中经济利用和获取价值的需求. 这些“黑暗”数据来自新的来源——网络, 移动, 连接设备在过去经常被丢弃, 但它包含了有价值的见解. 海量数据加上新形式的分析,需要一种新的方式来管理和从数据中获取价值.

数据湖是捕获的长期数据容器的集合, 完善, 并大规模探索任何形式的原始数据. 它是由低成本的技术实现的,多个下游设施可以利用,包括 数据集市、数据仓库和推荐引擎.

来自非策划数据的见解
在大数据趋势之前, 数据集成在某种持久性(如数据库)中规范化了信息,从而创建了值. 仅靠这一点已不足以管理企业中的所有数据, 试图构建它会破坏它的价值. 这就是为什么在数据库中很少捕获暗数据, 但数据科学家经常从黑暗数据中挖掘一些值得重复的事实.

新形式的分析
云时代催生了新的分析形式. 像Apache Hadoop这样的技术, 火花, 其他的创新使过程编程语言的并行化成为可能, 这使得一种全新的分析成为可能. 这些新形式的分析可以大规模有效地处理, 像图, 文本, 机器学习算法可以得到答案, 然后将这个答案与下一个数据进行比较, 以此类推,直到达到最终输出.

企业的记忆力
对长时间未使用的数据进行归档,可以节省数据仓库的存储空间. 直到数据湖设计模式出现, 除了高性能的数据仓库或脱机磁带备份之外,没有其他地方可以存放偶尔访问的冷数据. 使用虚拟查询工具, 用户可以通过一个查询轻松地访问数据仓库中的冷数据和热数据.

数据集成的新方法
在如何最好地压缩数据转换成本的问题上,行业已经回到了原点. 数据湖解决方案提供了比传统ETL(提取)更大的可伸缩性, 变换, 以较低的成本加载)服务器. 采用最佳实践的组织正在跨数据湖重新平衡数百个数据集成工作, 数据仓库, 和ETL服务器, 因为每一个都有自己的能力和经济.

数据湖的常见陷阱

从表面上看, 它们看起来很简单——提供了一种管理和利用大量结构化和非结构化数据的方法. 但, 它们并不像看上去那么简单, 失败的数据湖项目在许多类型的行业和组织中并不罕见. 早期项目面临着挑战,因为最佳实践尚未出现. 现在,缺乏可靠的设计是它们无法实现全部价值的主要原因.

数据竖井和集群扩散
有一种观点认为,数据湖的准入门槛较低,可以在云端临时完成. 这导致数据冗余和不一致,没有两个湖协调, 以及同步问题.

缺乏最终用户采用
用户有这样的看法——不管对错——从数据湖中得到答案太复杂了,因为这需要高级的编码技能, 或者他们在海量的数据中找不到他们需要的针.

有限的商业现成工具
许多供应商声称可以连接到Hadoop或云对象存储, 但这些产品缺乏深度集成,而且大多数产品都是为数据仓库构建的, 没有数据的湖泊.

数据访问的冲突目标
在确定安全措施的严格程度与敏捷访问之间需要权衡. 需要制定计划和程序,使所有利益相关者保持一致.

数据湖设计模式

设计模式提供了一组指导成功实现的工作负载和期望. 随着技术和经验的成熟, 体系结构和相应需求的发展使得主要供应商有协议和最佳实践来实现. 技术是至关重要的, 但是,独立于技术的设计模式才是最重要的. 数据湖可以建立在多种技术之上. 虽然大多数人首先想到的是Hadoop分布式文件系统(HDFS), 这不是必须的.

Teradata数据湖解决方案

Teradata有利, 普适数据智能平台, 是设计来挖掘客户数据中的信息的. Teradata服务团队精通利用数据湖和相关技术(如Hadoop)的许多好处, 卡珊德拉, 以及Amazon S3和Azure Blob等对象商店.

云分析- AWS 亚马逊网络服务

使用AWS基础设施与Teradata有利

云分析-微软Azure 微软Azure

将Azure资源与Teradata有利结合起来

超越不必要的瓶颈和复杂性,将分析带到云端