数据仓库的演变

十大电子游艺网站数据仓库解决方案

数据仓库:
分析基础

什么是数据仓库?

数据仓库是跟踪集成的设计模式或数据体系结构, 一致的, 以及随时间推移的详细数据, 使用元数据和模式建立它们之间的关系.

数据仓库的起源

数据仓库概念始于1988年,当时Barry Devlin和Paul Murphy在IBM Systems Journal上发表了他们的开创性论文. 他们的想法激发了对数据库实现更具体定义的需求, Bill Inmon和Ralph Kimball在20世纪90年代早期提供了哪些定义? Gartner在2005年进一步澄清了这些定义. 现在,关于数据仓库的任何讨论还包括如何实现数据仓库解决方案以及在哪里实现数据仓库解决方案, 例如在 ,或跨越场地和 云的混合方式.

数据仓库不是表的集合,也不是以tb为单位的数据. 它是一种设计模式,一种具有许多特征的数据架构:

面向主题的

反映组织每天使用的业务实体和流程. 主题领域的详细程度是重要的:如果有详细的数据, 它是一个数据仓库. 如果有汇总或有限的数据,它就是一个数据集市.

集成的,一致的

所有表的数据格式和值都是标准化的,以确保完整性, 准确的数据,用户可以理解. 它还必须具有完整性:e.g.,如果没有相应的客户记录,则无法进行购买交易.

非易失性的历史

仓库捕获数据变化,并跟踪数据随时间的变化. 事务性更新会保留所有数据,不会更改. 是否传统, 混合动力, 或云, 数据仓库实际上是其最有意义的数据的“企业存储器”.

数据如何进入数据仓库?

数据源

有200个甚至500个不同的应用程序向仓库发送数据是很常见的, 哪些将所有这些数据整合到主题领域中. 仓库从企业资源计划(ERP)等应用程序获得输入, 客户关系管理(CRM), 及供应链管理(SCM).

鼠标点击网页的点击流数据是另一个来源, 还有来自机械车辆的传感器数据, 等等. 还有一些非结构化数据,如JSON (JavaScript Object Notation),它不符合行和列,但仍然在数据仓库中捕获.

数据集成

在数据进入数据仓库数据库之前, 它通过数据集成步骤, 将来自多个数据源的数据合理化为单个结果的复杂过程. 最初这被称为提取, 变换, 和加载(ETL),因为数据必须从源提取, 精制, 然后加载到数据仓库的关系表中.

数据清理

现代集成流程包括数据清理, 涉及到检测和纠正错误或不准确的记录. 错误的发生是由于错误的输入,硬件损坏,或简单的人为错误. 数据集成任务是最好的组合, 最准确和最完整的数据从多个应用程序到清洁, 可靠的“金记录”在仓库.

数据加载

数据是在一个连续的过程中加载到仓库的——通常是一整天. 数据加载导致了数据仓库的业务用途:这是寻找问题答案的基础. 数据科学家运用高等数学来发现模式和异常, 而业务分析师使用可视化的报告和仪表板.

数据加载涉及到将数据交付给业务用户的业务目的:了解业务问题并找到问题的答案. 数据科学家将高等数学应用到大量数据中,以发现模式和异常. 多维分析是所有数据高度总结的地方, 支持按区域快速查看汇总, 城市, 销售人员, 和产品销售, 例如. 高管和业务分析师(或“公民数据科学家”)使用具有可视化的报告和仪表板, 所有从受治理的数据源(数据仓库)提取的数据.

云数据仓库和Teradata有利

Teradata和整个行业的发展都融合了云部署和可伸缩性的优点. Teradata有利, 这是该公司的旗舰产品, 基于Teradata数据库的强大基础,并整合了2011年Aster数据公司获得的先进分析能力.

十大电子游艺网站可用于亚马逊网络服务(AWS), 微软Azure, 谷歌云, Teradata基础设施(Teradata云或客户云), 以及运行VMware虚拟化软件的商用硬件.

十大电子游艺网站 on AWS数据仓库解决方案
亚马逊网络服务 使用AWS基础设施与Teradata有利
Azure数据仓库解决方案的优势
微软Azure 结合Azure资源和Teradata有利
谷歌云数据仓库解决方案的优势
谷歌云 利用Teradata有利的谷歌云
现在就开始使用云分析

将你的分析带入云

下载白皮书