Teradata数据集市解决方案

具有独特视角的集中存储库.

什么是数据集市?

数据仓库的一个子集

数据集市是面向主题的 数据仓库 逻辑模型,服务于一小群用户. 许多只需要数据仓库中完整表中的数据子集. 例如,集市可能只有销售交易、产品和库存记录. 大多数餐厅只有5-20张桌子,而不是4000张.

数据集市事实表

数据集市中的表的数量与数据库的大小无关. 主要的表(称为事实表)可以是电信公司100 tb的通话详细记录, for instance. 数据集市本身是巨大的, 但它只是数据仓库中所有可用数据的一个狭窄选择.

数据集市解决方案通常是非规范化的, 通过对数据进行排序和聚合结果表,只获取数据的摘要, 通常忽略细节数据. Some are completely reloaded weekly or monthly; it is relatively easy to delete all the data and refresh it so that reports only look at the last 30 days of transactions.

star schema 数据集市和星型模式是密不可分的. 想象一下5个电子表格中的数据行和列. 其中4个电子表格通过关键字段连接,这些字段匹配最大的表格——事实表. 假设事实表有5000万条记录, 这在电子表格里是不合适的, 所以它们被存储在数据集市的表中. 在这种星型模式设计中,大多数都有5-10个表, 星臂上的小表叫做维度表. 
雪花模式 维度是包含重要信息的小表. 事实表是存储大量数据的地方, 也许是数十亿条记录, 并且可以连接到客户表以获得实际的客户名称和地址字段. 雪花模式是一种变体,它有多个事实表,通过关键字段连接在一起. Each fact table has only four or five dimension tables; a diagram of the set of tables and relationships resembles a snowflake–but is still a data mart. 

数据集市和仓库有什么不同?

数据集市和数据仓库之间的区别在于主题领域和集成, 按模式复杂性分开, 不是数据库大小. 这就是为什么在数据仓库中提出的问题要比在数据集市中复杂100倍,因为所有的数据都在数据仓库中.

数据仓库中有许多“拼图”, 所有的集成表分组到主题领域. The 数据仓库 doesn’t have to be huge; it can be only five terabytes of storage. 或者,它可能有几百tb的记录. 另一种方法是在数据集市中存储三个巨大的表.

loading data 用于数据集成的工具并不短缺, 或保存数据的数据库, 甚至是用来分析数据的工具. 将少量数据转移到用于报表或仪表板的商业智能(BI)工具中并不需要大量劳动. 真正的成本是移动和转换数据.
moving data 集成步骤在劳动和计算处理方面是紧张的, 但另一种选择是让企业用户崩溃, incomplete, 或者不准确的数据——这会让用户回到电子表格. 这就是为什么数据仓库的数据是有价值的,为什么数据集市的扩张是有风险的.

Teradata数据集市解决方案

十大电子游艺网站是普及数据智能的平台. 它的云友好架构旨在100%利用公司的数据,无论数据存在于何处. Teradata服务团队擅长帮助公司从他们拥有的数据中获得他们需要的答案.

aws data生意
亚马逊网络服务 使用AWS基础设施与十大电子游艺网站
Azure数据集市
微软Azure 结合Azure资源和十大电子游艺网站
谷歌云数据集市
google cloud 利用十大电子游艺网站的谷歌云
现在就开始使用云分析

克服不必要的瓶颈和复杂性,将分析带到云端

下载白皮书