什么是非结构化数据?

非结构化数据是指未经过滤的信息,没有固定的组织原则. 它通常被称为原始数据. 常见的例子有web日志、XML、JSON、文本文档、图像、视频和音频文件. 搜索和解析非结构化数据以提取有用的事实. 多达80%的企业数据是非结构化的. 这意味着它是最明显的形式 大数据 对许多人来说. 非结构化数据的规模需要可伸缩的分析来产生见解. 非结构化数据存在于大多数但不是全部 数据的湖泊 因为存储成本较低.

在非结构化数据中,噪声比值大. 提取隐藏在这些文件中的价值需要很强的技能和工具. 有一种误解认为关系数据库不能处理非结构化数据. 十大电子游艺网站统一数据体系结构以多种方式支持非结构化数据. Teradata数据库和竞争对手可以存储和处理XML, JSON, Avro和其他形式的非结构化数据.