发现、真理和效用:定义“数据科学”

2017年5月15日 4分钟阅读

格雷戈里·皮亚茨基-夏皮罗对如何从数据中提取洞察力颇有心得. 他是第一个 知识发现与数据挖掘 oG视讯-入口网址-apple app store排行榜在1989年的研讨会上简要讨论过 本系列博客的第二篇. 从那以后,他几乎一直在练习和指导.

但他一直在练习的到底是什么呢? 即使是皮亚茨基-夏皮罗也很难给你一个一致的答案, 正如他2012年的一段话所暗示的:

尽管描述这一领域的流行词汇已经发生了变化——从“知识发现”到“数据挖掘”再到“预测分析’, 现在是“数据科学”, 其本质一直保持不变——从海量数据中发现真实和有用的东西.

oG视讯-入口网址-apple app store排行榜很喜欢这句话. 首先, 因为它说明了一个事实,历史上oG视讯-入口网址-apple app store排行榜至少用过四个不同的术语——知识发现, 数据挖掘预测分析和数据科学——基本上描述的是同一件事. 的工具, oG视讯-入口网址-apple app store排行榜使用的技术和技术在不断发展, 但oG视讯-入口网址-apple app store排行榜的目标基本一致.

oG视讯-入口网址-apple app store排行榜如此喜欢这句话的第二个原因是因为它包含了三个词oG视讯-入口网址-apple app store排行榜认为这三个词是理解分析过程的关键.

发现. true. 和有用的.

oG视讯-入口网址-apple app store排行榜依次讨论这些问题.

分析本质上是关于发现. 它揭示了oG视讯-入口网址-apple app store排行榜不知道存在的数据模式,并从中推断出oG视讯-入口网址-apple app store排行榜不知道的东西.

事实上,分析发现过程与研究和开发有更多的共同之处&D)与软件工程相比. 如果oG视讯-入口网址-apple app store排行榜做得对, 例如,oG视讯-入口网址-apple app store排行榜应该对oG视讯-入口网址-apple app store排行榜试图解决的业务挑战或机会有一个合理清晰的想法, oG视讯-入口网址-apple app store排行榜可能想要尝试和测量顾客情绪,以确定它是否与商店业绩相关,并了解oG视讯-入口网址-apple app store排行榜应该努力改善购物体验的哪些部分,以提高顾客满意度. 或者,oG视讯-入口网址-apple app store排行榜可能想要根据传感器数据的模式来预测列车组的故障. 但oG视讯-入口网址-apple app store排行榜往往不知道哪种方法可能最成功, oG视讯-入口网址-apple app store排行榜所获得的数据是否能够支持预期的结果 甚至不知道这个项目是否可行. 这意味着——首先也是最重要的——不管oG视讯-入口网址-apple app store排行榜叫它什么,分析是关于实验的. 重复实验.  正如福斯特·普雷斯特和汤姆·福塞特在他们(优秀的)教科书中所写的那样 商业数据科学: “某一步的结果可能会改变对问题的基本理解.”  因此,传统的范围和需求概念通常很难应用于分析项目.

其次, 虽然已经开发了许多过程模型来尝试编纂分析过程,从而使其更可靠和可重复——其中数据挖掘跨行业标准过程模型(CRISP-DM)可能是最成功和最广为人知的——但事实是分析是一个迭代过程, 而不是线性过程.  oG视讯-入口网址-apple app store排行榜不能简单地依次执行流程的每个步骤,并希望在流程结束时能够奇迹般地“弹出”洞察. 建模的一次失败的尝试, say, 客户购买倾向, 是否会导致oG视讯-入口网址-apple app store排行榜重新访问数据准备步骤,以创建oG视讯-入口网址-apple app store排行榜希望更具预测性的新指标. 或者,它可能会使oG视讯-入口网址-apple app store排行榜意识到oG视讯-入口网址-apple app store排行榜对业务问题的理解不够清楚——并要求oG视讯-入口网址-apple app store排行榜重新开始. 所有这些的一个重要结果是分析计划的“失败率”很高. often, 这些“失败”实际上根本不是传统意义上的失败——相反,它们代表了对哪种方法的重要学习, 工具和技术与特定的问题相关.  业内称之为“快速失败”, 尽管将其称为分析的“快速学习”方法可能更合适. 但是不管oG视讯-入口网址-apple app store排行榜怎么称呼它, 这种高失败率对oG视讯-入口网址-apple app store排行榜组织和管理分析项目的方式有重要的影响,oG视讯-入口网址-apple app store排行榜将在本系列的后面讨论这些分析项目.

数据可以在很多方面误导oG视讯-入口网址-apple app store排行榜,而不是给oG视讯-入口网址-apple app store排行榜提供信息. 有时oG视讯-入口网址-apple app store排行榜可以找到看起来很有趣的结果, 但这在统计上并不显著. oG视讯-入口网址-apple app store排行榜可能把相关性和因果关系混为一谈. 或者oG视讯-入口网址-apple app store排行榜可能被辛普森悖论误导了.  正如Kaiser Fung在他的书中指出的那样,这是自相矛盾的 Numbersense, 大数据会给oG视讯-入口网址-apple app store排行榜带来大麻烦, 通过增加oG视讯-入口网址-apple app store排行榜可以追逐的死胡同和无关关联的数量,从而导致oG视讯-入口网址-apple app store排行榜浪费宝贵的时间和组织资源.

但更基本的东西也会绊倒oG视讯-入口网址-apple app store排行榜:数据质量. 最复杂的技术, 算法和分析技术仍然受制于oG视讯-入口网址-apple app store排行榜数据的质量.  如果oG视讯-入口网址-apple app store排行榜喂他们垃圾,垃圾就是他们给oG视讯-入口网址-apple app store排行榜的回报.

特别是,oG视讯-入口网址-apple app store排行榜不能自动假设数据是“真实的”, 因为oG视讯-入口网址-apple app store排行榜试图为oG视讯-入口网址-apple app store排行榜的分析项目重新使用和再利用的数据很可能已经被收集来服务于非常不同的目的.  oG视讯-入口网址-apple app store排行榜正在进行的这种分析可能从来没有打算或预见过. That is why the CRISP-DM model places so much emphasis on “data discovery”; it is important that we first understand whether the data that are available to us are “fit for purpose” – or if we need either to change our purpose and/or to get better data.

定义数据的科学

那么,oG视讯-入口网址-apple app store排行榜应该如何定义数据科学呢? 花10分钟研究谷歌,你会发现很多相互矛盾的定义. oG视讯-入口网址-apple app store排行榜个人最喜欢的是-

数据科学= 机器学习 +数据挖掘+实验方法

它可能缺乏数学上的严谨性,但它简短、甜美——而且,如果oG视讯-入口网址-apple app store排行榜自己这么说的话——恰到好处!

关于马丁Willcox

Martin领导oG视讯-入口网址-apple app store排行榜EMEA技术售前功能和组织,并共同负责推动Teradata解决方案和服务在整个欧洲的销售和消费, 中东和非洲. 在接受目前的任命之前, Martin负责oG视讯-入口网址-apple app store排行榜全球数据基金会实践,并领导oG视讯-入口网址-apple app store排行榜交付方法和相关工具集的现代化工作. 在这个位置, Martin还领导了oG视讯-入口网址-apple app store排行榜国际实践组织,并负责支持由Teradata consulting提供的全套咨询业务的交付——从数据集成和管理到数据科学, 通过商业智能, 认知设计与软件开发“,.

马丁此前负责领导oG视讯-入口网址-apple app store排行榜大数据卓越中心——一个数据科学家团队, 负责支持Field团队,使Teradata客户能够从他们的Analytic数据资产中实现价值的技术人员和架构顾问. 在这个职位上,马丁还负责与潜在客户沟通, Teradata大数据战略之外的分析师和媒体组织. 在他任职期间, 马丁被列为2016年dataIQ“大数据100人”,是英国数据驱动行业最具影响力的人物之一. 他的Strata (UK) 2016主题演讲可以在以下网站找到: 可以登录.oreilly.com/ideas/the-internet-of-things-its-the-sensor-data-stupid; a selection of his Teradata Voice Forbes blogs can be found online here; and more recently, 马丁与人合作撰写了一系列关于数据科学和机器学习的博客, 例如, 发现、真理和效用:定义“数据科学”.

马丁拥有物理学(荣誉)理学士学位 & 在谢菲尔德大学获得天文学学位,在开放大学获得工商计算研究生证书. 他已婚,有三个孩子,是一名单人滑翔机飞行员, 他是谢菲尔德星期三足球俱乐部的支持者, 非常业余的摄影师,甚至更业余的吉他手.

浏览所有帖子 马丁Willcox

关于博士. 弗兰克Sauberlich

Dr. 弗兰克Sauberlich领导数据科学 & 德国oG视讯-入口网址-apple app store排行榜数据创新部门. 为Teradata客户提供最新的市场和技术发展是他职责的一部分. 目前, 他的主要研究方向是预测分析等, 机器学习和人工智能.
在他学习了商业数学之后, 弗兰克Sauberlich曾在卡尔斯鲁厄大学决策理论与企业研究所担任研究助理, 他已经在处理数据挖掘问题了.

他的职业生涯包括SAS德国高级技术顾问和Urban Science International客户分析区域经理的职位. Frank自2012年以来一直在Teradata工作. 他最初是国际数据科学团队的高级分析和数据科学专家. 后来,他成为数据科学(国际)总监.

他的职业生涯包括SAS德国高级技术顾问和Urban Science International客户分析区域经理的职位.

弗兰克Sauberlich自2012年以来一直在Teradata工作. 他最初是国际数据科学团队的高级分析和数据科学专家. 后来,他成为数据科学(国际)总监.

浏览所有帖子 Dr. 弗兰克Sauberlich

保持知情

订阅oG视讯-入口网址-apple app store排行榜博客,获取每周为您提供的见解



我同意Teradata公司, 作为本网站的提供者, 是否可以偶尔给我发送Teradata营销通信电子邮件,提供有关产品的信息, 数据分析, 以及活动和网络研讨会邀请函. 我明白我可以在任何时候通过我收到的任何电子邮件底部的退订链接退订.

你的隐私很重要. 您的个人信息将按照 Teradata全球隐私政策.

更多信息请参见Teradata