越来越多的公司正在探索将强化学习应用于一些最具挑战性的问题的机会. 强化学习是一类机器学习算法,它在机器人和机器在围棋和星际争霸II等游戏中击败人类方面取得了突破性的成果. 与强化学习, models are trained to take actions in an environment so as to maximize a reward; not every action results in a positive reward, 但大阳城娱乐-大阳城娱乐有限公司-大阳城娱乐-apple app store的目标是,随着时间的推移,行动序列将最大化可能的总奖励. 由于这个原因,强化学习在应用于顺序决策问题时是最好的.
 
强化学习最有前途的企业应用之一是客户参与和确定下一个最佳行动. 下一步最好的行动可能是产品推荐, 折扣的提议, 或者一些有关产品或品牌信息的信息. 行动可以通过许多不同的渠道(电话)传递, 电子邮件, 文本, 邮寄邮件)和在一天中的特定时间. 最关键的是,基于客户的兴趣,行动是个性化的, 需求和喜好. 这与传统的大众传播和以产品为中心的活动方式截然不同.
 
当然,第一步是能够 个性化的客户活动 是否能够跨企业和数据竖井收集和集成有关个人的数据. 一旦数据被收集和整合, 机器学习模型可以预测客户最有可能购买的产品, 他们可能兑换什么优惠券,或者顾客最有可能对什么渠道做出反应. 许多公司在这个阶段甚至很挣扎. 然而,这些预测仍然需要某种形式的干预. 大阳城娱乐-大阳城娱乐有限公司-大阳城娱乐-apple app store如何利用大阳城娱乐-大阳城娱乐有限公司-大阳城娱乐-apple app store知道的客户可能想要购买某种产品这一事实? 强化学习是次优行动成熟的下一步. 与强化学习, 关于产品的一系列决定, 提供什么, 什么渠道可以自动化,以最大化客户的终身价值,同时最大化他们与品牌的体验.
 
如果使用强化学习自动化下一个最佳行动决策是目标, 如何开始呢? 完全自动化一个典型的公司与客户的接触可能是相当复杂的. 为了理解复杂性, 有必要更详细地描述一下强化学习是如何工作的. 正如上面提到的, 强化学习代理学会在一个环境中采取行动以最大化奖励. To do that we need to define what is the state of the agent (for now we can assume there is an agent for each customer); this may include what the customer has purchased in the past, 他们以前见过什么样的提议, 他们进行了怎样的交流啊, 人口统计资料, 甚至其他模型输出可能会捕获他们的需求和偏好. 然后,操作可以包括所有产品的组合, 通过所有不同的渠道提供和传递信息. 通信本身可以个性化,包括措辞, 图片, 颜色,甚至字体大小. 正如您所看到的,可能的状态和动作对是巨大的.
 
开始, companies should focus on an initial smaller state and action space; for example, 只考虑一个渠道的报价推荐,只允许代理从手工准备的报价银行中选择报价. 然后,代理将只负责对该渠道上的报价做出决定. 在所有其他渠道中,个性化下一个最佳行动的所有其他因素都需要通过活动和规则来执行,就像通常所做的那样. 代理仍然需要知道那些其他操作是什么,并相应地更新状态. 除了可能超出代理控制范围的其他操作之外, 其他规则可能包括确保报价与组织的政策一致.g. 不向不喝酒的人推销酒), 针对不同人群的具体布局, 确保在产品和提供中有适当数量的多样性, 还有资格规则,比如客户是否已经收到了报价.
 
系统管理 客户交互 能否整合完整的客户视图,并跨多个渠道执行个性化的客户旅程. 这些系统使营销人员能够整合先进的分析模型, 比如强化学习模型, 与现有的规则. 在强化学习的例子中, 这为营销人员提供了一个平台,可以随着代理学到更多并展示价值,逐步扩展状态和行动空间. 随着时间的推移,代理人将承担更多的责任,并逐渐取代旧的规则. 值得注意的是,其中一些旧规则可能是没有基于数据的决策的产物, 可能是基于营销人员的偏见, 结果不是最理想的结果.
 
在定义初始状态和动作空间时,需要考虑的一个关键问题是,是否有大量的历史数据,以及预测模型是否能够表现良好. 一些最好的强化学习模型在开始学习时没有任何之前的演示——也就是说,他们自己实验并学习最好的行为. AlphaGo Zero就是这种情况, 谁打败了之前最好的机器围棋选手, AlphaGo主, 谁又打败了最好的人类选手. 对于企业来说,用真实客户体验做实验的模式并不是一个好主意. 因此,能够从历史数据中学习到尽可能多的东西是很重要的. Other things to consider include: being able to constrain actions so that they are considered “safe” - meaning the negative impact of trying different actions is not too great; there is sufficient data for a good state representation; and of course, 能够自动化决策的好处是否比当前的方法有显著的改进.
 
随着越来越多的公司寻求更好、更快地做出对其业务至关重要的决策, 强化学习将越来越多地用于自动化更广泛的业务决策.
随着越来越多的公司寻求更好、更快地做出对其业务至关重要的决策, 强化学习将越来越多地用于自动化更广泛的业务决策.
公司需要仔细考虑他们从哪里开始,以及他们如何允许模型逐步增加他们负责的决策. 用于执行业务规则的工具是灵活的,并且可以轻松地集成分析模型,这将促进自动化业务决策的受控部署.

对彼得·麦肯齐

Peter是美洲AI团队的负责人.  他负责人工智能项目在美国的成功交付, 支持销售领域,管理团队的研究和知识产权开发计划.   以前, Peter在Think Big 分析担任了5年的服务总监, 负责大数据交付,推进分析项目.  Peter在项目管理方面有很强的背景,并在不同的行业中成功地交付了大型项目的工作.  Peter拥有麦吉尔大学管理科学商业学士学位和计算机科学硕士学位.
 

浏览所有帖子 彼得·麦肯齐

保持知情

订阅大阳城娱乐-大阳城娱乐有限公司-大阳城娱乐-apple app store博客,获取每周为您提供的见解



我同意Teradata公司, 作为本网站的提供者, 是否可以偶尔给我发送Teradata营销通信电子邮件,提供有关产品的信息, 数据分析, 以及活动和网络研讨会邀请函. 我明白我可以在任何时候通过我收到的任何电子邮件底部的退订链接退订.

你的隐私很重要. 您的个人信息将按照 Teradata全球隐私政策.

更多信息请参见Teradata

<文本>