用于医疗保健的文本分析.

如何在医疗保健领域利用高级分析

Bilal Khaliq
Bilal Khaliq
2020年6月23日 3分钟阅读
想象一下,想要分析医生在COVID-19检测呈阳性的患者的电子健康记录(电子健康档案)中输入的笔记, 包括对症状和并发症的详细描述. 这些记录中包含的细微差别可能对理解疾病的发展至关重要, 传播方式和最有效的治疗,副作用最少. 及时和有效地这样做对于解决问题以更好地预防至关重要, 准备,甚至治愈.
 
类似的, 医生笔记提供的各种疾病的保健和生物医疗保健数据量过高, 保险索赔, 电子健康档案, 医学期刊, 新闻提要, 社交媒体, 等. 所有这些数据都缺乏实用性,除非经过挖掘和成形. 文本处理技术和资源中的新兴技术让位于提供有用见解的大量机会, 模仿相关专家行为的分析和推理 医疗保健 以及它的相关领域.

这篇文章举例说明了使用一些最新的技术和资源来挖掘生物医学领域的概念, 和应用 Teradata有利的 先进的分析功能,分析和预测有用的诊断和处方.
 
电子健康记录(电子健康档案)是由医生/临床医生在每次就诊/检查后输入的数字患者信息记录. 这些记录的条目是手动的, 包含各种医疗信息(包括患者统计数据)的自由格式文本输入, 疾病, 解剖学, 药物治疗, 治疗, 剂量, 等. -所有这些都缺乏结构. 这些记录在语法上常常不正确, 名字和首字母缩略词的拼写错误,在不同的语境中很难消除歧义.
 
为了处理这种复杂而不规则的领域特定文本, 十大电子游艺平台首选需要一些能够消除歧义的有力工具供十大电子游艺平台首选使用, 挖掘和构造文本,可以, 反过来, 为进一步的高级分析提供基础:
 
  • 清洁和塑造文本的一个强有力的工具是 正则表达式. 使用有利的的正则表达式函数, 通过删除非ascii和其他标记标签来转换文本, 执行句子分割和其他文本规范化任务.
  • 下一个, 十大电子游艺平台首选使用一个重要的实体识别工具, MetaMap, 用于将生物医学文本映射到统一医学语言系统(UMLS)的概念. 它使用一种知识密集型方法,结合自然语言处理和计算语言学,将概念和首字母缩略词分类为137种可能的类型和类别组. 这是了解为促进和改善医疗服务而免费提供的医疗信息的关键资源. 通过API调用, 十大电子游艺平台首选能够将十大电子游艺平台首选的数据集转换为带有医疗实体及其相互关系标签的丰富语料库. 中显示了一个带有实体标记的句子的示例输出 图1.
Picture1.png图1:生物医学实体识别
 
  • 语法依赖解析器为句子提供语法结构,从而有助于对表达的观点进行更深入的分析. 概念否定, 连词和形容词术语有助于从句子中提取方面信息和自以为是的术语. 这有助于在更精细的层次上识别与特定术语或概念相关的情感,而不是在粗糙的句子层次上的混乱情感. 要构建依赖解析, 来自python的高级NLP库是一个不错的选择, 而对于情绪分析, 内建模型和训练器可在有利的.

Picture1 - (1).png
图2:固执己见句子的依赖关系解析
 
Picture1 - (2).png图3:在每个访问者报告中提到的紊乱类型和情绪

每一份检验报告, 使用功能的各种类别,如药物, 疾病, 身体部位, 等., 以及各方面可能相关的情绪, 十大电子游艺平台首选能够为病人的病情建立先进的模型. 通过使用本地的有利的功能, 构建示例分析是为了获得有用的洞察和推断:
 
  • 使用功能障碍和解剖, 十大电子游艺平台首选建立一个分类器来预测病人可能的诊断. 这样的分析可以帮助医生在开药和治疗时做出决定, 考虑患者过去和现在的情况,以及既往治疗记录.
  • 基于各种类型特征的医生报告聚类, 尤其是紊乱和解剖, 能揭示相关检查和患者的相关症状和疾病吗. 这在根据患者的疾病模式来分析患者时特别有用.
  • 使用n通道, 它可以获得处方药物的痕迹,并可视化医生是如何治疗属于患者特定疾病的病例的.

Picture1——(3).png
图4:使用PCA和TSNE图可视化聚类
 
Picture1 - (4).png图5:NPath跟踪药物处方
 
鉴于医疗, 制药和化妆品公司都在寻找人工智能技术,以帮助提供有用的医疗诊断, 本文介绍的方法展示了Teradata结合有利的的高级分析服务的能力——与文本处理中的开源工具和技术无缝集成——以破译与行业需求相关的复杂医疗保健相关问题.

关于Bilal Khaliq

Bilal于2016年加入Teradata,担任专业服务数据科学顾问. 在他的工作中,他与当地团队一起为企业展示价值,通过数据驱动的洞察力和预测建模的帮助,采用分析和解决各种业务问题. 最初专注于金融领域, 比拉尔为信用风险评分问题提供咨询, 分支/ ATM现金优化, 下一个最佳报价分析等. 后来,他加入了全球交付咨询公司, 他的投资组合多样化,包括广泛的行业,包括, 公用事业公司, 零售, 电信, 医疗等.

专门研究语言 & 文本处理, Bilal在自然语言处理领域进行了深入的研究. 在加入Teradata之前, 他曾在一个全球领先的自然语音技术研究小组担任助理研究员, 爱丁堡大学与EPSRC共享的一项拨款, 谢菲尔德大学, 和剑桥大学, 在谢菲尔德工作. 他为语音技术与BBC新闻的合作做出了重大贡献, NHS为残疾人士建立先进的语音识别系统. 在Teradata任职期间, Bilal继续作为文本处理领域的领导者工作, 与客户合作过问答系统, 使用NLP提取医疗记录信息, 主题建模等.

  通过以下方式查看所有帖子 Bilal Khaliq

保持了解

订阅十大电子游艺网站博客,以获得每周的见解



我同意Teradata公司, 作为本网站的供应商, 可能会偶尔向我发送关于产品的Teradata营销通信邮件, 数据分析, 还有活动和网络会议邀请. 我明白,我可以在任何时候通过跟踪我收到的任何电子邮件底部的取消订阅链接来取消订阅.

你的隐私很重要. 您的个人信息将根据本条例收集、存储和处理 Teradata全球隐私政策.

详见Teradata