医疗行业大数据
医疗大数据的应用,关键是整合所有的数据集,为机构和政策制定者来找到如何刺激经济并降低共享数据的技术门槛。

制药行业科研数据
数据拥有者 — 制药企业,学术界
数据集 — 临床试验, 高通量药物筛选库 ( HTS )
特点 — 数据的采集是数字化的;集合了来自个体或临床的基因或蛋白数据,它可以帮助识别药品不良反应和新功效

活动 ( 报销 ) 和成本数据
数据拥有者 — 支付方,医疗服务提供方
数据集 — 服务的使用,成本估算
特点 — 数据获取不标准,分散,老系统,不兼容格式

临床数据
数据拥有者 — 医疗服务提供方
数据集 — 电子病例, 医疗影像
特点 — 数据分析的意义在于更加有力地推进电子病历 的有意义使用 ( MU ) 以及质量的管理

病人行为和情绪数据
数据拥有者 — 院外消费者和利益相关者 (e.g.,零售渠道)
数据集 — 病人行为和爱好,零售历史,运动鞋采集的信息
特点 — 采集的是生活习惯等反映生活偏好的数据,用于 健康管理的策略和计划的制定

中国医疗行业中的"大数据"

     伴随着中国医疗卫生服务的信息化进程推进,必将产生大量的数据。这些数据主要来源于医疗业务活动、健康体检、公共卫生 9 项服务等医疗卫生服务。数据内容主要包括来自医院的大量电子病历、区域卫生信息平台采集的居民健康档案等。其中大量充斥着非结构化 / 半结构化的数据, 包括图像,office 文档,以及 XML 结构文档等。
    随着国家积极倡导的 3-5-2-1 区域医疗系统的建设,预计在全国会出现上百个医疗数据中心,每个数据中心都将承 载近1000万人口的医疗卫生数据并提供各种类型的服务。 根据估算,中国一个中等城市(一千万人口)50 年所积 累的医疗数据量就会达到10PB 级(来源:赛迪网)。而随着个人健康管理的推进,将产生越来越多的个人日常健康监测信息,这个数据的规模和增长速度将远超想象。
    从目前各地的医疗信息系统的建设来看,尽管数据已经电子化,但绝大多数的医疗数据是处于归档状态。如果要想快速检索是十分复杂的,这些数据仍然分散的存储于不同的业务系统中。过去不是没有整合这些数据的需求,而是缺乏适合的技术手段。
    单纯的使用传统的存储技术和分析处理方法,存在两个问题:一个是多样的和变化的数据格式,另一个是大数据量的数据获取速度。

"大数据"在医疗行业中的应用

    大数据解决方案在医疗行业的应用场景众多。在中国医疗行业,大数据技术目前最具实际意义的应用在于居民健康档案数据的管理和服务。“健康档案是个人全生命周期的医疗 / 健康数据的管理 ”。
• 从医生及卫生行政管理人员的角度来看,全生命周期的健康档案调阅有着现实意义。例如,对于慢性病患者,以往病程的变化,治疗的过程都对医生诊断和处置有着重要的辅助作用。过敏史,不良反应这些数据对避免出现医疗差错和事故也有着积极的作用。
• 对于海量的医疗及健康数据进行统计和分析,为管理决策、监管实施,提供了更为科学的依据。
• 传统的临床科研往往基于抽样调查进行,而随着健康档案数据的丰富可以大幅减轻工作量,同时提高科研数据的质量和数量以及数据处理的效率。
    未来的大数据的利用前景是十分广阔的,不仅用于临床诊断,临床科研,而且为政府公共卫生决策及个人管理健康都会发挥积极的作用。

医疗大数据整体框架

目的

    在很多区域卫生信息化(RHIN)的项目的实施过程中,开发商多采用传统的数据库来处理健康档案的存储和服务。 有些服务商也考虑采用了某些No SQL系统对非结构化的健康档案进行存储管理,例如使用MongoDB。 然而,使用单一的组件和产品,无法形成整体的解决方案。使用医卫大数据解决方案来进行健康档案的管理,很好的处理了数据服务和业务生产系统的关系。将业务系统和数据服务有机的分离开来,从性能和动态扩展方面都奠定了良好的基础。

定位

    大数据解决方案在区域医疗平台中主要的定位在于对健康档案的管理和服务,它将伴随着区域医疗平台的建设而实施。从图中可以看出,大数据解决方案是架构在HIAL之上的数据服务系统。 它将由 HIAL 采集来的医疗数据进行有效的存储和管理。面向医生,管理人员和病患提供综合的数据服务。它和基于虚拟化云技术的基层医疗机构信息系统进行整合,一方面采集来自基层的医疗相关数据,另一方面又为基层医疗机构提供全局的数据服务,这些服务的内容经过整合到医生,管理人员及病患的业务系统的界面中,使得用户在日常操作中平滑的获得数据服务。

 功能

    大数据解决方案在区域医疗中的功能包括基本服务,数据分析及依从性管理三个层次。基本服务内容包括提供基本的存储,查询,浏览。 分析服务将针对主题,对临床数据,公共卫生管理数据,绩效考核数据以及农合付费管理等不同领域进行分析,在海量的不同结构的数据中找到可能的趋势和风险。 依从性管理应该是大数据服务的高级阶段,它利用业务系统中的业务活动,触发数据服务请求,数据服务经过对大数据集的调阅,分析给出特定性结果。从而控制和导引业务操作的路径。 这种类型的服务只有在大数据技术的支撑下,才能获得实时的,准确的,可用的应用。

价值

    针对医疗业务数据的多样性,多变性及大规模的特点。大数据技术在医疗中发挥着它特有的价值。 医卫目的旨在为目前各地建设的区域医疗平台,针对数据管理及服务系统建设提供参考。其价值在于能够为未来的区域医疗健康档案服务奠定一个良好的基础,并且从成本的角度,大大节省投资,同时满足未来的扩展性要求。

海量数据的处理和分析

    大数据解决方案的区域卫生数据中心建设目标:
• 在海量数据情况下,数据中心必须具有文档快速检索的性能;
• 随着未来医疗系统的升级,医疗标准的版本升级,数据中心必须能够解决存储模式如何满足数据模式的更新的问题;
• 数据中心必须具备水平扩展能力和对应用程序透明的能力,要求能做到底层扩展对上层业务的隔离,通过更多的服务器成比例的透明化扩展容量和性能。

    区域内的各医疗卫生服务机构,调用区域卫生信息平台 提供的服务,将依从HL7 CDA 模板设计的健康档案文档 (XML 格式),上传至区域卫生信息平台。采集的CDA文档类型包括个人基本健康记录登记、门诊摘要、处方记录、糖尿病专访和糖尿病随访等不同类型的数据(文档)。 文档上传后,通过 XML 解析,提取关键数据元素(META- DATA),调用文档存储服务将关键数据元素和XML 文档 存储在 hbase 数据库中,形成健康档案文档库。
    基于大数据的区域卫生信息平台提供文档检索服务和数据分析服务,通过开放的文档检索 / 数据分析接口,针对个人(居民、患者)、医生和卫生管理人员提供不同类型的数据和业务服务,满足不同用户类型对于海量数据访问、处理和分析的需求。


价值

• 使得医生可以快速检索就诊患者的个人基本信息、既有病史、就诊及处方等重要信息。通过辅助信息,帮助医生做出更准确的诊断,并且有效避免重复用药、药物不良反应等;
• 支持高并发的大数据检索,使得个人(居民、患者)通过便捷快速的方式访问自己的健康档案成为可能。与居民健康教育相结合,可以帮助居民建立起个人健康管理的理念,从治疗转向预防;
• 支持灵活的数据分析建模和数据分析挖掘,为区域卫生管理者提供了接近实时的数据分析结果,可以广泛应用在疾病控制、医疗行为监管、医疗质量管理等领域。

• 降低主机存储建设成本:与传统数据库和小型机的方案相比,英特尔大数据解决方案具有更好的开放性和更好的经济性;
• 高可扩展性,集成的图形化界面提供了便捷的节点管理和横向扩展功能,大幅降低了管理成本;
• 充分利用现有硬件资源,降低升级成本。