医疗健康大数据技术路线和方法论初探

医疗健康大数据已经成为理论和应用中的热点。从国际上看,Google的流感预测是典型的大数据在公共卫生领域的成功应用。不仅有学术研究,目前商业界也在探索如何使用医疗健康大数据开展增值服务。

国内以上海为例,从2006年启动区域卫生信息化建设以来,上海市卫生信息化取得了长足进步,积累了150TB以上的医疗健康数据。但是如何充分利用这些数据仍处于初期探索。

本文结合国家卫生信息共享工程技术研究中心组织上海地区的研发团队,在2014年申报科技部生物大数据863项目的基础上,总结了目前医疗健康大数据领域的若干研究问题,并提出相关对策和研究方向。提炼了医疗健康大数据研究和开发的总体技术路线。

医疗健康大数据应用需求研究

经过近十年的区域卫生信息化及十多年医院信息化的发展,医疗行业已经积累了一定的数据。目前的瓶颈在于如何利用这些数据。

在这次项目申报中,我们的研发团队中有临床科研人员、医疗卫生信息化人员、大数据研发人员。我们感到临床科研人员对于样本和数据与HIT人员有完全不同的理解。按照目前循证医学的要求,进入研究队列的样本是按照一定标准筛选的。样本在研究的过程中,受到严格的控制,对每个样本都可以按照研究的要求采集到所需的数据。临床科研所需采集的数据项比目前诊疗过程中采集的数据项要丰富得多。也就是说,临床科研所需要的数据,生产系统无法提供。反之,由于临床科研的高要求,样本数量是非常有限的,一般在几十,最多到几百,超过千就是很大的规模了。而生产系统积累的数据规模是很大,同一个病种的数量是以万计,对于高血压、糖尿病等多发病以百万计。但是临床科研人员觉得没用,或不知道怎么用。因此目前积累的大数据如何用,本身就是一个科研问题。

针对这样的情况,可以从两个角度去考虑:

(1)基于现有数据如何利用,上海曙光医院的《面向心血管及肿瘤疾病的中医临床大数据挖掘与分析》一文中,以回顾性调查的思路,基于现有数据进行流行病学研究。

(2)基于研究需求及现有数据,进一步应该收集哪些信息?例如目前疗效研究是一个热点,但是如果确认疗效是一个问题。可以考虑基于移动互联网,让患者自助填写服药情况及服药后的主观感受。

医疗健康大数据中心构建

目前以上海医疗数据中心为代表,已经建设了不少区域医疗健康数据中心和医院的临床数据中心。在此基础上如何构建医疗健康大数据中心,面临以下问题:

(1)数据库vs大数据存储:目前数据中心主要基于关系型数据库,针对大数据,需要新型的NoSQL大数据存储,例如Hadoop等。

(2)结构化数据vs非结构化:目前数据中心主要存储数据,在大数据时代,非结构化数据越来越多。

(3)业务数据vs知识数据:对于大数据处理,除了目前的业务数据,还需要医疗健康知识数据。

(4)业务数据vs外部数据:除了目前采集的临床和健康数据外,还将融合其他外部数据,例如体检数据、个人采集的健康数据、互联网数据、气象/环境数据、基因数据等。这些数据具有多源、异构、多粒度、可信度不同等特点。

医疗健康大数据平台研发

目前医疗健康大数据平台一般基于Hadoop框架来构建。现有Hadoop与行业应用还是有一段差距的。对于医疗健康应用而言主要是两个方面:

(1)缺乏面向医疗健康领域的分析和挖掘算法库、模型库。以Google流感预测为例,Google研究团队筛选了近百个模型后,才选择了目前投入使用的预测模型。因此这是一项艰巨的任务。

(2)缺乏医疗健康知识库支撑。在临床决策支持等基于医疗健康大数据的应用中,需要基于对医生输入的数据内容的理解,才能做出必要的决策支持。对于数据内容的语义处理,必须基于医疗健康知识库。

在万达信息股份有限公司的《基于大数据的临床决策支持系统初探》中将尝试解决这些问题。

医疗健康大数据关键技术研究

医疗健康语义知识库构建。传统的知识库基本是非结构化和半结构化的。在医疗健康大数据分析和挖掘中,需要结构化和语义化的知识库。医疗健康是一个知识密集型领域,以SNOMED-CT为例,有几十万个概念几百万个关系。用目前纯手工的方法难以建立和维护。因此语义化的医疗健康知识库构建是一个关键技术问题。华东理工大学的《基于本体的医疗健康语义知识库构建》中将尝试解决这些问题。

非结构化数据的语义处理。目前大部分医疗健康数据中心采集和存储的是结构化的信息。在临床中,还有大量的电子病历文书是非结构化和半结构化的。如何将这些数据结构化语义化是一个关键技术问题。华东理工大学的《基于本体的医疗健康语义知识库构建》中将尝试解决这些问题。

传统分析和挖掘技术的并行化。传统的数据分析和挖掘算法在Hadoop的并行环境中如何高效率的执行,也是一个关键技术问题。

医疗健康大数据应用系统开发

1. 理论研究

医疗健康大数据归根到底是要应用。如何基于医疗健康数据和医疗健康知识库开发新型应用是一个关键问题。在上海曙光医院的《面向心血管及肿瘤疾病的中医临床大数据挖掘与分析》、上海市儿童医院《基于临床大数据的儿童呼吸道感染与抗生素应用分析的比较效果研究和疾病模式分析》等文中,将从临床、疾病管理、公共卫生、健康服务等多个角度分析医疗健康大数据的应用。

2. 技术路线

通过以上研究问题的分析,已经大致展示了医疗健康大数据领域的研究内容:

(1)医疗健康大数据应用需求研究

(2)医疗健康大数据关键技术研究

(3)医疗健康大数据中心构建

(4)医疗健康大数据平台研发

(5)医疗健康大数据分析与挖掘研究

(6)医疗健康大数据应用系统开发

这些研究内容之间具有以下逻辑关系:首先,研究医疗健康大数据应用需求;其次,研究面向医疗健康的大数据整合与融合技术、数据语义化处理技术和大数据分析和挖掘并行化处理技术等关键技术;以医疗健康业务数据为核心,融合互联网数据、政府相关行业数据、第三方健康数据(PHR)、个体基因数据以及生物样本数据,完成医疗健康大数据中心建设;在此基础上,构建医疗健康大数据平台,开展医疗健康研究分析,实现基于大数据的健康服务应用。