医学大数据领域的发展态势研究

摘要:本研究采用文献计量学的方法对医学大数据领域发展现状进行了分析,并分别采用共词分析和共引分析对研究热点和研究前沿进行了识别。通过对医学大数据领域的特点分析,可以了解该领域的研究现状和发展态势,从信息学角度为医学大数据的研究提供一定的借鉴和参考。

关键词:医学大数据;文献计量;研究热点;研究前沿;可视化

1 引言

随着移动互联网、物联网、社交网络等技术和应用的兴起,全球范围内数据量迅猛增长,大数据时代己经来临。学术界和工业界都对大数据赋予大量的关注并展开了深刻的讨论。Gartner在一年一度的技术成熟度曲线报告中指出,大数据已进入膨胀期,并将在未来年进入发展高峰期。大数据是未来信息技术的重要发展方向之一。在医学领域,随着社会经济的发展和医疗卫生的进步,人类疾病谱正在发生改变,疾病种类不断增多,病因、诊断及治疗的复杂性也在逐渐增加。为提高人类的健康水平,探索疾病的发生、发展规律,需要我们不断探究,通过对医学大数据的充分挖掘和利用,从海量的知识中发现隐藏其中的规律。这对于提高医学信息管理水平,为诊断和治疗疾病提供理论和方法学的支持,促进临床实践和决策将发挥重要作用。

本研究采用文献计量学方法,对Web of Science数据库中医学大数据领域的研究论文进行分析,从论文数量、国家/地区分布及合作、研究热点、研究前沿等多个角度对医学大数据的研究现状和发展态势进行分析。

2 数据来源与方法

2.1 数据来源

数据来源于Web of Science数据库,数据检索及下载时间为2016年12月。检索策略:以“医学大数据(Medical big data)”为主题进行检索,限定文献类型为“Articles”,语言为“English”,共得到2286条数据。

将数据导入到Thomson Data Analyzer 3.0分析工具(TDA, Thomson Reuters Co., New York, NY, USA)中进行数据清洗及文献计量分析,借助VOSviewer等软件进行可视化。

2.2 研究方法

共词分析法主要是对同一篇文献中词汇对或名词短语共同出现的次数进行统计,以此为基础对这些词进行分层聚类,揭示出这些词之间的亲疏关系,进而分析它们所代表的学科和主题的结构变化。 词汇对在同一篇文献中出现的次数越多,则代表这两个主题的关系越紧密。由此,统计一组文献的主题词两两之间在同一篇文献出现的频率,便可形成一个由这些词对关联所组成的共词网络,网络内节点之间的远近便可以反映主题内容的亲疏关系。关键词可以反应论文的核心内容和主题,共词分析可以揭示一个领域的研究重点。本研究采用共词分析的方法,对医学大数据领域的研究热点进行识别。

共被引是指2篇(或多篇)文献同时被后来的一篇或多篇文献所引证,则称这2篇文献(被引证文献)具有“共被引”关系。以引证它们的论文数量(引证文献的数量)多少来度量其“共被引”关系,共被引强度越大则表示这2篇文献的关系越密切。共被引分析法就是利用一批具有一定学科代表性的文献为分析对象,运用聚类分析法、多维尺度分析法等多元统计分析方法,并借助于计算机把这些文献之间存在的错综复杂的共引关系,简化成数目相对较少的一些类群之间的关系,并以更为直观的方式予以展示,在此基础上,分析这些文献所代表的学科、领域及文献的结构特点。引文分析也是文献计量分析的重要内容,可以反映一个领域的研究前沿。本研究采用共引分析的方法,对医学大数据领域的研究前沿进行识别。

2.3 可视化

共词矩阵和共引矩阵采用VOSviewer软件进行聚类分析和可视化。VOSviewer是一款可视化软件,被广泛应用于各类“共现”分析,能够绘制引文、关键词等共现图谱,该软件在聚类技术、图谱绘制等方面具有独特优势。本研究采用VOSviewer軟件分别对共词矩阵、共引矩阵进行聚类分析来凝练研究热点和研究前沿,并对聚类结果可视化,得到医学大数据领域的知识图谱。

3 结果与分析

3.1 论文数量年度分布

Web of Science数据库共收录医学大数据领域研究论文2286篇。总体来看,发文量处于稳定增长的态势。由图1可见,1990年发表该领域的第一篇论文,最初几年发文量较少。2000年后,进入一个稳定增长时期,2010年后,年发文量超过100篇,且增速明显,2016年达到峰值453篇。从年增长率来看,近些年医学大数据领域处于一个稳定增长的态势,发展势头良好。

3.2 国家/地区分布

根据Web of Science数据库统计发表医学大数据论文的国家/地区分布情况,从空间上把握该领域研究成果的分布特征。全球共有112个国家/地区在该领域有论文发表,其中发文量排名前10位的如图2,其中发文量排在第一位的是美国(817篇),发文量远超排在第二位的英国(237篇)。中国发文量全球排名第三,有237篇,其他国家/地区发文量都在200篇以下。发文量在100-200篇之间的有4个国家/地区,分别是:德国(174篇)、澳大利亚(129篇)、意大利(118篇)、加拿大(113篇)。发文量100篇以下的有3个国家/地区,分别是:荷兰(87篇)、法国(76篇)、瑞士(73篇)。

从图3可以看出排名前10位的国家/地区的发文量年度变化趋势,美国的发文量增长最快,且增速明显。2010年之前,其他国家/地区与美国的年发文量差距不明显。但2010年后,美国的年发文量远远领先于其他国家,处于绝对的优势地位。中国的年发文量从2014年开始略高于英国,处于全球第二位,表明2014年之后中国在医学大数据领域进入一个快速发展阶段,但与美国相比还是存在较大差距。

通过国家/地区的合作网络分析,可以了解医学大数据领域的国际合作情况,对发文量前10位的国家/地区构建共现矩阵,用Netdraw绘制合作网络图(如图4所示)。网络中两个节点联系的粗细代表两个国家/地区的合作强度,线条越粗表示这两个国家/地区合作的论文数量越多。从图4可以看出,发文量前10位的国家/地区合作发文较多,其他9个国家都是与美国的合作最为密切。中国与其他国家/地区也保持着密切的合作,其中与美国、加拿大的合作发文较多。

3.3 研究熱点

关键词是作者对文章核心研究内容的精炼,通过对高频关键词的聚类分析可以凝练一个领域的研究热点。2286篇研究论文共涵盖Keywords (author’s) 6531个,Keywords (plus) 6882个,通过对对两类关键词进行合并后,共得到关键词10958个,数量排名前30位的高频关键词如表1所示。删除只有记录数只有1条的关键词,选取剩下的top1 %关键词作为分析对象,得到107个。利用TDA软件对107个高频关键词进行共现分析,生成107*107的高频词共现矩阵。将共词矩阵导入到导入到Vosviewer 软件进行聚类分析并进行可视化。

图5是医学大数据领域高频关键词随时间的热度变化,可以看出,近几年比较受关注的研究主题是:大数据(big data)、算法应用(algorithm)、卫生保健(healthcare)、云计算(cloud)、下一代基因测序(next generation sequencing)等。

将TDA生成的高频词共现矩阵导入到Vosviewer中进行聚类并可视化,有一些词与其他词没有联系,去除不相关词汇,得到80个词的聚类结果,对聚类结果进行分析,得到8个研究热点(如图6所示),这8个研究热点分别是:大数据环境下医学信息服务平台构建及网络安全研究、基于模型的医学图像分类算法研究、心脑血管疾病的流行病学研究、基于基因表达数据的乳腺癌生物标志物筛选及预测研究、健康管理服务发展模式及对策研究、体育运动对肥胖人群健康相关的生活质量影响研究、肿瘤患者外科疗效评估与生存分析、随机临床试验治疗糖尿病等慢性病的疗效评价及成本效果分析。

3.4 研究前沿

医学大数据领域共有论文2286篇,共涵盖被引参考文献77467篇,筛选近5年(2012-2016)的被引参考文献作为研究前沿的分析对象,共得到17108篇。删除频次为1的数据,剩余909篇,选取top1%的数据作为分析数据,有91篇。将91篇被引论文导入到Vosviewer软件中进行聚类并可视化(如图7),共得到10个研究前沿(如表2所示,来自87篇文献,其中有4篇论文其他论文均没有关联)。

每个研究前沿是由一组文献组成,每一篇文献都有一个发表年,计算每组文献的平均发表年(如表2所示)。通过每个前沿的平均年,可以判断该前沿的新老情况,从时间上把握医学大数据领域研究前沿的发展脉络。在这10个研究前沿中,最新的研究热点是基于电子病历的医学大数据质量评估及其预测潜力分析(平均年2013.7),最老的研究热点是医疗大数据的数据共享及其隐私保护(平均年2012.4)。

4 小结

本研究采用文献计量学的方法对医学大数据领域的研究进行分析,对其发展历程进行了描述,并对研究热点和研究前沿进行了识别。研究表明,医学大数据领域的发文量呈现逐年增加的趋势,表明医学大数据领域是全球关注的焦点。通过文献计量学的方法可以探明医学大数据领域研究现状和发展趋势,确定了8个研究热点和10个研究前沿,可为医学大数据的研究提供一定的借鉴和参考。

参考文献:

[1]Issa AM, Marchant GE, Campos-Outcalt D. Big data in the era of precision medicine: big promise or big liability? PERSONALIZED MEDICINE 2016;13(4):283-285. doi: 10.2217/pme-2016-0044

[2]Vicini P, Fields O, Lai E, Litwack ED, Martin A, Morgan TM, et al. Precision medicine in the age of big data: The present and future role of large-scale unbiased sequencing in drug discovery and development. Clin Pharmacol Ther 2016;99(2):198-207. doi: 10.1002/cpt.293

[3]Doherty M, Metcalfe T, Guardino E, Peters E, Ramage L. Precision medicine and oncology: an overview of the opportunities presented by next-generation sequencing and big data and the challenges posed to conventional drug development and regulatory approval pathways. Ann Oncol 2016;27(8):1644-1646. doi: 10.1093/annonc/mdw165

[4]Dinov ID, Heavner B, Tang M, Glusman G, Chard K, Darcy M, et al. Predictive Big Data Analytics: A Study of Parkinson"s Disease Using Large, Complex, Heterogeneous, Incongruent, Multi-Source and Incomplete Observations. PLOS ONE 2016;11(e01570778). doi: 10.1371/journal.pone.0157077

[5]Iqbal U, Hsu C, Phung AAN, Clinciu DL, Lu R, Syed-Abdul S, et al. Cancer-disease associations: A visualization and animation through medical big data. Comput Meth Prog Bio 2016;127:44-51. doi: 10.1016/j.cmpb.2016.01.009

[6]Zhang T, Chen J, Jia X. Identification of the Key Fields and Their Key Technical Points of Oncology by Patent Analysis. PLOS ONE 2015;10(e014357311). doi: 10.1371/journal.pone.0143573

[7]Franz Hoppen NH, de Souza Vanz SA. Neurosciences in Brazil: a bibliometric study of main characteristics, collaboration and citations. Scientometrics 2016;109(1):121-141. doi: 10.1007/s11192-016-1919-0

[8]Terekhov AI. Bibliometric spectroscopy of Russia"s nanotechnology: 2000-2014. Scientometrics 2017;110(3):1217-1242. doi: 10.1007/s11192-016-2234-5

[9]Ravikumar S, Agrahari A, Singh SN. Mapping the intellectual structure of scientometrics: a co-word analysis of the journal Scientometrics (2005-2010). Scientometrics 2015;102(1):929-955. doi: 10.1007/s11192-014-1402-8

[10]Huang M, Chang C. A comparative study on detecting research fronts in the organic light-emitting diode (OLED) field using bibliographic coupling and co-citation. Scientometrics 2015;102(3):2041-2057. doi: 10.1007/s11192-014-1494-1

[11]Cornelius B, Landstr?m H, Persson O. Entrepreneurial Studies: The Dynamic Research Front of a Developing Social Science. Entrepreneurship Theory and Practice 2006 2006-05-01;30(3):375-398. doi: 10.1111/j.1540-6520.2006.00125.x

[12]van Eck NJ, Waltman L. Software survey: VOSviewer, a computer program for bibliometric mapping. Scientometrics 2010;84(2):523-538. doi: 10.1007/s11192-009-0146-3

[13]Heersmink R, van den Hoven J, van Eck NJ, van den Berg J. Bibliometric mapping of computer and information ethics. Ethics Inf Technol 2011;13:241-249. doi: 10.1007/s10676-011-9273-7

[14]Waltman L, van Eck NJ, Noyons ECM. A unified approach to mapping and clustering of bibliometric networks. Journal of Informetrics 2010;4(4):629-635. doi: http://doi.org/10.1016/j.joi.2010.07.002