用大数据预测疾病趋势 小心踩到雷区
在大数据被热炒的今天,你一定从哪里听说过,谷歌用搜索和大数据技术来预测流感发生。大数据粉丝们对此捧红得不得了,这就是著名的“谷歌流感趋势”(Google Flu Trends)项目。粉丝们认为,利用大数据预测疾病发生,是公众健康的福祉。
不过,身在美国的卫生经济学家陈茁向健康界介绍,这一始于2008年的项目如今在美国遭遇到了很大质疑。
他介绍,尽管“谷歌流感趋势”在2009年的成功表现让人大吃一惊,但接下来,项目高估了类流感的发病率,有时甚至比美国疾控中心的数据高出一倍以上。
不过,熟悉统计学的陈茁结合他过去的一些研究,对“谷歌流感趋势”与美国疾控中心数据偏差产生的原因进行了分析,并对谷歌项目提出了改进建议。
他的观点很明确,类似项目应该在数据准确方面有所改进,不切实际的过高期望有可能会“捧杀”大数据。但他相信,如果方法得当,大数据对疾病预测依旧有巨大的潜能,还可以在疾病监测防控之外发挥难以比拟的作用。
中国卫生领域对大数据的支持者近大概是喜忧参半。一方面,中国国家疾病预防控制中心与百度合作,进行疾病预测防控;另一方面,美国“谷歌流感趋势”项目的准确性遭受到质疑。
“谷歌流感趋势”是谷歌公司2008年上马的一个项目。它的想法是,根据美国各州和主要城市对流感短语的搜索,来预测流感的暴发。
项目背后的原理也很简单:如果某地流感开始流行,那么相关疾病的谷歌搜索就会增多。谷歌研究团队2009年在《自然》上发表的文章引起很大反响。他们准确预测了2009年流感流行,让人大吃一惊。
其实,对于利用搜索引擎及相关数据预测卫生领域指标,业内早有相关研究。哈佛大学陈怡玲和合作者利用Yahoo的搜索数据,曾预测过肺炎和流感相关死亡数,相关研究于2008年发表在《Clinical Infectious Disease》上。
“谷歌流感趋势”为何受质疑
2009年以后,“谷歌流感趋势”项目的表现一直不尽如人意。2011年~2013年间,项目多数高估了类流感发病率,有时候甚至比美国疾控中心的数据超出一倍以上。原因到底是什么?
我个人认为,其中一个原因就是大家被“谷歌流感趋势”2009年的成功迷惑了,寄予了它过高的期望值。
现实要远比原理复杂。谷歌搜索的结果和使用者人群“自我估计”的流感发病率相关。“自我估计”实际上很有问题。这是因为,普通感冒在不同个体身上的严重程度上会有差别,有些患者因为担心,便搜索了相关信息。这些搜索构成了类流感“自我估计”中的“噪声”。所以,“谷歌流感趋势”模型中的“噪声”需要谨慎对待。
另外,美国疾控中心的数据来自各地实验室或医疗服务提供商,反映的是就诊发病率。由于不是每个类流感患者都会去看病,美国疾控中心的数据跟真实发病率也会有差别。
某种意义上说,谷歌流感趋势的预测和美国疾控中心数据是两个不同的指标,两者不一样并不奇怪。相对于就诊发病率,我认为“谷歌流感趋势”结合传播动力学来预测流感暴发概率,可能会更好一些。
当然,如果只用“谷歌流感趋势”,还想准确地预测流感发病率,无疑是歧路亡羊。
“谷歌流感趋势”项目失误的另外一个原因是在数据分析方面存在欠缺。哈佛大学GaryKing和搭档的研究就指出了谷歌项目在分析上的不足。
首先,这个项目没有尽可能利用传统的统计分析手段来剔除系统误差,比如残差的自相关性和季节性。
其次,“谷歌流感趋势”忽略了其他数据的作用。如果结合美国疾控中心的数据,谷歌的预测其实有可能被大大改善。我曾在明尼苏达大学杨宇宏教授的指导下做过“预测合并”的研究,“预测合并”可以改善预测精度,这或许是一个可行的改进方向。
另外,有推测认为,随着项目开始广为人知,很多人开始跟进研究。大家都搜索流感相关短语,也增加了不少“噪声”。这个问题相对来说比较容易解决,因为谷歌可以确定搜索是否源于研究机构子网中,然后进行排除。
而且,Gary King等也委婉地对谷歌研究团队提出了批评,认为其数据分析不够透明,没有将完全的“搜索短语集”公布出来。
中国CDC与百度合作要避免雷区
尽管谷歌的项目遭遇质疑,但我个人认为这种质疑不足以否定大数据对国民健康的潜在贡献。我也相信,大数据还可以在疾病监测防控之外发挥难以比拟的作用。
根据美国2010平价医疗法案(ACA)建立的循患果效研究所(Patient-centered Outcome Research Institute)曾经资助了一个大数据项目。该项目旨在利用11个不同医疗服务网络的数据,来找出医学干预有可能产生的不同效果,并为找到合适的随机临床试验受试者提供线索。
此外,随着信息技术的发展和相关软硬件性价比的提高,相当多的数据服务商和地区医疗服务网络已开始利用大数据,寻找有效和具成本效益的医学、预防和干预手段。老牌MarketScan等数据服务机构受到新兴机构的挑战,如医疗成本研究所等。
我相信,中国国家疾病预防控制中心与百度的合作前景可期。百度的数据结合中国国家疾病预防控制中心观测点的数据,可提供更多更全面的原始信息。如果配合严谨的分析,这有可能开辟疾病监测防控的新天地。
对于上述合作,期许之外,我也有一些建议:
一个是应该更加重视分析方法,不能因为有了大数据就放弃对分析方法的重视和探索。没有合适的方法,大数据也可能导致错误的结论。比如,百度的使用人群会有不同的特征,利用百度数据进行推测疾病,就需要考虑这些特定人群与一般人群之间的差异。
另外,也需要考虑个人隐私和流行病监测之间的平衡。
后,对标准化的重视会减少大数据应用过程中的错误。这一点对医院和各地疾控机构信息化建设尤为重要。
相关文章:
相关推荐:
网友评论: