科学家们是如何预测新冠肺炎疫情的感染规模的?
2020-2-18 来源:广东省情调研网
自新型肺炎疫情爆发以来,国内外一些科研机构利用模型对新冠病毒的可能感染规模和传播风险等进行了预测。科学家们认为,模型可以预测疫情的增长速度并帮助预测各种干预措施的影响。
这篇文章本身不是对疫情的分析,而是回顾科学家们对新型冠状病毒肺炎疫情的建模和预测方法。
英国帝国理工大学的一个研究团队是最早使用数据模型预测新冠病毒可能的传播风险的研究团队之一。他们通过观察中国境外确诊患者的病例来推断,截至1月12日武汉市已经有1723人感染这一病毒。
来自香港大学的Joseph T Wu教授和他的研究团队在一篇发表于权威医学期刊《柳叶刀》的论文中利用模型推断了新冠病毒的基本再生数和可能的疫情规模。研究团队参考了官方航空指南中的月度航班数据和腾讯数据库中中国大陆300多个地级市的人员流动信息,基于sars的流行病学研究估计序列间隔,使用易感-暴露-感染-恢复多集群模型估计各个城市多爆发情况,并使用马尔科夫链蒙特卡洛方法(MCMC)以估计新冠病毒的基本再生数。
该模型预测,新冠病毒的基本再生数R0为2.68,即平均1名感染者可感染2-3人。疫情规模每6.4天会翻一倍。假设传播能力在各地相似。其他主要城市疫情爆发会滞后于武汉1至2周。
柏林洪堡大学(Humboldt University of Berlin)和罗伯特•科赫研究所(Robert Koch Institute)的研究人员同样根据航空旅行数据建立了一个全球风险评估模型。研究人员认为,新冠病毒在国际范围内的主要传播途径为民航运输。受影响的枢纽机场航班线路越密集,就可能有更多受感染的旅客来往于这些航班上。而一些国际型枢纽机场的联程和转飞航班更会将病毒扩散到更多相对偏远的航点。
该图显示了从武汉天河机场到全球航空网络中所有其他机场的最可能传播路线
由于模型更强调的是航点间的联系紧密程度,所以在国际上,大阪国际机场受到的潜在病毒输入性风险反而高于东京;俄罗斯受到的风险高于印度;而在欧洲,德国受到的风险最高。
科研人员们都希望能在模型中纳入更多的数据以确保预测结果的科学性和参考性。例如,钟南山院士就在最近接受路透社采访时提到,他带领研究团队基于数学AI模型和近日实时发展的监控,以及中国政府的大力干预进行了预测,推测疫情高峰可能在2月中旬或下旬达到。
但在疫情爆发的早期阶段,由于缺乏数据的支持,研究人员需要使用传统的传染病动力学模型来分析和预测疫情的发展。这些模型包括SIR模型、SEIR模型和SEIJR模型。这些模型的核心是R0,即基本再生数。它指的是如果不受隔离检疫、口罩等防疫措施的干扰,每个感染者可以感染多少人。
英国兰卡斯特大学卫生资讯、计算及统计中心Jonathan M. Read等人在医学类预印本杂志medRxiv上发表的论文预测新冠病毒的基本再生数为3.6-4.0之间。他们预测,如果没有政府有效的防疫措施干预,到2月4日,在最坏的情况下武汉市内将有19万人(预测区间:132,751-273,649)受到感染,同时,上海、北京、广州、重庆和成都会是中国大陆疫情最严重的城市。泰国、日本、台湾、香港和韩国将是通过民航运输受到输入性感染风险最大的国家或特别行政区。
模型同时指出,随着武汉的“封城”,全国各地的输入性疫情风险将减少24.9%。研究人员构建的是确定性SEIR集合人群传播模型。研究人员截取了1月1日-21日间期武汉和全球其他国家的确诊病例,参考OAG交通分析数据库中2017年1月的完整旅客数据和SARS的传播率和康复率,来预测所有中国城市和其他国家在这段时间内的的感染人数,并在R语言中使用optim函数最大化可能性来推算。
西安交大、陕西师范大学和来自加拿大的科研团队合作利用1月10日-22日的报告疫情数据,采用动力学模型和统计计算方法,预测出此次武汉新型冠状病毒肺炎传播的基本再生数为6.47(95%置信区间为 5.71-7.23)。这也意味着平均毎位新型肺炎患者在患病期间,将会感染6个以上的健康人。
韩国国立江原大学助理研究员Thakur Dhakal则试图利用系统动力学的方法来分析冠状病毒扩散的状态。模拟结果显示,从2020年1月20日起,冠状病毒将会在67天后得到控制。模型同时预测,如果没有得到有效的控制,疫情将会在1月20日开始的15天内导致上万人死亡。而在1月20日起的三个月内,将有15万人受感染。但是,这些模拟结果的前提是没有有效防疫措施的干预。
上海财经大学数学学院严阅等人在发表于《中国科学:数学》的一篇论文中使用了基于时滞动力学系统的传染病动力学模型,并通过公开历史数据对模型参数进行反演,来对疫情发展趋势进行模拟。
全国在医院治疗患者总人数预测
模拟数值显示,在现有防控力度不放松的情况下,疫情能在较短时间内得到控制并逐步结束。
北海道大学医学院副教授Hiroshi Nishiura在发表于期刊Journal of Clinical Medicine的论文中使用空间反计算方法对截至1月24日的输出病例进行分析,对疫情的传播风险得出了与英国帝国理工大学研究团队相似的预测,即在疫情的初期,当地政府可能低估了病毒的传播风险和规模。
香港中文大学赛马会公共卫生与基层医疗学院博士生Shi Zhao等人预测R0的范围在2.24(置信区间:1.96-2.55)和3.58(置信区间:2.89-4.39)之间;在疫情早期,感染人数的增加基本遵循了指数增长的趋势。研究人员参考了SARS和MERS的平均潜伏时间,采用NLS框架进行数据拟合和参数估计得出了相应的预测结果。
美国加州大学伯克利分校教授Slav W. Hermanowicz发表在medRxiv上的论文则使用Logistic 回归分析模型从截至1月28日的确诊病例人数中推测中国大陆确诊感染病例的可能数量。预测结果显示,基本再生数R0为2.4-2.5之间,从1月28日开始,确诊人数的指数增长趋势出现向下偏离,这也证实了再生数量的稳步下降,最终确诊病例数量将在2月中旬达到峰值。但作者也提出了这样的预测前提:没有考虑任何其他可能的继发性感染源。
乌克兰国家科学院流体力学研究所博士后研究员Igor Nesteruk在投在期刊Innovative Biosystems and Bioengineering的一篇论文中使用了SIR模型,并通过统计方法确定模型参数的最优值,预测了新冠肺炎疫情感染人数、易感人数和转移人数随时间的变化。预测结果显示,(这篇论文的预测结果我看不懂,只能把作者论文中的图表贴上,如有看得懂的大神,欢迎讨论)
大概就是蓝色圈圈代表的每天公布的确诊病例数量大致对上了作者的那条蓝色确诊病例预测曲线
随着科研人员对新冠病毒的流行病学信息更为深入的掌握,对确诊患者的更多细节的比对,以及将更多干预措施纳入模型推算,模型推算的结果将变得更为清晰和准确。
但正如牛津大学数学流行病专家Robin Thompson所说的,在这次新冠肺炎疫情中,很多新闻报道歪曲了对预测模型和基本再生数R0的作用描述,夸大了疫情传播的风险。他说,“它在这次疫情中被滥用了”。
所以,科研人员在发布自己的模型预测结果时,也要同时清楚地讲明预测是在什么样的条件下获得的。任何一项基于数学模型的预测结果,都不应该脱离条件的制约。也正是基于这些条件,公众才能理解某些看似“可怕”的预测结果背后的真正意义,因此,一个详细而明确的说明,是避免引起公众恐慌的最好办法。
·END·