对抗新冠肺炎疫情 数据科学大有可为 | patterns主编声音
随着新冠肺炎在全球范围扩散,越来越多的科学家投入到相关研究中,以期用科学的力量战胜疫情,让人们的生活早日回到正轨。
patterns作为cell press(细胞出版社)旗下一本优质开放获取期刊,在整个数据科学领域发表具有开创性的原创研究。主编sarah callaghan博士近期发表观点文章,探讨数据科学在战胜疫情过程中不可替代的作用及潜力。cell press官方微信特将全文翻译如下。英文原文已于4月7日上线,欢迎访问阅读。
*以下中文内容仅供参考,请以英文原文为准。
作者:sarah callaghan博士
注:本文来自"柳叶刀lancet"
2019年暴发的新型冠状病毒绝不仅仅是一个数据科学问题,更是一个严峻的公共卫生问题,疫情夺去了无数人的生命,也让我们沉痛地去反思一些重要的社会议题:医疗服务的供给与定价、劳工权利乃至出行自由。
但是,作为一名数据科学家,我发自内心地认为应当从数据科学的角度去审视这一问题。我们都曾在twitter上看到用excel绘制出的各种图表,不论是指数型增长的,还是压低了疫情高峰的平滑曲线,我们可能因此感到安心或者恐惧,或者会怀疑这些图表的可信性。这就是一个数据科学问题。除此之外,此次疫情中还有许许多多其他的数据科学问题,我将在本文中一一探讨,希望借此启发大家去思考数据,并从中获得更多力量,以明确当下恰当的应对措施。
数据收集与解读
即便是在这个最好的时代,流行病的数据收集依然不容易。大数据的崛起为临床工作者和研究员提供了存储海量数据的系统,也赋予了他们挖掘利用这些数据的能力,但公共卫生领域关键的监测系统依然主要是依靠人工收集、编码的数据,这些数据收集速度慢且传播困难。传统的卫生监测体系臭名昭著,不仅时滞严重,而且无法解决地点分散的问题,当前的情况也证明我们亟需一套稳健、及时且能够因地制宜的系统[1]。
在很多其他领域,高分辨率数据的即时采集和分析已经很普遍了,公共卫生领域的数据科学家应该向这些领域的同行学习。就新冠病毒而言,因为大部分感染者临床症状轻微,主要靠自愈,所以在疫情早期依赖医院和全科医生的病例数据来估计病毒传播程度可能会得出错误的结论。疫情报告倾向于关注患病率和死亡率,统计实际到医疗机构寻求检测或治疗的人数也更为简便。
我们都需要知道的一个重要事实是,大部分国家实际上并不是在统计到底有多少人感染了病毒,而是在统计有多少感染病例的相关报告,就像所有的计量标准一样,这些数字会因为衡量标准的不同而有所出入。检测数量的提升会带动确诊病例数量的上升。
在本文写作前,只有冰岛对足够大的人群样本进行了系统性筛查,包括那些没有症状的人,这也让我们得以知晓有多大比例的人是无症状感染者。这不仅有助于了解人群中的总体患病率,也会帮助我们了解病毒的传播方式,甄别疫情遏制措施(扩大社交距离等)的有效性。
抛开政府掩盖疫情这种阴谋论,一个很简单的事实是新冠检测并不便宜。也就是说,某个国家收集到的疫情数据不仅受病毒传播情况的影响,也与另一个因素息息相关,即当地卫生机构是否具备足够雄厚的财力来为每个担心自己感染的人提供检测。
这是一个典型的数据抽样问题,数据科学家有能力去解释这个问题,以缓解病例日益增长给公众带去的担忧,同时与卫生工作者一道更好地去理解病毒的传播和病例的分布。
收集准确的数据并了解已收集数据的局限性,对于洞察疫情而言必不可少。没有良好的数据,政策制定者就无法做出恰当的决策,而数据科学家可以在这方面做出贡献。
数据建模和预测
一旦我们取得数据,问题就变成了:接下来会发生什么?疫情会如何扩散?如果我们采取某些非药物干预措施的话,会对疫情传播产生何种影响?和全国范围内的隔离相比,扩大社交距离的有效性如何?某些措施(比如将学校关闭一个月或者更长时间)会有什么长期影响?我们如何根据对社交网络和人类行为的理解去追踪病毒传播?和现场观看足球比赛相比,在酒吧看转播的感染风险是否也很高?
在与其他研究者合作的情况下,数据科学家是回答这些问题的不二人选。已有相关研究得到发表[2],但是随着形势不断演变、不同国家采取不同的应对措施,模型结果和实际情况之间可能会有出入。大流行初期的指数增长曲线是基于简单的假设,尽管备受瞩目,但是很快就会与实际情况出现差异,这也是为什么我们需要持续监测疫情发展。更为复杂的模型,比如帝国理工学院新冠疫情小组的报告,尽管为了信息时效性而舍弃了同行评审这个双重检验过程(不过出版后进行了同行评审),但是采取了更为精细的方式,而且在英国政府决策过程中发挥了非常重要的影响。其他在社交媒体上广泛传播的文章也使用了数据建模来支持特定的公共卫生政策。
所有的模型都是错误的,这是举世公认的事实,但是有些模型是有用的。数据科学的作用不仅在于建立模型,还在于确定模型在哪些方面是错误的,在哪些方面又是有用的,因为模型的结果会和数据一道为抗击疫情的决策提供信息支持。
我想敦促所有希望助力数据建模的数据科学家,不要简单地把数据扔进自己熟悉的分析软件里,这样得出的数字可能会非常吓人,尤其是在缺乏流行病学知识的情况下,因为流行病学家在分析时需要考虑很多专业知识。相反,我想鼓励大家加入kaggle2019新冠病毒开放研究数据集挑战(covid-19 open research dataset challenge,cord-19),发挥各自的优势、共同协作。
数据可视化和传播
信息图表和数据可视化可以有效地呈现风险及原始数据。数据科学家具备丰富的经验和知识,可以准确、有效地转化数据信息,使之具备视觉吸引力的同时又易于理解。数据科学家还能依托最新的数据,创造交互性、不断更新的信息源,保证民众知悉最新数字。
确保正确的信息具备吸引力且易于分享是至关重要的,因为这个时代大部分人都从社交媒体上获取大量信息。可视化不仅具备传播最新信息的潜能,也有可能会诱发恐慌。请记住,很大一部分民众并不擅长数学(甚至包括计算障碍),所以对你而言显而易见的数据科学家,在其他人眼中可能并非如此。
“#压低疫情高峰”这一话题标签及相关示意图、动图在社交网络上广泛传播。这是一整套具备吸引力的信息,易于分享、便于理解,也让民众能够掌握疫情现状。如果我们采取基本的预防措施,比如洗手,我们便能帮助减缓病例增长速度,以免给卫生体系造成过大负担。这样的信息十分重要和强大,值得传播。
其他简单有效的视觉化优秀案例可参见和约翰·霍普金斯大学新冠病毒资源中心。交互性计算器,如gabriel goh所开发的,也很有用,但是对不了解数据科学或流行病学、或不愿研究引用和底层假设的民众来说容易造成恐慌。类似的,世界卫生组织每日发布的疫情报告便于阅读,清晰易懂地总结了主要信息。除了生产和定义数据之外,对数据及其报告进行标准化也是一项数据科学工作。
疫情结束后
现阶段没有人能准确、绝对地预测此次大流行的结局、总体感染率或最终死亡人数。人们感到担忧而疫情依然存在不确定性,这对所有人而言都是一个困难时期。我们根本不知道接下来会发生什么,但是有了数据科学的帮助,我们有比以往任何时候更大的可能去做出准确的预测。
但是即便大流行结束了,依然会有许多数据科学工作需要完成[3]。因为没有新的病例出现,数据收集工作也许会结束,但是那时我们需要保证已收集的信息得到妥善存储和管理。事后回看疫情可能是痛苦的,但只有这样我们才能保证此刻吸取到的教训能被永远记住。疫情结束之后,我们也需要去反思哪些(医疗、科学、社会)系统和框架是行之有效的,哪些又是绊脚石,以期有所改进。
我们也需要评估一些疫情期间的应对措施。例如,在危急时刻通过手机信号追踪感染者是遏制病毒传播的理性做法。但是当时局不再紧迫,我们需要去反思是否有另外一种方式可以在达成目的的同时,又不侵犯个人隐私或其他我们所珍视的权利。我们作为一个社会整体,为了保障健康和安全,愿意接受什么样的代价呢?而数据科学又如何帮助我们在改善社会健康的同时,减少对权利的影响呢?
铭记冰冷数字背后的生命
数据科学和数字、统计、曲线和分布打交道,因为在总体水平上这种方式比较容易,而且我们的工具辅以海量数据能够发挥出最大的效力。这是无法苛责的。
如果说有什么是我想恳求的,那就是我们所有人,无论是不是数据科学家,都能记住在这些冰冷的数字背后是一条条鲜活的生命。那是为自己或所爱的人而担忧、害怕的有血有肉的人。绘制死亡曲线,告诉人们60岁以上或有基础病症的患者最有可能去世,这是再容易不过的。但是当我们意识到这些数字意味着我们年迈的父母或祖父母、或者免疫功能低下的朋友和家人,正处于最大的风险之中时,又该作何感想呢?
我们活在这个充满挑战的时刻,但是依靠正确的数据和科学,我们一定能扭转乾坤!