[数据]美国确诊超50万,约翰·霍普金斯大学疫情地图成全球瞩目中心( 二 )


董恩盛表示:“抓取的主要数据来源是中国医学自媒体丁香园 , 而丁香园的数据来源于国家卫健委和各省市区的卫健部门 。 紧盯丁香园 , 就能确保‘仪表盘’在中国大陆数据更新的及时性 , 每15分钟更新一次 。 ”
而对于中国大陆以外的数据 , 丁香园的更新相对不够及时 , 于是董恩盛等人找到了其他数据来源 , 包括官方机构、新闻等 , 并进行自动监控和手动更新 。
自上线以来 , 该网站的全球日访问量从2亿次上升到了三月初的12亿次 , 甚至一度达到20亿次 。 来自世界各地的网民不断涌入 , 导致服务器一度宕机 , 为此更换了三台服务器 。
对于董恩盛来说 , 做这个项目也有私人因素 。 因为他来自山西 , 随着病毒在中国的蔓延 , 他希望找到一种方法来帮助他的家人和他的家乡 。
“我真的很担心我的家人 , 当我收集数据的时候 , 我可以看到这些红点在不断增长 , 并且从我的家乡蔓延到我所在巴尔的摩 , ”他说 。
[数据]美国确诊超50万,约翰·霍普金斯大学疫情地图成全球瞩目中心
图片

地址:
https://github.com/CSSEGISandData/COVID-19
“我从来没想过会做这么大范围的项目 , 而且是实时的 。 ”对于这个疫情地图的走红 , 董恩盛也觉得不可思议 。 此外 , 这个项目在Github上也备受欢迎 , 目前已收获近两万颗星 。
访问量太大导致亚马逊云计算服务器不堪重负 , 全球最受关注的疫情地图是如何炼成的?
上周五 , 《科学内幕》采访了董恩盛的导师——霍普金斯大学系统科学与工程中心的联合主任Lauren Gardner , 她先前的工作涉及对麻疹和寨卡病毒的流行进行空间建模 。 下面我们和大家分享采访重点 。
[数据]美国确诊超50万,约翰·霍普金斯大学疫情地图成全球瞩目中心
图片

Lauren Gardner
问:现在有很多网站都在追踪COVID-19病例 。 您的网站是如何做到第一的?
答:可能是因为它存在的时间最长 。 我们是在一月份开始这项工作的 , 当时疫情几乎只在中国爆发 。  我的一名中国博士研究生董恩盛对此很感兴趣 。 在几个小时内 , 我们构建了原始的仪表盘 。 第二天(1月22日), 我在推特上分享了它 , 它立刻变得流行起来 。
[数据]美国确诊超50万,约翰·霍普金斯大学疫情地图成全球瞩目中心
图片

问:仪表板利用了数百个来源 , 从WHO数据到汇总有关COVID-19的新闻报道和社交媒体报道的网站 。 您如何确保它是准确的而不会重复计算?
答:一直都有无数双眼睛盯着 。 所以 , 如果我们计算有误 , 人们会立马与我们联系 。 我们收到成千上万封电子邮件 。 我们会被告知 , “嘿 , 这里有两个您不知道的新病例 。 ” 现在 , 我们还有一个异常检测系统 , 可以提醒我们自动收集的案例报告中的差异 。
我们确实要担心陷入循环(将我们自己的数据作为原始数据反馈给我们) 。 有一个美国的媒体聚合网站 , 叫做1point3Acres , 我们非常关注它 。 我们从他们那里获取美国的数据 , 他们从我们这里获取全球的数据 。 我们必须非常小心 , 只参考他们的国家数据 。
我想让所有不同的地方卫生当局继续改进自己的报告 , 这样我们就可以直接从他们那里而不是从当地媒体的报道中获取数据 。
问:您无法从疾病控制与预防中心获得美国数据吗?
答:您会这样认为 。 但是他们只提供州级数据 , 有时会有24到48小时的延迟 。 没有县级的数据 。
[数据]美国确诊超50万,约翰·霍普金斯大学疫情地图成全球瞩目中心
图片

Lauren Gardner
问:您的团队规模有多大?
答:最开始我们团队大约有六个人 。 但是很快 , 霍普金斯就伸出手并在内部提供了支持 。 因为我们的需求导致亚马逊(云计算)的服务器不堪重负 。 现在 , 霍普金斯大学的应用物理实验室为后端数据管理和技术提供了帮助 。 拥有地图软件的公司Esri帮助管理平台 。 霍普金斯大学的人们管理媒体和通讯 。  但是这个团队仍然比我们正在做的事情要小得多 。


推荐阅读