每天点击量超10亿,刷屏全球的疫情数据图原来出自两名中国博士生( 二 )
起初 , 董恩盛和他的导师手动整理数据 , 每天早晚各更新一次 。 但随着疫情形势的变化 , 这种方式变得不可持续 , 于是项目转为半自动化更新 , 杜鸿儒也加入数据收集和图表的制作中来 。
到了3月初 , 这个数据小组将美国疫情信息具体到县一级层面 。 “因为美国郡县大概有3000多个 , 再加上世界上有200多个国家和地区 , 人工完成非常吃力 。 ”董恩盛告诉《中国新闻周刊》 , 于是小组招募了一些志愿者 , 把人员分了很多组 , 有的组负责国外 , 有的组负责美国国内不同地区 , 然后24小时不间断地发布最新数据 。
董恩盛他们的团队也从最开始的两三个人 , 发展到现在包括本系其他博士研究生以及其他学院志愿者 , 再加上合作提供技术支持的公司 , 一共有近50人的团队 。
Dong and his tutor updated the map data manually twice a day, in the morning and evening. But as the pandemic unfurled, they found that manual updates were unsustainable, so they decided to automate parts of it and invited Du to work with them.
As the coronavirus continues to spread, the data that needs to be tracked is increasing. Dong's team has gradually grown from two or three people to now nearly 50 people, including other doctoral students in the department, volunteers from other colleges and some technicians from the company which provided technical support.
董恩盛(左) 和杜鸿儒 (右) 图源:央视新闻
2月1日杜鸿儒加入后主要负责自动更新代码的编写以及将采集的数据和WHO发布的数据做对比 , 确保数据的一致性和准确性 。
Joining the team on February 1, Du's main work is to write code for automatic updates and compare the data they collected with the numbers released by the World Health Organization (WHO), ensuring data consistency and accuracy.
杜鸿儒表示:“最难的就是这些数据源格式不同 , 语言通常也不同 , 我们需要把各个数据源汇总 , 整理、清洗成我们需要的格式 , 再上传到这个数据图表中 。 ”
"The most difficult thing is that these data sources are all in different formats and often different languages. We need to gather each data source, organize and adjust them into the format we need, then upload it to the dashboard," said Du.
根据约翰·霍普金斯大学数据图表官方介绍 , 其数据来源包括:世界卫生组织(WHO) , 中、美、欧的官方卫生和疾控部门 , 各地媒体 , 以及第三方数据平台如丁香园等 。
The data sources include theWorld Health Organization, theU.S. Centers for Disease Control and Prevention, theEuropean Center for Disease Prevention and Control, theNational Health Commission of the People’s Republic of China, local media reports, local health departments, and theDXY, one of the world’s largest online communities for physicians, health care professionals, pharmacies and facilities.
在3月6日于华盛顿国会山举行的一场简介会上 , 劳伦·加德纳介绍 , 这个数据图表受到关注有一段时间了 , 现在平均每天点击量为10亿 , 最高峰一天点击达20亿 。 其间有过几次高峰 , 例如 , 当意大利疫情暴发时 , 许多意大利民众涌入网站 , 意大利用户数超过了美国 。
