#人口迁徙#疫情在西方的扩散,考验他们剥掉“数据隐私”的能力


观察者网:很高兴有这样一个机会能和赖博士直接对话 。 我首先联系到了塔特姆教授(A.J.Tatem) , 他帮我联系了赖博士 。 你的专业是地理与环境科学 , 研究人群迁徙的季节性流动与传染疾病防控的关联 , 可否谈一谈这个课题是否和某些国家的数据库基础设施建设有关?
赖圣杰:我属于英国南安普顿的WorldPop研究团队中的一员 , 这个团队差不多有四五十个人 。 Tatem是我们团队的头 。 我本科是武汉同济医学院毕业的 , 学的是公共卫生学院的预防医学专业 , 所以对武汉的情况很了解;硕士是在中国疾病预防控制中心读的 , 和传染病和流行病学相关 , 后来就留在了中心工作了好多年 , 我是在2017年离开后 , 来英国读了地理学博士 , 主要还是和传染病和流行病学相关 , 即人口的流动和传染病的关联问题 。
你提到的数据库对我们来说是必需的 , 而且需要多种不同类型的数据来验证假设是否精准 , 比如要分析传染病是否和气候环境足够相关 , 这就需要对应的地理环境的空间分布的数据 , 所以我们这个团队有很多不同类型的数据库和数据分析中心 。
但我们本身不产生数据 , 我们是从别的来源搜集数据或者采用二手数据 , 比如武汉对人群流动的管控用到了百度地图和腾讯的人口迁徙数据 , 这些平台公布的数据都可以为我所用 , 而且我们还可以跟不同的医疗机构进行合作 , 验证我们的想法和假设 。
#人口迁徙#疫情在西方的扩散,考验他们剥掉“数据隐私”的能力
本文插图
Worldpop根据手提电话数据、航空数据等数据 , 分析近6万个武汉人于封城前两星期 , 乘搭飞机离开武汉的路线图 。 估计有834名受感染者由武汉离开至382个非中国城市
观察者网:如果是这样的话 , 某些欠发达国家的基础设施建设相对比较差 , 相应的数据搜集和积累能力不足 , 会不会很影响你们团队在某些区域的研究分析 , 比如在非洲?
赖圣杰:电信设施其实很多都做到了全球覆盖 , 比如沃达丰和orange等等 , 有统一的数据服务中心 , 在非洲很多国家也布置了一些 。 所以说我们要掌握基于通讯方面的数据并不会很难 , 我们这个团队在非洲也做出了很多成果 。 反倒比较困难的是在发达国家 , 因为这涉及到数据隐私的问题 。 所以疫情到来之后 , 一定要把数据“去隐私化” 。 很多西方国家担心有信息泄露的风险 , 欧盟隐私数据保护条例非常严格 , 所以要拿到相关数据不得不提交一些报告和审查 , 程序是非常繁杂的 。
国内的信息保护机制也是越来越健全 , 我们之前也和国内的通信运营商有些合作 , 但问题是其数据中心都分布在各个省份 , 没有汇总全国情况的服务中心 , 想得到这部分数据确实是很难的 。 但是通过一些手机APP , 即用互联网公司公开提供的数据相对利用起来更快一些 。 时代毕竟在变化 。
另外一点不得不说 , 这还涉及到信息费用的问题 , 在国内曾经想去跟移动和联通合作 , 但是他们的开价很高 。 我们也曾和谷歌和非洲当地的通讯运营商合作过 , 最终以自愿的方式无偿分享数据 , 但毕竟还有数据加工的人力费用成本 。 总的来说 , 我们不倾向于买数据 , 首先这个价格会很昂贵 , 而且还涉及到不同团体的利益冲突 。
观察者网:可否谈一谈WorldPop团队目前研究遇到的困难还有哪些?
赖圣杰:很多问题是普遍性的 , 也不单单是我们团队遇到的 , 即数据的整合 。 比如地理空间与人口数据的整合分析 。 例如 , 手机的数据一般只能覆盖成年人 , 无法涵盖到很多幼年的小孩 , 也就是说做不到覆盖全人群 , 由此造成的模型偏差需要进一步去阐释 , 这和人口普查不一样 , 我们只能尽可能掌握最大的样本 , 但毕竟还是有误差和偏移;另外我们要考虑这个数据是怎样产生的 , 它毕竟不是从黑箱里出来的 , 是否足够能阐释科学问题等等 。 比如武汉市人口流入流出的数据全貌还是需要和最后全国各省市确诊人数的数据比对 , 空间和时间相结合 , 来验证当初我们的假定精确率有多少 。 所有的传染病预测模型都像天气预报一样 , 也是不可能百分百准确的 。


推荐阅读