By 超神经
内容概要:秘鲁数字调查机构 ojo-publico 联合数据科学家、调查采访人员和法律专家 , 打造了一个针对政府开放数据的贪腐调查 AI , 揭露了多个违规采购、贪腐行为 。
关键词:数据科学 政务AI 调查新闻
在博尔赫斯的一篇小说《博闻强识的富内斯》中 , 描写了一个具有超凡观察力和记忆力的天才——富内斯(Funes) 。
年轻的 Funes 在一次坠马意外后 , 获得了惊人的记忆力和观察力 。 他能够回忆出过往经历的每一个细节 , 书里的每一个文字 。 甚至能够观察到生活、自然界中如新芽生发、花瓣凋落的细微变化 。
小说里的 Funes 富内斯就像开了天眼 , 有着观察、记忆、理解、阐释一切的能力 。
贪腐 AI Funes:揪出合同中的违规线索
这篇小说给秘鲁的数字调查机构 ojo-publico 带来了灵感 。 他们认为博尔赫斯笔下 Funes 就像现在的算法 , 能够发掘出表象下很多潜藏、未知的秘密 。
该机构中的调查采访人员、数据库工程师、算法专家和法律顾问 , 一共四人通力合作 。 基于秘鲁政府公开的 245000 份政府采购、工程建设、选举捐赠的合同和账务明细 , 历时两年 , 训练出了一个用于审查问题合同的 AI 模型 。
文章插图
Funes 官网 https://ojo-publico.com/especiales/funes/
这个 AI 模型能够判断合同中的腐败、违规的风险 。 调查团队认为这个算法有着观察、审核所有细节的超能力 , 致敬了博尔赫斯的经典小说 , 便将模型命名为 Funes 。
截至目前 , 基于 Funes 细致的核查工作 , 共核查出了 110000 份问题合同(共 245000 份合同) , 金额为 570 亿新索尔(约为 1009 亿人民币) 。
基于这些问题合同的线索 , 采访人员团队进行了更深入的调查和求证 , 揭露了多项秘鲁政府腐败、违规的政府采购行为 , 涉及到秘鲁多家大型企业 , 涉案金额近千亿欧元 。
采购中的猫腻 , AI 目光如炬
其中牵扯出了几起秘鲁近年的腐败行为的大案要案 , 包括:
秘鲁国有的石油精炼加工公司 Petroperú , 在四年时间里通过参与多个州、省的公开招标 , 获得了近 24 亿人民币的政府采购项目 。
其中 90% 的项目 , Petroperú 都是作为唯一参与投标企业获得的 , 这严重违反了秘鲁政府采购的法规 , 也影响了市场正常竞争 。
Funes 还从 24 万份政府采购合同与数据中发现 , 有数千万元的财政支出支付给了成立不到 20 天的公司 。
比如 , 餐饮公司 Melcesca 注册于 2015 年10 月 23 日 , 成立两周不到的时间 , 就获得了秘鲁圣安东尼奥阿巴德·库斯科国立大学(Unsaac)举行了一项公开招标 , 成为了该校食堂的供应商 。 (该项采购招标共有 16 个投标方)
文章插图
部分由 Funes 揭露的案件已经进入侦查、公诉阶段在秘鲁国内引发了巨大的舆论关注
与此类似的违规操作和风险合同 , Funes 发现了十一万份 。 Funes 敏锐的洞察力和极高的判断力 , 来源于成熟的商业调查和成熟的算法支持 。
在公共政策与社会学的研究领域 , 有不少学者致力于政府信息公开和贪腐问题的研究 。 Funes 的算法也是基于一位资深学者 Mihaly Fazekas 的研究成果之上的 。
Mihaly Fazekas 是剑桥大学人类、社会和政治科学的博士研究员 , 在他的研究中 , 有一套针对政府采购合同、账目流水的贪腐检测算法 。
他发现 , 有几类明显特征的合同 , 是违规、贪腐案件的突破口 。 只要抓住这些特征 , 就可以从海量文书中 , 找到这些合同和与其相关联的资料 。
这些特征包括:
非公开的招投标;
招投标信息的公示时间明显较短;
竞标者中 , 规模、实力明显悬殊;
采购合同包含大量修改;
中标决策时间过短或过长的 。
他依据这些判断设计了一个评估模型 , 将 CRI (Corruption Risk Index)定义为腐败风险指数
其中 CRIi 代表合同 i 的腐败风险指数 ,
CIji 代表合同 i 招标中观察到的第 j 个基本腐败指标 ,
wj 代表第 j 个基本腐败指标的权重 。
CRI=0 表示最低腐败风险 ,
CRI=1 表示观察到的最大腐败风险 。
其中 , 如果第i个合同只有一个投标人 , 则单个投标人等于1 , 如果有更多的投标人 , 则等于0;
Zi 代表合同为单标合同的对数;
β0为回归的常数 。
Rij 为第 i 个合同的 j 个腐败矩阵 , 如公示期的长度 。
Cim 代表第 i 个合同的 m 个控制变量的矩阵 , 如公示期长短;
Cim 代表第 i 个合同的 m 个控制变量的矩阵 。
市场上的竞争者;εi 为误差项;
β1j、β4m 代表系数的向量 , 解释变量和控制变量 。
基于 Mihaly Fazekas 的算法 , 团队中的算法工程师 Gianfranco Rossi 还针对海量数据进行数据库优化、西班牙语合同的文字识别的改进、以及针对秘鲁国情的风险指标调整 , 极大地提升了 Funes 的运行效率和效果 。
数据公开 , 实现透明 , 推动创新
开放政府数据 , 引导公众监督 , 有利于提高政府透明度 , 也有利于促进经济发展和社会创新 。 这方面 , 目前欧盟和英国正走在最前列 。
清华大学公共管理学院的三位学者 , 曾经在研究《政府数据开放与腐败防治:英国的实践与启示》指出:开放数据可以促进社会监督 , 公众通过开放的数据可以发现腐败行为 。
报告显示 , 揭露腐败行为最多的是执法部门(34%), 然后依次是调查采访人员(25%) 、信息公开请求(14%) , 举报(13%) , 开放数据(7%) 。
虽然目前通过开放数据揭露的腐败行为只占到 7% , 但如果某些关键数据及早公开的话 , 大量腐败行为可以更早地被发现和侦测 , 开放政府数据有潜力成为反腐败的重要工具 。
即使政府信息公开 , 也提高了复杂合同和海量交易数据的处理门槛 。 在 2009年 , 英国议员滥用公款报销个人账单丑闻接连被媒体曝光 。 英国三大政党、300 余名议员卷入其中 。 面对议员们浩如烟海的报销凭证、申请文书 , 《每日电讯报》、《卫报》等媒体在互联网上公开了大量数据 , 并邀请英国民众“众包式”地参与调查 。
文章插图
除《卫报》的众包式调查 , 《每日电讯报》也将调查程序设计成游戏形式
民众在数据中发现疑点 , 可以将对应数据在网站上进行标注 , 调查团队将继续跟进 。 但众包之下 , 也问题重重 , 没有受过调查训练的民众并不能高效、准确地完成这些任务 。
Funes 的出现 , 就实现了政府公开数据揭露腐败行为的突破和最佳实践 , 以数据科学家、调查采访人员、法律专家组成的四人团队 , 有力的展现了人+ AI 的强大调查能力 。
Funes 依然在行动
截至目前 , Funes 仍作为一项开放、准确的调查工具 , 活跃在秘鲁新闻调查的前线 。
并从去年开始 , 打造 Funes 的数字调查机构ojo-publico 已经在用 Funes 核查新冠疫情期间的政府采购项目 。
文章插图
内容参考:
Funes 官网 https://ojo-publico.com/especiales/funes/
journalismAI Festival 2020 项目
全球深度报道官网 https://cn.gijn.org/
【秘鲁_时政|历时两年,秘鲁四人调查团队发布反腐 AI】本文经授权转载自HyperAI超神经(ID:HyperAI) , 如需二次转载请联系原作者
推荐阅读
- 澳大利亚_时政|软的不行要来硬的?澳大利亚要向WTO状告中国:对大麦加税不合理
- 澳大利亚_时政|澳洲疫苗接种计划完成或推迟到明年初,供应短缺310万剂
- 日本_时政|别信谣言了,这才是日本支援中国免疫规划的真实历史
- 游隼|卫星追踪历时六年 中国科学家领衔揭开游隼迁徙秘密
- 秘鲁_社会|秘鲁确诊和死亡病例呈下降趋势 旅游业或从2024年复苏
- 美国_时政|美国正式重新“入群”
- 马来西亚_时政|马来西亚2月21日将接收首批辉瑞新冠疫苗
- 美国_时政|拒绝美国加入,中国科学家已经说得很明白了:他的技术真的不行
- 日本_时政|为何日本学者都喜欢来中国?日本人说出实话:我们不是为了金钱
- 美国_时政|武汉调查有了结果,美国该是下一站