网站反爬指南:政府网站篇

网络爬虫正在成为政务网站们最大的威胁之一 。
随着网络安全被提升到国家层面,网站安全管理和防护日趋重要,政务网站既要确保网站信息的及时和准确,又要能应对网络恶意攻击等安全事件 。目前,政务服务广泛分布在交通、社保、民政、旅游、公共安全等多个领域,数据数量大、且大多和国计民生紧密关联,涉及公民个人隐私、企业商业秘密等信息,数据开放性需求带来其附加价值高 。一旦遭到攻击,后果不堪设想 。
比如,2019年,最高人民法院发布的《关于“中国裁判文书网”网站建设建议的答复》提到,“大量技术公司通过爬虫系统无限制地访问非法获取裁判文书数据,造成网站负荷过大,大量正常用户请求堵塞,访问出现速度慢或部分页面无法显示等现象 。”
此外,数据显示,在针对网站的攻击中,60%的攻击对象均是政务类网站,攻击方式也是花样频出,其中国内政府网站40%—60%的网络流量均来自爬虫,在提供公众查询的服务性网站业务中,这一比例甚至更高 。

网站反爬指南:政府网站篇

文章插图
图源网络
黑灰产为何盯上政务网站?
网络爬虫,又被称为网页蜘蛛,网络机器人,是按照一定的规则,自动地抓取网络信息和数据的程序或者脚本 。通俗点讲,网络爬虫模拟人的行为,用程序代替了人的操作,从一个链接跳转到下一个链接,就像是在网络上爬行一样遍历网页 。爬虫跳转、打开、浏览等动作比人的速度快,浏览的网站的层次也更深,所以被称为网络爬虫 。
【网站反爬指南:政府网站篇】顶象与中国信通院联合发布的《数字业务安全白皮书》认为,恶意网络爬取会带来数字资产损失、用户隐私泄露和扰乱业务正常运行等三大危害,并将其列为十大业务欺诈手段之一 。
政务网站拥有大量的信息和数据以及需要较高的稳定性和可用性 。而这类系统本身所拥有的大量信息,也成为攻击者觊觎的目标 。
一方面,攻击者利用爬虫程序获取公开信息,产生大量请求,使得该政务服务网站无法响应请求,形成CC攻击,造成正常用户无法访问,或是查询服务体验下降 。黑产可利用从该政务服务网站获取的信息进行对外收费查询业务,造成不良的社会影响 。
另一方面,除了利用爬取数据进行牟利,更有甚者,直接挪用政府公众服务类网站所有网页及信息,进行网站克隆 。克隆网站通常拥有与真实网站高度相似的域名和首页,用户一般难以辨认 。然而当民众打开一个明为提供国计民生服务、实为不法平台的克隆网站,不仅会看到许多不堪入目的广告,甚至会在不知不觉中被引诱点击诈骗链接 。
网络爬虫对政务网站的直接影响是,政府网站被大规模攻击后,网页打开缓慢、无法正常处理业务等问题会严重影响用户的使用 。为此许多政府网站已经投入大量人力和资金,但在不断更新迭代的自动化攻击面前,改善并不明显 。“爬虫攻击网站——系统宕机——用户投诉——耗资维护”这一过程似乎已经成为一种恶性循环 。
如何反爬?
顶象反爬解决方案依托多年攻防对抗实战经验,提供了动态策略的精准防护;全链路纵深防护,避免“爬虫”的单点绕过;多维度防御,有效拦截各种恶意“爬虫”行为;无感的人机交互验证,有效反爬又不影响正常用户体验 。
1、保障通信传输安全 。黑灰产在业务通信传输的环节,可能会尝试篡改、爬取报文数据 。通过对通讯链路的加密,可防止终端安全检测模块的数据被篡改和冒用 。
2、加强业务安全策略防控 。针对批量爬虫的风险特征,可将社交媒体中各个业务查询场景的请求接入业务安全风控系统 。同时将终端采集的设备指纹信息、用户行为数据等传输给风控系统,通过在风控系统配置相应的安全防控策略,有效地对风险进行识别和拦截 。