网站反爬指南：政府网站篇 _反爬

网络爬虫正在成为政务网站们最大的威胁之一。
随着网络安全被提升到国家层面，网站安全管理和防护日趋重要，政务网站既要确保网站信息的及时和准确，又要能应对网络恶意攻击等安全事件。目前，政务服务广泛分布在交通、社保、民政、旅游、公共安全等多个领域，数据数量大、且大多和国计民生紧密关联，涉及公民个人隐私、企业商业秘密等信息，数据开放性需求带来其附加价值高。一旦遭到攻击，后果不堪设想。
比如，2019年，最高人民法院发布的《关于“中国裁判文书网”网站建设建议的答复》提到，“大量技术公司通过爬虫系统无限制地访问非法获取裁判文书数据，造成网站负荷过大，大量正常用户请求堵塞，访问出现速度慢或部分页面无法显示等现象。”
此外，数据显示，在针对网站的攻击中，60%的攻击对象均是政务类网站，攻击方式也是花样频出，其中国内政府网站40%—60%的网络流量均来自爬虫，在提供公众查询的服务性网站业务中，这一比例甚至更高。

文章插图
图源网络
黑灰产为何盯上政务网站？
网络爬虫，又被称为网页蜘蛛，网络机器人，是按照一定的规则，自动地抓取网络信息和数据的程序或者脚本。通俗点讲，网络爬虫模拟人的行为，用程序代替了人的操作，从一个链接跳转到下一个链接，就像是在网络上爬行一样遍历网页。爬虫跳转、打开、浏览等动作比人的速度快，浏览的网站的层次也更深，所以被称为网络爬虫。
【网站反爬指南：政府网站篇】顶象与中国信通院联合发布的《数字业务安全白皮书》认为，恶意网络爬取会带来数字资产损失、用户隐私泄露和扰乱业务正常运行等三大危害，并将其列为十大业务欺诈手段之一。
政务网站拥有大量的信息和数据以及需要较高的稳定性和可用性。而这类系统本身所拥有的大量信息，也成为攻击者觊觎的目标。
一方面，攻击者利用爬虫程序获取公开信息，产生大量请求，使得该政务服务网站无法响应请求，形成CC攻击，造成正常用户无法访问，或是查询服务体验下降。黑产可利用从该政务服务网站获取的信息进行对外收费查询业务，造成不良的社会影响。
另一方面，除了利用爬取数据进行牟利，更有甚者，直接挪用政府公众服务类网站所有网页及信息，进行网站克隆。克隆网站通常拥有与真实网站高度相似的域名和首页，用户一般难以辨认。然而当民众打开一个明为提供国计民生服务、实为不法平台的克隆网站，不仅会看到许多不堪入目的广告，甚至会在不知不觉中被引诱点击诈骗链接。
网络爬虫对政务网站的直接影响是，政府网站被大规模攻击后，网页打开缓慢、无法正常处理业务等问题会严重影响用户的使用。为此许多政府网站已经投入大量人力和资金，但在不断更新迭代的自动化攻击面前，改善并不明显。“爬虫攻击网站——系统宕机——用户投诉——耗资维护”这一过程似乎已经成为一种恶性循环。
如何反爬？
顶象反爬解决方案依托多年攻防对抗实战经验，提供了动态策略的精准防护；全链路纵深防护，避免“爬虫”的单点绕过；多维度防御，有效拦截各种恶意“爬虫”行为；无感的人机交互验证，有效反爬又不影响正常用户体验。
1、保障通信传输安全。黑灰产在业务通信传输的环节，可能会尝试篡改、爬取报文数据。通过对通讯链路的加密，可防止终端安全检测模块的数据被篡改和冒用。
2、加强业务安全策略防控。针对批量爬虫的风险特征，可将社交媒体中各个业务查询场景的请求接入业务安全风控系统。同时将终端采集的设备指纹信息、用户行为数据等传输给风控系统，通过在风控系统配置相应的安全防控策略，有效地对风险进行识别和拦截。