恶意网址拦截技术的应用研究( 二 ) _恶意网址

文章插图

图1 DNS Forward在恶意网址拦截中的应用2.2 恶意短网址拦截技术现今，短网址是一个潮流。借助短网址可以用简短的网址替代原来冗长的网址，使使用者可以更容易分享链接，但同时也为恶意网址伪装打开了方便之门。恶意网址通过一个短码生成，并附加在短码提供服务商域名信息之后，具有很强的迷惑性。短码服务提供商众多，且提供的短网址转换服务具有有效期。同样地，恶意网址在不同的短网址转换平台具有不同的表现形式，且某个时间段特定短码服务提供商的短码对应为恶意网址，而下个时间段该短码可能对应为正常网址信息。因此，建立短网址恶意地址库不符合实际情况，也无法适应恶意短网址的变化情况。如图2所示，增强型DNS转发器自解析获得如短码服务提供商t.cn的IP地址，向这个地址发送HTTP GET请求，查询短码如54R8NCd ，以获得对应的长URL 。通过与标准的恶意网址特征库进行比对，如果为恶意网址，通过DNS响应包重定向至官方警示信息页面，提醒用户正在访问的网站为恶意网站。实际应用中，考虑到DNS转发器的负荷和网络负载，可通过设置长短网址解析信息缓存，并通过TTL机制设置长短网址解析信息缓存“老化时间” 。

文章插图

图2 恶意短网址拦截技术
2.3 “拆链”技术在恶意网址拦截中的应用对于使用非本地DNS（如阿里公共DNS等）或是直接使用IP地址访问网站的情况，这种情况域名解析请求不会发送至本地DNS服务器或是不需要进行域名解析，因此基于DNS Forward技术的恶意网址拦截手段将无法发挥作用。针对此种情况，通过深度报文检测DPI平台和恶意网址检测系统对恶意网址进行识别。当检测到用户访问恶意网址时，通过“拆链”平台发送FIN拆链数据包来终止访问行为。如图3所示， “拆链”平台部署在本网内，通过向用户和恶意网站同时发送FIN拆链数据包来达到双向终止的目的。平台部署在本网内，网络时延也可以得到有效控制，拆链效果可以得到有效保障。

文章插图

图3 “拆链”技术在恶意网址拦截中的应用
2.4 恶意网址特征库
判断一个网址是否为恶意网址，需要判断的内容为网址URL、网页文字、图片、音视频及网页隐藏的恶意程序等，它们通常以单个或是组合的形式出现。产生危害的方式为单向传播违法违规信息、诱骗用户点击产生恶意交互行为等。文本检测是进行恶意网址检测的常用手段，而数据源可能来自网址URL、网页文字、图片上嵌入的文字及音视频里的语音文字信息，因此需要先进行文本统一预处理。
这里采用图片OCR识别技术、语音转文本等技术统一对各个数据源进行文本提取操作。提取文本信息后，采用TF-IDF+机器学习来“粗筛选”恶意网址。利用TF-IDF的“过滤常见词语，保留重要词语”的技术特性，结合多种机器学习模型联合判别。当联合判别结果一致为恶意网址时，将该网址添加到恶意网址库中；判别结果不一致时，提交“沙箱”系统进行进一步判别。除文本信息外，图片信息、视频信息（非文本部分）也可能存在违法违规信息的可能。
因此，需采集现网大量正常的、异常的数据集进行机器学习模型训练，需采用CNN、RNN、LSTM等多种机器学习模型进行联合判别。判别一致，添加到恶意网址库中；判别不一致，则提交提交“沙箱”系统进行进一步判别。经历“粗筛选”后无法确认是否为恶意网址，需通过“沙箱”技术来进一步判别。某些情况下，恶意行为需要在真实的网页环境中才会被触发。
因此，模拟用户实际交互来进行恶意行为检测。判断为恶意网址的，添加到恶意网址特征库；如仍无法判别，提交人工进行最后确认。在对网址URL进行检测时，兼顾采用IP历史域名绑定情况筛选、知名网站相似度匹配，通过建立IP历史域名绑定次数TOPN及知名网站相似度特征库，重点关注历史绑定次数频繁或是与知名网站网址URL相似度高的网址。