恶意网址拦截技术的应用研究( 二 )


 

恶意网址拦截技术的应用研究

文章插图
 
图1 DNS Forward在恶意网址拦截中的应用2.2 恶意短网址拦截技术现今 , 短网址是一个潮流 。借助短网址可以用简短的网址替代原来冗长的网址 , 使使用者可以更容易分享链接 , 但同时也为恶意网址伪装打开了方便之门 。恶意网址通过一个短码生成 , 并附加在短码提供服务商域名信息之后 , 具有很强的迷惑性 。短码服务提供商众多 , 且提供的短网址转换服务具有有效期 。同样地 , 恶意网址在不同的短网址转换平台具有不同的表现形式 , 且某个时间段特定短码服务提供商的短码对应为恶意网址 , 而下个时间段该短码可能对应为正常网址信息 。因此 , 建立短网址恶意地址库不符合实际情况 , 也无法适应恶意短网址的变化情况 。如图2所示 , 增强型DNS转发器自解析获得如短码服务提供商t.cn的IP地址 , 向这个地址发送HTTP GET请求 , 查询短码如54R8NCd , 以获得对应的长URL 。通过与标准的恶意网址特征库进行比对 , 如果为恶意网址 , 通过DNS响应包重定向至官方警示信息页面 , 提醒用户正在访问的网站为恶意网站 。实际应用中 , 考虑到DNS转发器的负荷和网络负载 , 可通过设置长短网址解析信息缓存 , 并通过TTL机制设置长短网址解析信息缓存“老化时间” 。
恶意网址拦截技术的应用研究

文章插图
 
图2 恶意短网址拦截技术
2.3 “拆链”技术在恶意网址拦截中的应用对于使用非本地DNS(如阿里公共DNS等)或是直接使用IP地址访问网站的情况 , 这种情况域名解析请求不会发送至本地DNS服务器或是不需要进行域名解析 , 因此基于DNS Forward技术的恶意网址拦截手段将无法发挥作用 。针对此种情况 , 通过深度报文检测DPI平台和恶意网址检测系统对恶意网址进行识别 。当检测到用户访问恶意网址时 , 通过“拆链”平台发送FIN拆链数据包来终止访问行为 。如图3所示 , “拆链”平台部署在本网内 , 通过向用户和恶意网站同时发送FIN拆链数据包来达到双向终止的目的 。平台部署在本网内 , 网络时延也可以得到有效控制 , 拆链效果可以得到有效保障 。
恶意网址拦截技术的应用研究

文章插图
 
图3 “拆链”技术在恶意网址拦截中的应用
2.4 恶意网址特征库
判断一个网址是否为恶意网址 , 需要判断的内容为网址URL、网页文字、图片、音视频及网页隐藏的恶意程序等 , 它们通常以单个或是组合的形式出现 。产生危害的方式为单向传播违法违规信息、诱骗用户点击产生恶意交互行为等 。文本检测是进行恶意网址检测的常用手段 , 而数据源可能来自网址URL、网页文字、图片上嵌入的文字及音视频里的语音文字信息 , 因此需要先进行文本统一预处理 。
这里采用图片OCR识别技术、语音转文本等技术统一对各个数据源进行文本提取操作 。提取文本信息后 , 采用TF-IDF+机器学习来“粗筛选”恶意网址 。利用TF-IDF的“过滤常见词语 , 保留重要词语”的技术特性 , 结合多种机器学习模型联合判别 。当联合判别结果一致为恶意网址时 , 将该网址添加到恶意网址库中;判别结果不一致时 , 提交“沙箱”系统进行进一步判别 。除文本信息外 , 图片信息、视频信息(非文本部分)也可能存在违法违规信息的可能 。
因此 , 需采集现网大量正常的、异常的数据集进行机器学习模型训练 , 需采用CNN、RNN、LSTM等多种机器学习模型进行联合判别 。判别一致 , 添加到恶意网址库中;判别不一致 , 则提交提交“沙箱”系统进行进一步判别 。经历“粗筛选”后无法确认是否为恶意网址 , 需通过“沙箱”技术来进一步判别 。某些情况下 , 恶意行为需要在真实的网页环境中才会被触发 。
因此 , 模拟用户实际交互来进行恶意行为检测 。判断为恶意网址的 , 添加到恶意网址特征库;如仍无法判别 , 提交人工进行最后确认 。在对网址URL进行检测时 , 兼顾采用IP历史域名绑定情况筛选、知名网站相似度匹配 , 通过建立IP历史域名绑定次数TOPN及知名网站相似度特征库 , 重点关注历史绑定次数频繁或是与知名网站网址URL相似度高的网址 。


推荐阅读