机器学习中怎样将语义特征化

谢邀
首先申明,我不看好这个方向,费死劲了,结果还不如手写几个正则表达式。
现在基于神经网络的深度机器学习火了,然后到处都在应用它,似乎它就是万灵药。其实是大谬。神经网络擅长对内部关联简单、但是模糊的系统进行分析。而sql注入、xss这些安全攻击,正好是相反面 - 内部关联复杂、精确,1个字符的差别可能就是漏洞和误报的差别。
有点类似通过面部识别来寻找绿教恐怖分子。如果不在乎误报,只要是大胡子都抓,那可以保证抓到98%的恐怖分子。可是大胡子里的恐怖分子也许只有10%,从脸上是分辨不出来这10%的,所以误报很严重。
回到你的问题,如果还是想要试试看,这里可以下载长亭的WAF的白皮书: 雷池 Web 防火墙 - 长亭科技。里面介绍了一些他们做不完整语法、语义分析的思想,估计对你有参考意义。


■网友
最好自己把语句解析成树再给模型吧,或者用大量无标注的数据预训练(不看好),能不难为模型就尽量不难为模型。
■网友
【机器学习中怎样将语义特征化】 谢邀。安全这个领域不太了解。抛砖引玉一下, 我刚搜到两篇论文,希望对题主有帮助。一篇是A Learning-Based Approach to the Detection of SQL Attacks,2005年的文章,Google Scholar引用数340+。另一篇是A Survey on Server-side Approaches to Securing Web Applications,2014年的综述性文章,涵盖范围更广


    推荐阅读