目前有哪些问答类网站在应对 Spam 内容上有比较可行的办法
反spam首先应确定spam的定义,不同的网站对spam的定义是不同的。另外反spam是问题驱动,需要在大量数据中找寻其不变或不易变的规律(因为要尽量将其行为提炼成机器可识别的策略)
因为我目前看不到数据,所以我只能从我个人理解角度阐述一点自己的看法,对错暂且不论。
spam大多因利益驱动,利益(也可以简单地理解为钱)是其乐此不疲的原因,因此反spam的对应方式在于“断其利益链”。
反spam领域有一条经验叫做“不以善小而不为”,即模拟作弊者的过程和流程,在每个环节给予设置障碍,逐步加大其作弊成本,增强其挫败感,直至利益链被切断或收益很小,使其渐渐丧失动力。
从个人经验而言,问答类网站的spam大致分为以下几种:1、seo(搜索引擎)2、自问自答刷经验(危害较低)3、夹杂在回答中的软文广告4、用户名作弊
而按其操作流程来分,基本是:1、注册2、登录3、提问4、回答5、反复2、3、4
那么就很清楚了,可以参考的方法是:1、注册环节反作弊。即采取一定手段来保证产生注册行为的是真实的用户。例如相似用户名的识别、注册频率控制、相同id/ip对应规律等,还有注册验证码、手机验证(邮箱验证基本不靠谱,搜一下什么叫10分钟邮箱即知),以及一些带有联系方式,包含qq+数字或者手机xxxxx等规律是可以寻找的。当然,在前期如果考虑到用户注册成本,并且本身社区不考虑质量,在此环节设置过多策略等于加大用户注册成本,会造成一定程度的用户注册流失。
2、登录环节反作弊。即对异常登录行为作提醒和监控,因为问答类网站区别于一般社区,问答存在目的性,一般用户不大可能频繁重复登录。因此短时间内同ip对应登录多个用户名,或者频繁快速提问/回答多个问题都可视为疑似spam行为。
3、提问和回答可统一看做发布提交行为或对于内容的反作弊。除了2里面包括的“短时间内同ip对应登录多个用户名,或者频繁快速提问/回答多个问题都可视为疑似spam行为。”之外,比如说内容敏感词过滤、相似内容的重复发布召回、内容中带有头像、qq加固定词语的监控……还有很多很多,总之根据实际情况围绕内容中出现的对于作弊者利益最大的“利益链”下功夫即可。但是这里我的看法是不要仅围绕内容本身,因为内容是会变的,如果同时圈定疑似作弊用户这个维度进行,效果会更好。
大致就是这样吧,反spam固然在方法上存在一定共通性,但是具体需要结合产品形态本身和实际情况才能给出好的方案。
【目前有哪些问答类网站在应对 Spam 内容上有比较可行的办法】 另外,反spam,机器策略是不可能完全替代人工审核的。
推荐阅读
- 医院|感染艾滋病毒初期有哪些征兆?可以自行检查吗?共用马桶会传染吗
- 玩游戏花钱最多的有哪些游戏,哪些人
- 旅行|需要准备哪些物品?全面冬季出游清单,建议收藏带宝宝出门旅行
- 红米手机通过QQ空间的成功营销,给涉足社会化营销的企业有哪些启示
- 互联网在线音乐行业有哪些可能的盈利模式
- 直播会成为品牌传播的另一个途径么有哪些可行的方法感觉有戏又没头绪好捉急。
- 侧重业务逻辑的产品需求规格说明书,需要有哪些要点
- 大学|上海大学第8,前10名有哪些高校?上海市30所大学排名
- 学图像处理有哪些不错的书推荐
- 新浪微博创新基金投资了哪些团队