通过爬虫抓取到微博很多数据,怎样通过数学模型定义水军
第一直觉是不懂。如果是我,我会先收集水军的数据,然后看水军的数据有什么特点,设为指标,把这个指标放在小规模数据里头试一下,看看挑出来的是不是水军,如果是,就好了,不是的话回到前面一步继续找特点。
■网友
2016.5.13北京大学学报在2015年发表过一篇论文,主要是讲利用随机森林分类原理识别微博的机器用户和普通用户。手机回答,回宿舍有空用笔记本补充资料。2016.5.16那天回去宿舍就忘了这事。那天说错了,是北京大学学报上的一篇文章,西安交大的是另外一篇相关的文章。北京大学学报(自然科学版) 第 51 卷 第 2 期 2015 年 3 月 基于随机森林分类的微博机器用户识别研究主要就是对微博中的机器用户进行深入研究后,从4个维度(行为、内容、关系、平台)8个指标(条件信息熵、内容相似度、账户关注度、互粉比例、@比例、评论比例、发私信率、平台个数)出发,利用随机森林作为分类器对机器用户和普通用户进行划分。研究者进行了抽样实验,并对实验结果进行了分析,最后得出了“本模型准确地识别出 98.9%的机器用户,只将一个普通用户误识别成机器用户, 说明本模型区分机器用户和普通用户的能力较强, 能够较为准确地识别出微博中的机器用户。 ”的结论。另外一篇文章是:西安交通大学学报 第 47 卷 第 12 期 2013 年 12 月 模式无关的社交网络用户识别算法这两篇文章在知网上都可以找到的。
■网友
有label么 有的话就是用分类器
■网友
谢邀。个人感觉这就是一个大数据的问题,通过对大量数据的分析从而对某个人群进行划分分类。
网络水军被定义为一群在网络中针对特定内容发布特定信息的、被雇佣的网络写手。微博上的水军一般就是掀起热门话题、引导舆论走向,我觉得这种水军一般有以下几个特点:
1. 重复某一句话进行评论。在热门微博下出现次数最多的评论可能就是评论刷的。那么发出该评论的可能就是潜在水军。
2. 对一些莫名其妙火的微博要重点关注。这些微博本身没有那么大的话题性与流量度,那么其火一定要靠水军来刷,从而冲刺热搜等等。对于这些微博下的早期评论用户要重点给予关注。
3. 水军最明显的就是整天到处刷。一般每个人都有工作,都有各自的生活,没有那么多时间去刷微博,去点赞,去评论。我们可以在通过1、2点筛选出的用户中进行进一步调查,调查统计每一个用户近来点赞、转发、评论的微博数。如果数目过大,那么其很有可能是水军。
4. 一般的水军都有大量的小号,而这些小号通常为了方便起见会互相关注。如果发现一个用户与20多个微博号互相关注。那么该用户很有可能就是水军。
具体到数学模型上来,我认为对搜集到的数据应该做出如下处理
1) 搜集近一个月来的热门微博(具体到每一天,就是热度前50)
2) 对每一个微博进行用户筛选,即提取出发表(转发)最热评论的用户
3) 对这些微博进行种类筛选,判断出哪些是莫名其妙火的。对这些微博早期评论的额用户进行筛选
4) 对比2)、3)操作得出的用户列表,进行并集操作。
5) 对4)得出的用户列表中的每一个用户进行查找,若某用户经常上微博评论转发,则为水军
6) 确定某用户为水军后,可以看看该用户关注的人,重点再排查这些用户,因为这些用户也很可能是其小号。
我提出的结论无疑十分粗糙也很简单,现实世界比这要复杂的多。下图为一些论文列表,这方面的研究已经比较多了:
【通过爬虫抓取到微博很多数据,怎样通过数学模型定义水军】
网络水军具有巨大的危害性。网络水军唯利是图的特性导致了其对是非观念的漠然,网络水军在谋取暴利的同时极大危害了互联网的诚信与道德标准。网络水军恶意炒作,将部分人的诉求转化为大众的诉求,将个性事件演变成共性事件,混淆视听。如果任由网络水军横行,网络诚信基础制度建设将难以完成,网络媒体将不再受网民信任,最终受害的将是最广大的网民。在此我也衷心的希望水军可以被精确定位,早日净化互联网环境。
推荐阅读
- 船舶■江苏镇江谏壁船闸2020年船舶通过量近2亿吨
- 红米手机通过QQ空间的成功营销,给涉足社会化营销的企业有哪些启示
- 商家通过低保户购物而把自己的利润返还赠送低保户安装宽带或者旧电脑可行吗
- python 爬虫,咋获得输入验证码之后的搜索结果
- 疾病|医生不避讳:4种疾病可以通过性传播,思想开放的人要小心了
- 通过物理地址和IP地址能监控到啥
- 知识产权保护|中国(南通)知识产权保护中心通过预验收
- 考研的时候通过啥渠道获得自己需要的信息
- 环球车讯网|力帆重整计划获得通过,或将转战换电型电动汽车
- 委员会委员|江苏省十三届人大常委会第十九次会议通过有关人事任免名单