百度统计的“访客属性”是怎样统计出来的

贝叶斯分析,假如一个cookies,在百度搜索前列腺,根据百度的真实用户属性分析(数据可以来自各种注册账号或者合作伙伴)他是男的概率是70%,而后这个cookies又搜索了草榴论坛,那么他是男的概率又增加了,通过各种概率的迭代可以得到一个cookies是男性概率无限接近100%,于是这个用户数据又可以作为真实用户数据放到上面的过程去迭代,这样大部分在同一台电脑试过百度的用户都可以被分析出性别,其他的也是如此存在技术实现可能,不过以上文字纯属猜测+扯淡+不负任何责任,欢迎折叠,已邀请百度统计pm来回答此问题
■网友
我回答过就不重复了:http://www.zhihu.com/question/19856327/answer/14263215
■网友
不了解百度是怎么实现的,但可以确定的是,这是可以算出来的,Facebook和Nielsen就做过这样的算法,来推算Facebook用户的性别。计算过程是这样的:1.百度有一个样本库/Cookie panel,这些样本有明确的性别属性2.通过这个样本库的用户的搜索/访问记录,通过决策树算法可以算出这样的规律:在已知你的搜索词/访问网站的条件下,你是男/女的概率是多少3.把以上这个规则应用于那些没有性别属性的cookie,就可以算出所有用户的性别了完整的过程就是这3个步骤,实施的过程中还要涉及抽样误差和模型准确性验证等细节一句话总结就是从已知样本推及总体,再推及未知样本听起来很厉害的样子..............


    推荐阅读