2020美国大选答问( 二 )

2020美国大选答问
因此 , 如果推特由于其平台的特性而产生系统性偏差 , 譬如由于川普作为推特超级大V(川普推特账号的追随者高达八千多万) , 像黑洞一样很大程度上左右了推特的大选话题中的说法;或者民主党大V 如拜登和那个美女民主党议员AOC(Alexandria Ocasio-Cortez)主宰了其余的话题 。 那么其他人的声音就被稀释了 。 整个舆情就是围绕大V们转 , 其中川普推特治国的影响力最为巨大 , 完全是压倒性的 。 此前我们在做近期细线条社媒大数据的分析时 , 就多次发现 , 压倒性的正面或负面的舆情数据点中一多半 , 追根溯源几乎全部来自川普本人 , 然后被他的粉丝不断转发和发挥 。 例如 , 这几天批评拜登的一个热词是compromised(受到外力影响或支配的意思) , 数据溯源 , 原来是出自川普推文 , 说拜登会受到中国影响 , 毁掉这个国家 。 这与当年有人攻击川普有把柄在普金手中 , 会受到俄国影响一样 , 都是为抹黑对手 , 但产生了广泛的影响:24小时就占据了拜登数据的 6%. 。两套数据的不一致间接支持了分开分析研究的必要性 。 排除推特看趋势 , 提供了另一个非常重要的舆情分析的角度 。 换句话说 , 现在的大数据分析已经变成了下面的两种考量:到底是相信推特代表了选民民意更多 , 因此转化为投票结果更准确 , 还是其他的社会媒体反映的舆情更加真实?推特跟微博类似 , 那是一个大V与粉丝的乐园 。 脸书倒是与微信类似 , 那是草根和朋友圈的天下 , 更多反映自下而上的民间舆情 , 但脸书数据量虽然大 , 但大多属于隐私数据 , 无法reach 。 退而求其次 , 我们就把包括脸书公开数据在内的成千上万的公开平台和论坛合在一起来调查 。 其调查的结论与多数主流民调相当一致 , 这个结果让我们有点惊讶:拜登在很短的间歇 , 有与川普接近的点 , 但是总体上 , 拜登从来没有落后过 。 据老友说 , 其实民调接受了2016年的教训 , 也已经比以前更加“严谨客观”了 , 虽然还是有数据点采集不足的根本缺陷 , 但是克服了上次的一些重大失误 。 上次是完全随机采样 , 这次是根据上次投票的群体分层随机采样 , 而且有的问题不是问你投谁 , 而是问你会不会去投 。友人问:民调和大数据挖掘分析都不简单啊 , 是不是应该综合起来考量?米镜答:对 。 在信息过载的人类现代社会 , 预测大选这样的全民参与的重大事件 , 本质上都是盲人摸象 。 分析师 , 无论是传统手工的调查还是借助大数据自然语言的自动分析平台 , 都是在提供数据分析的不同视角 。现在清楚的是社交媒体舆情大数据分析有两点价值: 一点是大数据对于舆情的反映更加及时 , 很多时候 , 但大数据指出舆情变化后 , 传统民调还在过去的数据中毫无知觉 , 但过了一个滞后期 , 传统民调有时候晚一步也跟上了 。 这事儿发生了n次 , 值得研究 。 第二点是大数据的对比分析和趋势分析 , 有前所未有的客观性 。 各种民调无法做对比分析 , 因为都不是 apples to apples , 但是大数据平台一视同仁 , 在平台内所做的各种对比和趋势 , 极大提升了可比性 。 例如过去半年的推特曲线趋势前5个月拜登高歌猛进 , 大数据曲线反映出来的东西 , 与以前的各种民调的主流是吻合的 。 但是最近一个月来的选情变化 , 是以前五个月的选情的完全对等的延伸 , 数据源不变 , 算法不变 , 可比性决定了其相对趋势必须有个合理的解释 。 反转起始点是老川得病、出院 。 反转的高峰 , 一个是拜登儿子电脑门 , 第二就是大选最后辩论 。 在这些节点上 , 推特上拜登的舆情下降 , 震荡很大 。 下面是近一个月来的舆情纠缠:2020美国大选答问
总结一下 。 现在是两套数据 , 在讲两个故事 , 故事不同是角度和来源的缘由 , 都是可解释的 , 不再是一片混杂 , 茫无头绪 。 一方面 , 推特的影响力不能说不大 , 不能小看其实际意义 , 否则所有的大选造势 , 恐怕都没有意义了 。 推特上的大V与粉丝的狂欢和嘶喊 , 实际上就是造势的网络版:每一场竞选造势同样是领袖指点江山 , 粉丝山呼海啸 。 如果相信奔波造势可以提升影响力 , 进而促进更多的选票(到底促进多少 , 其实连造势者自己也还是盲人摸象撞运气吧) , 那就不能忽视或否定推特的舆情了 。 但是另一方面 , 推特的高音量也的确遮蔽了很多其他的声音 , 这些声音的整体毫无疑问也反映了民间实际舆情 , 可能反映得更为广泛和草根化 , 因为它不再是受大V主宰的情绪 。 这种声音和情绪所能转化为选票的潜力 , 自然更不能忽视或遮蔽 。 结果就是两套数据、两种分析之间如何平衡(/加权)的问题了 。 加上其他非数据调查的因素考量(后面我们可以提一些供读者参考) , 最后 , 每个 well informed 的人 , 应该可以得出自己的 educated guess , 我的guess前面已经说了 , 是拜登的赢面不低于八成 。友人问:今年选举预测有什么难点?米镜答:今年的结果最难预测 , 因为出现了很多以前选举没有见过的状况 , 很多moving parts , 所以合理的趋势分析或预测需要综合考量 。 说几点今年的选情特点 , 一是投票率在创新高 。 今年的总统大选空前激烈 , 美国选民在今年的投票热情 , 远远超出了往年 。 截至10月28日12时 , 全美提前投票人数超过7000万人 , 是2016年大选同期投票的两倍还多(最新更新:10月31号 , 提前投票人数已经超过九千万了) 。。 全美提前投票的选民人数已经达到了创纪录的水平 。 第二条是由于新冠影响 , 不得不大面积使用邮件投票和提前投票 , 这对高投票率有很强的推动作用 , 因为很多人不必排长队 , 也不必在时间紧张的投票现场匆忙投票 , 一切可以坐在家里从容进行 , 这使得往年对投票有畏惧或懒惰心理的人 , 开始投票了 , 选一位自己认为不是最糟糕的候选人 。 三是候选人川普本人的独特性 , 根本上说 , 这次大选不是拜登与川普对决 , 而是拥川与反川的对决 。事件上看 , 拜登儿子的丑闻在选前十来天被爆料和发酵 , 也很大程度上左右了推特的舆情反转 。 这些状况给舆情大数据分析梳理增添了难度 。友人问:社交舆情大数据分析有什么益处?米镜答:这是一场空前规模的经典博弈案例 , 值得后代和历史不断分析 。 大数据分析洞察 , 需要仔细思考这中间的各种影响因素 。 目前看来 。 数据本身及语言技术的使用 , 只是帮助我们多提供了一个以前无法达到的高视角 , 一个传统方式难以企及的高度 。 从量上看 , 社媒大数据的数据点大约是传统民调的三个数量级(!) , 并且可以提供不受限的任意时间段 , 对任意对象或对象组的任意角度切割的分析视角和可视化展示 。 利用大数据做舆情调查 , 弥补手工调查的缺陷和不足 , 是信息时代的必由之路 。 所有的这些调查分析实践都为我们今后更好地利用大数据工具提供了有益的经验和教训积累 。友人问:今年投票人多吗?米镜答:热情空前高涨 , 美国人排队11小时就是要投票 。今年的投票率 , 从各种来源看 , 都是最高 。 两边的选民都被激发了 , 但是川普的基本盘从来都是积极参与投票的 。 以前民主党的主要短板之一就是其群众投票率不高 。 投票率高 , 拜登就利好 。美国《时代》周刊近百年来首次“改名” , 将“时代”二字改为“投票”——封面图片是一名脸部围着围巾的女性 , 上面画着一个投票箱 , 写着“投票”二字 。


推荐阅读