2020美国大选答问
2020美国大选答问编者按:米镜先生是资深大数据科学家 , 有幸请到他来谈谈大数据与即将揭晓的美国大选的情况 。本分析不代表作者立场,作者政治立场是一回事 , “数据智能”+“网络智能”是另一回事 。 作者最关心的事是大数据分析预测的准确性 , 立此存照 , 以备验证 。友人问:镜先生 , 您好 , 感谢您百忙之中 , 抽出时间就中美选举有关问题 , 与我交流答问 。米镜答:全世界 , 包括中国 , 都在关心这场世纪选举 , 它的结果影响的 不仅仅是美国的前途走向 , 也会对中国和世界产生巨大的影响 。 还有三天就是选举日了 , 有机会谈谈一路走来利用大数据追踪选情的心得体会 , 对于总结和验证其得失 , 很有意义 。友人问:先生作为一个大数据科学家 , 社交媒体舆情分析设计者和架构师 , 对目前两个候选人选情一定有自己的独到见解 。 我最想问的问题就是 , 川普和拜登到底谁会赢 , 赢面多大?有什么数据支持?米镜答:哈 , 谁都想知道答案 , 谁都不是算命先生 。 一定要给个赢面概率的话 , 迄今收集到的数据综合看来 , 拜登赢面大 , 应该有八成吧 , 川普不是没有可能 , 但几率较小 。 为什么 , 我们可以细细谈 。四年前 , 社交媒体大数据的自动舆情分析在大选前预警了希拉里选情告急 , 川普赢面急剧上升 。 当时主流媒体一面倒高歌猛进 , 没有相信川普有赢的可能 。 这两次的数据分析有何异同 , 是个很值得探讨的课题 。简单回顾一下当年的情况 。 2016年希拉里实际上是赢了300多万张普选票 , 但在遥摆州输了7.7万张普选票 。 根据赢者通吃法则 , 希拉里虽然赢了全国的人气 , 但结果是选举人票大输 , 川普创造了胜选者输普选票的历史最高记录 。 有分析认为 , 如果参与投票的人数略高于大约1.37亿人 , 希拉里就会赢 , 可是当年的投票热情和投票率都很不理想 。 如今 , 专家们认为 , 投票率可能会达到1.6亿张左右 , 甚至更高 , 这大致相当于2018年中期选举创纪录的投票率 , 当时民主党以近1000万张的优势赢得众议院的普选票 。 四年前 , 在大选的最后三周 , 一切有可能让川普突围的事情 , 都发生了 。 联邦调查局局长詹姆斯·科米给国会的信 , 引人注目地在大选前11天重启了对希拉里电子邮件的调查 , 这对温和派和独立选民产生了显著影响 。 最终的结果是什么?在最后阶段 , 正如当时的大数据舆情调查表现的 , 川普反转了选情 , 最后两周领先希拉里不少 。我觉得大数据是提供分析复杂局势的一个重要的基础 , 但真正的分析需要结合多种因素 , 而所谓数据观的最好策略实际上是提供数据面貌给读者 , 并描述可能的选项 , 这让不具备数据的人可以有一个自己带入数据建立自己的趋势预测的可能 。 每个人对不同的数据源及其分析会根据自己的其他渠道信息和看法 , 给出自己觉得合理的权重 。本来一直觉得不太容易说清楚数据是怎么回事 , 到底有多少水分 , 还是噪音 , 或其他因素 。 自从昨天把数据一分为二以后 , 我觉得我有了自己觉得合理的权重 , 对于数据也有了合理的解读 , 总结起来也不觉得勉强了 。 只是昨天开始 , 不仅仅从推特中提取数据 , 也尽量从其他社交媒体获取数 , 以确保预测更科学 , 更准确 , 更符合四天后的选举结果 。友人问:嗯 , 这次你这个分析与主流分析好像也差不多 。米镜答:我们不必刻意与主流不同 。 一切要看数据 , 以及数据分析是不是有道理 。先给你看两张图的对比 , 都是过去半年大数据的舆情趋势图 。 第一张是推特数据;第二张是除推特以外的所有公开平台和社交媒体的相对应的数据 。
我们看到了什么?半年舆情的前五个月 , 拜登一直领先 , 两套数据大同小异 , 趋势一致 。 但是近一个月来 , 推特数据显示出川普舆情的上升和拜登的下降 。 非推特数据却反映出拜登依然保持其领先地位 。 排除了20个坚定大州以后的非推特数据的舆情也做了调查 , 从6个月、3个月、一周、1个月到过去24小时 , 仍然全部是拜登领先 。 这与摇摆州的推特数据趋势形成反差 。排除推特以后的舆情曲线表明 , 是推特这个信源把拜登近一个月的颓势放大了 。 前五个月选情还没到激烈冲刺的阶段 , 网络的选情话题的活跃程度也远远不如近一个月 , 所以二者的差距不显 。 同样是社会媒体的公开源 , 为什么选战激烈了 , 就会出现这么大的数据差距?今年的大数据自动分析调查让我颇感困惑 。 困惑的原因是我们做大数据分析 , 一开始是不分推特和非推特的 , 因为都是社交媒体公开平台 , 每个人都可以自由发言 , 理所当然认为它的总体是舆情的恰当反映 。 数据混杂在一起的时候 , 我们看到的趋向曲线 , 基本上就是第一张图的样子 , 所以感觉今年几乎就是2016翻版 , 历史再现 , 拜登选情告急 , 川普有很大的胜算 。 数据摆在那里呢 , 大数据不会说谎 。 因此在大数据分开为两套分别分析之前 , 我只能说 , 尽管传统民调和主流媒体一直在说拜登要赢 , 我们还是要宣告拜登选情告急 , 极有可能步希拉里后尘遭遇大选滑铁卢 。本来觉得也只能这样了 , 数据分析员只能让数据说话 , 解读不能偏离数据事实 。 直到分开考察的结果迥异 , 才发现舆情被推特“劫持”了 , 推特被大V主宰了 , 而大V中川普是压倒性的 。 川普疯狂发推 , 抹黑对手 。 他每次发飙 , 接着就是无数的转发和评论 , 总能掀起推特的巨浪 。 几乎每一个反拜登的舆情 top 5 的热词 , 追根溯源 , 多半来自川普本人 , 我们drill down多次查对证明了这一点 。必须承认 川普一个月来的造势非常给力 , 简直就是个造势魔王 。 他自己都说 我现在感觉太好了 , 我知道我肯定赢 , 一个月前我可不敢这么说 。 就是说他知道自己一直落后 , 只是进入造势状态后 , 看到他激发的基本盘的狂热 , 给了他信心 。 自从川普拼老命造势以来 , 有些传统民调也反映了川普有逐渐赶上来的某些势头 。民主党的拉票工作 , 今年也是异乎寻常的高 。 朋友登记了民主党 , 要求留下电话 。 近一两个月以来 , 他说他每天平均收到四五个民主党大老的短信留言 , 持续两个多月了 。 所有的民主党大佬 , 拜登、贺锦丽、奥巴马、希拉里、沃伦(团队)都以老板的名义来留言拉票求捐款 。 民主党也在玩命 , 而2016 那次相比之下差太远了友人问: 为什么两套数据会有如此不同的趋势呢?今年与2016年到底有什么不同?米镜答:我们推测 , 推特由于数据量的压倒优势 ,加上更新及时源源不断 , 实际上是掩盖了其他众多媒体的声音 。 这就是为什么推特数据的分析与全体数据分析的结果趋同的原因 。 看一下数据来源的分布图就清楚了 。 在这个可能是世界上最大的社媒舆情大数据自动分析平台上 , 虽然推特数据随机选样仅百分之十 , 其绝对数量却远远大过其他成千上万的社交媒体和论坛的公开数据的总和 , 约占总量的95% 。
推荐阅读
- 美国工会:若特朗普拒绝下台,将举行总罢工
- 美国特种部队突袭法兰克福Scytlg行动细节曝光
- 大选落定?疫苗消息逐步消化,黄金何去何从?
- 美国和西方其它国家的抗疫水平没有实质差异
- 特朗普再次发推:是我赢了大选
- 特朗普律师:大选结果将被“推翻” 我们有证据
- 这有可能揭开美国的政治黑幕!
- STProsperity盛拓集团:每日汇评
- 一招儿助建国同志入主白宫
- TRUE PARTNER迎来戴维斯双击