江湖车侠|| 万字长文，统计学家范剑青：把 AI 学习金融，变为现实( 六 ) 2020年8月7日-9日

我们平时对数据最简单的处理是剪裁或截断，如把数据在-3到3个标准差之间就保留，其余就截掉，这样做好处是肯定产生偏差。如果τ选择的足够大的话，这种偏差是可以忽略的：裁剪的数据的样本平均跟原来的母体平均的差别就像数据是来自高斯分布一样。
换句话说，如果τ足够大，那么裁剪样本平均与母体平均之间的区别跟正态的样本平均与母体平均之间区别是一样的，最后的分布是具有高斯的尾部性质。
说宽泛一点的话，裁剪样本平均表现像高斯分布，而没有裁剪样本平均表现像柯西分布。为什么我们以前不太强调裁剪？因为我们在低维传统统计中做样本平均不多，在高维统计中会做很多样本平均。所以高斯浓缩（Gaussianconcentration）是高维统计的核心。
如果数据是厚尾的，最后的协方差矩阵就不鲁棒。如果用了裁剪，当数据仅具有4阶距，就能实现与高斯数据的样本协方差矩阵相同的估计精度。
我们这里画了这么多图，是因为我们用了很多不同的。这显然对回归更方便，就像前面说的高斯浓缩性质任然成立，这是两个鲁棒方法的主要思想。
我们用因子模型来解决观测到股票相关的问题。我们是用裁剪数据来解决鲁棒问题，对回归问题我们用裁剪损失函数，即Huber损失函数，来得到鲁棒性质的。我们说过预测的好特征必须是鲁棒。
债券风险溢价预测
关于溢价预测，我们现在有两种因子学习方法：
一是传统因子学习方法。从131个未汇总的宏观变量中提取因子，加上8个汇总的宏观变量，一共是13个变量，来预测债券风险溢价。
二是投影主成分（PPCA）。
直接糅入
里面一起学习。不是简单地从131个变量变成139个变量来学习，而是用投影主成分分析来学习，因为这两种变量不一样，
是未汇总的，而
是汇总的。然后用新的
和
作为预测变量。
如果因子学习得好一点，把
揉入学习因子，就是投影主成分分析，这一下预测率就可涨到32.6% 。如果说把统计的稳健思想都加进去的话，就可以预测到38.1% 。对三年期也是一样，从21-28-32% 。这些预测都是用线性模型做的。
如果我们用非线性模型来预测，效果比刚才的预测都要好，最后Out-of-sampleR2可以达到45%左右。这就可以看出来稳健方法和PPCA因子学习一起学习比较好，这是其改进的程度。

江湖车侠|| 万字长文，统计学家范剑青：把 AI 学习金融，变为现实( 六 )

推荐阅读

nba|30+20！韩德君也不放过王哲林，MVP被打成伪巨头，6犯离场一脸无奈

新疆喀什：馕产业助脱贫

『海参功效』海参有什么功效作用煮海参时可以加醋吗

#北方网#由新作《薪传》解读许亨新北派现代主义雕刻

星座女神Goddess|水逆逃生指南之水象星座

央视新闻|重型火炮压制、15式坦克突击解放军钢铁洪流席卷高原

上海热线体育综合：颜骏凌四外援参合练，上港未雨绸缪盼新赛季

小鱼段子手|这就是你拍给我的婚纱照？，修图的摄影师你给我出来

新华网|用脚“画”地图的“飞地书记”

「老树昏鸭」大批士兵荷枪实弹连夜出发，白宫：不能放过一个，美国后院起火

沏红茶用多少度的水温,青茶最适宜的冲泡水温

高考|岳云鹏给高考生送祝福：结果翻车了

朱一龙|啥情况？朱一龙评论陈明昊幼稚陈明昊是谁？

北京日报|恭王府博物馆将启动修缮数字化采集同步进行

怎样看待一个人沉默不敢与人打交道，身边有其他人在就不那么害怕然后就是一个特别开朗敢于跟别人交流的心理

果味仙女|《阳光灿烂的日子》：电影所呈现的文学真实性

美食|直接下锅就错了，多加一步，煮出来的玉米又甜又香煮玉米

环球网|揪心！四川泸县一工厂起火致5人受伤，其中3人在ICU抢救

中医如何防癌11个好习惯有帮助

吴磊|据说《琅琊榜3》已经开始筹拍，主角阵容依旧未定，但吴磊和王一博呼声非常高