江湖车侠|| 万字长文,统计学家范剑青:把 AI 学习金融,变为现实( 六 )


我们平时对数据最简单的处理是剪裁或截断 , 如把数据在-3到3个标准差之间就保留 , 其余就截掉 , 这样做好处是肯定产生偏差 。 如果τ选择的足够大的话 , 这种偏差是可以忽略的:裁剪的数据的样本平均跟原来的母体平均的差别就像数据是来自高斯分布一样 。
换句话说 , 如果τ足够大 , 那么裁剪样本平均与母体平均之间的区别跟正态的样本平均与母体平均之间区别是一样的 , 最后的分布是具有高斯的尾部性质 。
说宽泛一点的话 , 裁剪样本平均表现像高斯分布 , 而没有裁剪样本平均表现像柯西分布 。 为什么我们以前不太强调裁剪?因为我们在低维传统统计中做样本平均不多 , 在高维统计中会做很多样本平均 。 所以高斯浓缩(Gaussianconcentration)是高维统计的核心 。
如果数据是厚尾的 , 最后的协方差矩阵就不鲁棒 。 如果用了裁剪 , 当数据仅具有4阶距 , 就能实现与高斯数据的样本协方差矩阵相同的估计精度 。
我们这里画了这么多图 , 是因为我们用了很多不同的 。 这显然对回归更方便 , 就像前面说的高斯浓缩性质任然成立 , 这是两个鲁棒方法的主要思想 。
我们用因子模型来解决观测到股票相关的问题 。 我们是用裁剪数据来解决鲁棒问题 , 对回归问题我们用裁剪损失函数 , 即Huber损失函数 , 来得到鲁棒性质的 。 我们说过预测的好特征必须是鲁棒 。
债券风险溢价预测
关于溢价预测 , 我们现在有两种因子学习方法:
一是传统因子学习方法 。 从131个未汇总的宏观变量中提取因子 , 加上8个汇总的宏观变量 , 一共是13个变量 , 来预测债券风险溢价 。
二是投影主成分(PPCA) 。
直接糅入
里面一起学习 。 不是简单地从131个变量变成139个变量来学习 , 而是用投影主成分分析来学习 , 因为这两种变量不一样 ,
是未汇总的 , 而
是汇总的 。 然后用新的

作为预测变量 。
如果因子学习得好一点 , 把
揉入学习因子 , 就是投影主成分分析 , 这一下预测率就可涨到32.6% 。 如果说把统计的稳健思想都加进去的话 , 就可以预测到38.1% 。 对三年期也是一样 , 从21-28-32% 。 这些预测都是用线性模型做的 。
如果我们用非线性模型来预测 , 效果比刚才的预测都要好 , 最后Out-of-sampleR2可以达到45%左右 。 这就可以看出来稳健方法和PPCA因子学习一起学习比较好 , 这是其改进的程度 。


推荐阅读