江湖车侠|| 万字长文,统计学家范剑青:把 AI 学习金融,变为现实( 六 )
我们平时对数据最简单的处理是剪裁或截断 , 如把数据在-3到3个标准差之间就保留 , 其余就截掉 , 这样做好处是肯定产生偏差 。 如果τ选择的足够大的话 , 这种偏差是可以忽略的:裁剪的数据的样本平均跟原来的母体平均的差别就像数据是来自高斯分布一样 。
换句话说 , 如果τ足够大 , 那么裁剪样本平均与母体平均之间的区别跟正态的样本平均与母体平均之间区别是一样的 , 最后的分布是具有高斯的尾部性质 。
说宽泛一点的话 , 裁剪样本平均表现像高斯分布 , 而没有裁剪样本平均表现像柯西分布 。 为什么我们以前不太强调裁剪?因为我们在低维传统统计中做样本平均不多 , 在高维统计中会做很多样本平均 。 所以高斯浓缩(Gaussianconcentration)是高维统计的核心 。
债券风险溢价预测
关于溢价预测 , 我们现在有两种因子学习方法:
一是传统因子学习方法 。 从131个未汇总的宏观变量中提取因子 , 加上8个汇总的宏观变量 , 一共是13个变量 , 来预测债券风险溢价 。
二是投影主成分(PPCA) 。
直接糅入
里面一起学习 。 不是简单地从131个变量变成139个变量来学习 , 而是用投影主成分分析来学习 , 因为这两种变量不一样 ,
是未汇总的 , 而
是汇总的 。 然后用新的
和
作为预测变量 。
揉入学习因子 , 就是投影主成分分析 , 这一下预测率就可涨到32.6% 。 如果说把统计的稳健思想都加进去的话 , 就可以预测到38.1% 。 对三年期也是一样 , 从21-28-32% 。 这些预测都是用线性模型做的 。
如果我们用非线性模型来预测 , 效果比刚才的预测都要好 , 最后Out-of-sampleR2可以达到45%左右 。 这就可以看出来稳健方法和PPCA因子学习一起学习比较好 , 这是其改进的程度 。
推荐阅读
- 抖音|挑衅顺丰、惹怒菜鸟,日单近千万,快递江湖大佬们坐不住了!
- 松果财经|陪玩江湖风云再起?,向“下”出发
- 火星|8岁火星男孩重出江湖?声称进入中国古代社会,这到底是真是假?
- 江湖车侠|明知印度制造不靠谱,为啥还要去?,苹果8个代工厂集体搬迁印度
- 阿里巴巴|马云退出阿里巴巴董事会,江湖再见!
- 艾尼网络凯翔|岳灵珊为何会抛弃青梅竹马令狐冲, 爱上林平之呢,笑傲江湖中,
- 江湖车侠|勇闯AI技术“无人区”,深兰科技:发力“深兰”模式
- 萱草|李一男重出江湖,或与华为“再续前缘”?,背叛华为后
- 江湖车侠|如何让老手机长年流畅?记住这三招就行,不想换新手机
- 政商参阅|却倒在了赌桌上:金立手机的生死江湖路,曾销量第一