江湖车侠|| 万字长文,统计学家范剑青:把 AI 学习金融,变为现实( 三 )


对金融来说 , 金融数据的特点是什么?
第一信号低 , 跟物理不一样 , 物理信噪比很强 。
第二数据不平稳 , 一直是随着时间的变化而变化的 , 整个市场也是随着时间的变化而变化 , 很多人参与 , 这是一个竞争的市场 。 这是对金融的挑战 。
机器能学习金融吗?回答是肯定的:
第一 , 资产定价问题 , 本质上是预测问题 , 机器学习本身就是为预测设计的 。
第二 , 影响市场的因子变量很多 , 这些变量往往是相关的 。 机器学习本身就是为降低维度和变量选择设计的 。
第三 , 定价的公式 , 不像物理是推导出来的、有很多假设的 。 资产定价非常复杂、形式未知 。 机器学习正是为高维复杂的非线性组合而设计 。
基于这三个原因 , 我认为机器从某种程度上讲是能够学习金融 。
假设有1000只股票 , 有这1000只股票的额外收益数据 , 还有风险因子和公司本身变量数据 , 我们要预测每一只股票的额外收益或者投在每一只股票上的权重 。
如果你预测第i只股票 , 你肯定要建一个形式 , 一个是宏观变量(macro-factors) , 一个是公司的变量(firmcharacteristics) 。
我们对每一只股票进行预测 , 常用回归来做 ,

可以是高维线性模型、机器学习模型或者深度学习模型 。
举例来说 , 我要预测下一个时刻的股票回报 , 我要用现在时刻市场因子
, 加上每个预测的参数
肯定跟第i只股票和时刻t有关系 。 这既依赖第i只股票 , 也依赖第t天 。
我们把
做成线性回归的形式
, 把
写在一起 , 我们很容易得到1000个变量甚至更多 。
有了预测后 , 我们一般怎么投?1000只股票里 , 在我预测里的top10%做多 , bottom10%做空 。
首先这应该是Risk-neutral的投资 。 市场涨时 , top10%涨 , bottom10%降;市场降时 , top10%降 , bottom10%涨 。
第二是这样的投资组合足够多样性(diversified) 。 第三充分体现你的预测信息 , 哪些股票是top10% , 哪些股票是bottom10% 。
还有一种方法比较好 , 是6月份刚写完放在网上的一篇文章 。 关键词是“PrincipalPortfolios” , 用你估计到的信号

做一个主成分投资组合 。
第三种很传统 , 用资产定价理论 , 在时刻t构造一个Portfolio , 使得
最小化 。 神经对抗网络可以解决这种条件预测问题 。
以上是资产定价常见的三种方法 。
什么是大数据的典型特征?
相依性和厚尾性:我们很多变量都是衡量市场的经济状况 , 必然相关
异样性、内生性、假相关等
数据缺失 , 测量误差
幸存者偏差 , 采样偏差
这些特征对金融和宏观经济学尤其明显 。
今天我们主要讲如何处理相依性和厚尾性一些方法 。
我要预测的变量是美国债券
, 债券有2、3、4等年期 , 可以对每一个债券进行预测 。
是131个宏观经济系列的月度数据 。 除此之外我们还有8个国内生产总值 , 居民消费价格指数等汇总宏观经济系列 。 这131个变量都是衡量经济的健康状况 , 所以他们是相关的 。


推荐阅读