时序分析中的常用算法,都在这里了( 二 )


缺点:

  • 只能捕捉到移动平均关系 , 无法捕捉到自回归关系 。MA模型忽略了过去时间步观测值,可能无法捕捉到数据中的自相关性 。
  • 对于某些时间序列数据,MA模型可能需要较高的阶数才能较好地拟合数据 , 导致模型复杂度增加 。
自回归滑动平均模型自回归滑动平均模型(ARMA模型,Auto-Regression and Moving AverageModel)是研究时间序列的重要方法,由自回归模型(AR模型)与滑动平均模型(MA模型)为基础“混合”而成 , 具有适用范围广、预测误差小的特点 。
自回归差分移动平均线(Autoregressive Integrated Moving Average, ARIMA)ARIMA模型全称为自回归差分移动平均模型(Autoregressive Integrated Moving Average Model) 。ARIMA模型主要由三部分构成,分别为自回归模型(AR)、差分过程(I)和移动平均模型(MA) 。
ARIMA模型的基本思想是利用数据本身的历史信息来预测未来 。一个时间点上的标签值既受过去一段时间内的标签值影响,也受过去一段时间内的偶然事件的影响 , 这就是说,ARIMA模型假设:标签值是围绕着时间的大趋势而波动的 , 其中趋势是受历史标签影响构成的,波动是受一段时间内的偶然事件影响构成的,且大趋势本身不一定是稳定的
简而言之,ARIMA模型就是试图通过数据的自相关性和差分的方式,提取出隐藏在数据背后的时间序列模式 , 然后用这些模式来预测未来的数据 。其中:
  • AR部分用于处理时间序列的自回归部分,它考虑了过去若干时期的观测值对当前值的影响 。
  • I部分用于使非平稳时间序列达到平稳,通过一阶或者二阶等差分处理,消除了时间序列中的趋势和季节性因素 。
  • MA部分用于处理时间序列的移动平均部分,它考虑了过去的预测误差对当前值的影响 。
结合这三部分,ARIMA模型既可以捕捉到数据的趋势变化,又可以处理那些有临时、突发的变化或者噪声较大的数据 。所以,ARIMA模型在很多时间序列预测问题中都有很好的表现 。
优点:
模型十分简单,只需要内生变量而不需要借助其他外生变量 。(所谓内生变量指的应该是仅依赖于该数据本身,而不像回归需要其他变量)
缺点:
要求时序数据是稳定的(stationary),或者是通过差分化(differencing)后是稳定的 。
本质上只能捕捉线性关系,而不能捕捉非线性关系 。
季节性自回归整合移动平均模型 SARIMASARIMA 是一种常用的时序分析方法,它是 ARIMA 模型在季节性数据上的扩展 。SARIMA 模型可以用于预测季节性时间序列数据,例如每年的销售额或每周的网站访问量 。下面是SARIMA模型的优缺点:
优点:
  • SARIMA模型可以很好地处理季节性数据,因为它考虑了时间序列数据中的季节性因素 。
  • SARIMA模型可以对时间序列数据进行长期预测,因为它可以捕捉到数据中的趋势和周期性变化 。
  • SARIMA模型可以用于多变量时间序列数据 , 因为它可以同时考虑多个变量之间的关系 。
缺点:
  • SARIMA模型需要大量的历史数据来训练,因此在数据量较少的情况下可能不太适用 。
  • SARIMA模型对异常值比较敏感,因此需要对异常值进行处理 。
  • SARIMA模型的计算复杂度较高,需要进行大量的计算和优化 。
具有外生回归量的季节性自回归整合移动平均模型 SARIMAX具有外生回归量的季节性自回归整合移动平均模型(Seasonal Autoregressive Integrated Moving-Average with Exogenous Regressors, SARIMAX)是在差分移动自回归模型(ARIMA)的基础上加上季节(S,Seasonal)和外部因素(X,eXogenous) 。也就是说以ARIMA基础加上周期性和季节性,适用于时间序列中带有明显周期性和季节性特征的数据 。
3 其他时序模型这类方法以 lightgbm、xgboost 为代表,一般就是把时序问题转换为监督学习,通过特征工程和机器学习方法去预测;这种模型可以解决绝大多数的复杂的时序预测模型 。支持复杂的数据建模,支持多变量协同回归,支持非线性问题 。
不过这种方法需要较为复杂的人工特征过程部分,特征工程需要一定的专业知识或者丰富的想象力 。特征工程能力的高低往往决定了机器学习的上限 , 而机器学习方法只是尽可能的逼近这个上限 。特征建立好之后,就可以直接套用树模型算法 lightgbm/xgboost,这两个模型是十分常见的快速成模方法,除此之外 , 他们还有以下特点:


推荐阅读