[Submitted on 19 Jun 2020 (v1), last revised 22 Jun 2020 (this version, v2)]
文章插图
回复 ts13 获取论文及项目源码
摘要在过去十年中 , 时间序列研究引起了很多兴趣 , 尤其是在时间序列分类(TSC)和时间序列预测(TSF)方面 。 TSC的研究极大地受益于加利福尼亚大学河滨分校和东英吉利大学(UCR / UEA)时间序列档案 。另一方面 , 时间序列预测的进步依赖于时间序列预测竞赛 , 例如Makridakis竞赛 , NN3和NN5神经网络竞赛以及一些Kaggle竞赛 。
每年 , 成千上万篇针对TSC和TSF提出新算法的论文都利用了这些基准测试档案 。这些算法是为解决这些特定问题而设计的 , 但是对于诸如使用光电容积描记图(PPG)和加速度计数据预测人的心率之类的任务可能没有用 。我们将此问题称为时间序列回归(TSR) , 在此我们对从单变量或多变量时间序列预测单个连续值的更通用方法感兴趣 。此预测可以来自相同的时间序列 , 也可以与预测器时间序列不直接相关 , 并且不一定需要是将来值或严重依赖于最新值 。
据我们所知 , 时间序列研究界对TSR的研究很少受到关注 , 也没有针对一般时间序列回归问题开发模型 。大多数模型都是针对特定问题开发的 。因此 , 我们的目的是通过引入第一个TSR基准测试档案库来激发和支持对TSR的研究 。该档案库包含来自不同领域的19个数据集 , 这些数据集的维数 , 长度维数不相等以及值缺失 。在本文中 , 我们介绍了此存档中的数据集 , 并对现有模型进行了初步基准测试 。
总结
【时间序列回归档案】我们发布了包含19个时间序列数据集的TSR存档的第一版 , 并使用典型的机器学习回归和最新的TSC模型为存档设置了初始基准 。我们的结果表明 , Rocket是最先进的TSC模型之一 , 总体表现最佳 。最先进的机器学习模型(例如XGBoost和Random Forest)也非常具有竞争力 。这表明需要针对此类TSR问题开发更好的模型 。最后 , 我们欢迎您提供任何数据捐赠 , 并将继续扩展档案库 , 从而解决更多问题 。
回复 ts13 获取论文及项目源码
19套数据集介绍表1:当前TSR存档中的时间序列数据集 。用星号(*)标记的那些在维度之间具有不同的长度 , 但是在数据集中的所有实例之间长度仍然相等 。
文章插图
TSR归档中的数据集 。当前存档包含19个时间序列数据集 , 如表1所示 。你可以在http://timeseriesregression.org/上找到它们 。档案包含8个数据集改编自UCI机器学习知识库[1] , 3个来自Physionet, 1个来自信号处理竞赛[29] , 1个来自世界卫生组织(WHO) , 1个来自澳大利亚气象局(BOM) , 其余的都是捐赠的 。
本档案目前涵盖了5个应用领域:能源监测、环境监测、健康监测、情绪分析与预测 。
ts格式用于tsml和sktime时间序列机器学习知识库 。
sktime网站和我们的github页面上可以找到一个将数据加载到Python的例子 。
原始数据集中的缺失值不被注入和表示为“?”符号 , 遵循UCR/UEA档案中使用的.ts惯例[5,6] 。为了对回归模型进行公平的比较 , 我们将存档中的数据集分割为预定义的训练集和测试集 。
推荐阅读
- 停滞数年后,ElasticJob 携首个 Apache 版本 3.0.0-alpha 回归
- 教你做个懂礼的茶人,中茶普洱央视国礼档案拍摄紧张进行中
- 华安制茶工艺回归传统,紫砂绞泥工艺
- CIA所有不明飞行物档案被公开 美国联邦调查局FBI
- 美国ufo档案公开 美国公布ufo
- 时间序列金融数据预测及Pandas库详解
- python机器学习:多元线性回归模型实战
- 两个例子告诉你:什么是“线性”回归模型?
- 茶语历久弥香的经典,经典回归
- 分类算法其实也可做回归分析——以knn为例