上海大数据股份|陷入深度学习的无边魅力,当经济学遇上AI( 四 )


他们研究设计了无模型卷积神经网络(model-lessRNN) , 其中输入是来自加密货币交易所的历史资产价格 , 目的是产生一组投资组合权重 。
研究通过充分利用DPG方法来引入奖励函数 , 以优化累积收益 。 模型包含了独立评估器集成拓扑结构(IndependentEvaluatorstopology) , 在权值分担方面结合了大的神经网络集 。 另外 , 为防止梯度损坏 , 还采用了投资组合矢量存储器(PortfolioVectorMemory) 。
Yu等人在自动交易的意义上设计了一种新的基于模型的深度强化学习方案 , 能够采取行动并做出与全局目标相关的顺序决策 。 该模型体系结构包括注入预测模块(IPM)、生成性对抗性数据增强模块(DAM)和行为克隆模块(BCM) , 能够用于处理设计的回溯测试 。
深度强化学习下的在线服务
在线服务主要集中于推荐算法 , 当前的多种推荐方法 , 如基于内容的协同过滤(collaborativefiltering)、因式分解机器(factorizationmachines)、多臂老虎机等 。 但是这些方法大多局限于用户和推荐系统的静态交互 , 并且关注的是短期奖励 。
采用深度强化学习方法目前的进展如下:
上海大数据股份|陷入深度学习的无边魅力,当经济学遇上AI
文章图片
上海大数据股份|陷入深度学习的无边魅力,当经济学遇上AI
文章图片
他们设计的推荐算法使用了行动者-批评者(actor-criticmodel)模型 , 可以在连续的决策过程中显式地获取动态交互和长期回报 。
重点研究了实时竞价(RTB)在与用户行为和竞价策略相关的复杂随机环境下的付费搜索(SS)拍卖 。 另外 , 基于阿里巴巴拍卖平台的线上线下评价的实证结果表明了该方法的有效性 。
还提出了一种基于电子商务平台的MDP(马尔科夫链决策过程)框架下的定价算法 。 由于能够有效地应对动态的市场环境变化 , 可以设置与复杂环境相关联的有效奖励函数 。
使用DQN(deepQ-network)方案进行在线新闻推荐 , 能够同时获得当前和未来的奖励 。 本模型在考虑用户活跃度的同时 , 还采用DulingBandit梯度下降法来提高推荐准确率 。
文章部分素材来源:雷锋网


推荐阅读