怎样用神经网络解决Q-learning的问题

参考DQN
■网友
我觉得可以把(state,action) pair输入,输出一个Q(state,action) 但这样要算出在这个state 所有action的Q(state,action)要算N次, N是action的个数也可以只把state 当做输入,让神经网络的输出个数是N,这样只要过一遍神经网络就可以得到所有的action 的Q。具体可以参考http://outlace.com/Reinforcement-Learning-Part-3/


    推荐阅读