DQN学习与实验

实验环境 dqn本质上只是使用函数去拟合qlearning中的qtable 本文将训练ai完成 Frozen Lake 游戏,一个4*4大小的格子表示一块冰面,冰面中有一些随机的破洞,这些洞一旦指定就不会改变,agent的目标就是从格子的左上角成功走到右下角。 每个格子标号为1-16,即agent的observation为1-16。agent的action为 …