Xiangyu Zhang;PHD student;Reinforcement learning, intelligent wireless communication
Reading time ~1 minute
探索与利用一直是强化学习中最值得去研究的两个方向,如何保持一定探索幅度的情况下搜索到最优也是PPO中增加熵惩罚项的关键所在。加噪声是增加探索幅度最简单的方式。本这个博文给出baseline中如何调整增加噪声的。