Trust-region-free policy optimization for stochastic policies

Mingfei Sun, Benjamin Ellis, Anuj Mahajan, Sam Devlin, Katja Hofmann, Shimon Whiteson

January, 2023