Lançando o PPO, uma nova classe de algoritmos de aprendizado por reforço que se destacam em tarefas simuladas de robótica: