Lanzamiento de PPO, una nueva clase de algoritmos de aprendizaje por refuerzo que sobresalen en tareas de robótica simulada: