added examples for random goals, and option to not log in base sampler

cbfinn · Jan 14, 2017 · 152ad21 · 152ad21
1 parent 8cbd437
commit 152ad21
Show file tree

Hide file tree

Showing 3 changed files with 53 additions and 17 deletions.
diff --git a/examples/sens_vpg_point.py b/examples/sens_vpg_point.py
@@ -0,0 +1,33 @@
+#from rllab.algos.vpg import VPG
+from sandbox.rocky.tf.algos.sensitive_vpg import SensitiveVPG
+from rllab.baselines.linear_feature_baseline import LinearFeatureBaseline
+from examples.point_env import PointEnv
+from examples.point_env_randgoal import PointEnvRandGoal
+from rllab.envs.normalized_env import normalize
+from rllab.misc.instrument import stub, run_experiment_lite
+#from rllab.policies.gaussian_mlp_policy import GaussianMLPPolicy
+from sandbox.rocky.tf.policies.sens_minimal_gauss_mlp_policy import SensitiveGaussianMLPPolicy
+from sandbox.rocky.tf.envs.base import TfEnv
+
+stub(globals())
+
+#env = TfEnv(normalize(PointEnv()))
+env = TfEnv(normalize(PointEnvRandGoal()))
+policy = SensitiveGaussianMLPPolicy(
+ name="policy",
+ env_spec=env.spec,
+)
+baseline = LinearFeatureBaseline(env_spec=env.spec)
+algo = SensitiveVPG(
+ env=env,
+ policy=policy,
+ baseline=baseline,
+ #plot=True,
+)
+run_experiment_lite(
+ algo.train(),
+ n_parallel=1,
+ snapshot_mode="last",
+ seed=1,
+ #plot=True,
+)
diff --git a/examples/vpg_point.py b/examples/vpg_point.py
@@ -12,8 +12,8 @@
 
 stub(globals())
 
-env = TfEnv(normalize(PointEnv()))
-#env = TfEnv(normalize(PointEnvRandGoal()))
+#env = TfEnv(normalize(PointEnv()))
+env = TfEnv(normalize(PointEnvRandGoal()))
 policy = GaussianMLPPolicy(
  name="policy",
  env_spec=env.spec,

diff --git a/rllab/sampler/base.py b/rllab/sampler/base.py
@@ -45,7 +45,7 @@ def __init__(self, algo):
  """
  self.algo = algo
 
- def process_samples(self, itr, paths):
+ def process_samples(self, itr, paths, log=True):
  baselines = []
  returns = []
 
@@ -160,23 +160,26 @@ def process_samples(self, itr, paths):
  paths=paths,
  )
 
- logger.log("fitting baseline...")
+ if log:
+ logger.log("fitting baseline...")
  if hasattr(self.algo.baseline, 'fit_with_samples'):
  self.algo.baseline.fit_with_samples(paths, samples_data)
  else:
  self.algo.baseline.fit(paths)
- logger.log("fitted")
-
- logger.record_tabular('Iteration', itr)
- logger.record_tabular('AverageDiscountedReturn',
- average_discounted_return)
- logger.record_tabular('AverageReturn', np.mean(undiscounted_returns))
- logger.record_tabular('ExplainedVariance', ev)
- logger.record_tabular('NumTrajs', len(paths))
- logger.record_tabular('Entropy', ent)
- logger.record_tabular('Perplexity', np.exp(ent))
- logger.record_tabular('StdReturn', np.std(undiscounted_returns))
- logger.record_tabular('MaxReturn', np.max(undiscounted_returns))
- logger.record_tabular('MinReturn', np.min(undiscounted_returns))
+ if log:
+ logger.log("fitted")
+
+ if log:
+ #logger.record_tabular('Iteration', itr)
+ #logger.record_tabular('AverageDiscountedReturn',
+ # average_discounted_return)
+ logger.record_tabular('AverageReturn', np.mean(undiscounted_returns))
+ #logger.record_tabular('ExplainedVariance', ev)
+ #logger.record_tabular('NumTrajs', len(paths))
+ #logger.record_tabular('Entropy', ent)
+ #logger.record_tabular('Perplexity', np.exp(ent))
+ logger.record_tabular('StdReturn', np.std(undiscounted_returns))
+ #logger.record_tabular('MaxReturn', np.max(undiscounted_returns))
+ #logger.record_tabular('MinReturn', np.min(undiscounted_returns))
 
  return samples_data