Deep deterministic policy gradient

A minimalistic and friendly implementation of DDPG using PyTorch.

TODO:

Credit:

I checked my code against https://github.com/Pechckin/MountainCar and borrowed its implementation of replay buffer which has faster sampling speed.

Name		Name	Last commit message	Last commit date
Latest commit History 57 Commits
random_stuff		random_stuff
rdpg		rdpg
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
params_pool.py		params_pool.py
params_pool_episodic.py		params_pool_episodic.py
replay_buffer.py		replay_buffer.py
replay_buffer_episodic.py		replay_buffer_episodic.py
replay_buffer_recurrent.py		replay_buffer_recurrent.py
test_batch.py		test_batch.py
test_loss.py		test_loss.py
train_mountain_car_episodic_recurrent.py		train_mountain_car_episodic_recurrent.py
train_pendulum.py		train_pendulum.py
train_pendulum_recurrent.py		train_pendulum_recurrent.py
wrappers.py		wrappers.py

Provide feedback