RNNSAC with continous action space

lam4AI · November 29, 2021, 5:51pm

Dear Ray-Team,
I´m trying to use the rnnsac algorithm with a continuous action space environment.

From ray.rllib.examples I took the rnnsac_stateless_cartpole.py example and changed the environment from StatelessCartPole to MountainCarContinuous-v0 to test the algorithm for my custom environment.

As a result, I get an error message about incorrect dimensions, with which I can not proceed.

Can you help me with this problem?
I’m relatively new to this area, maybe I overlooked or ignored something related to using SAC with RNN and contiunous action spaces?
Thank you very much in advance!!

My code (same as ray.rllib.examples.rnnsac_stateless_cartpole.py, only changed the env.):

import json
from pathlib import Path

import ray
from ray import tune
from ray.rllib.agents.registry import get_trainer_class

from ray.rllib.examples.env.repeat_after_me_env import RepeatAfterMeEnv
from ray.rllib.examples.env.stateless_cartpole import StatelessCartPole


config = {
    "name": "RNNSAC_example",
    "local_dir": str(Path(__file__).parent / "example_out"),
    "checkpoint_freq": 1,
    "keep_checkpoints_num": 1,
    "checkpoint_score_attr": "episode_reward_mean",
    "stop": {
        "episode_reward_mean": 65.0,
        "timesteps_total": 100000,
    },
    "metric": "episode_reward_mean",
    "mode": "max",
    "verbose": 2,
    "config": {
        "framework": "torch",
        "num_workers": 4,
        "num_envs_per_worker": 1,
        "num_cpus_per_worker": 1,
        "log_level": "INFO",

        # "env": envs["RepeatAfterMeEnv"],
        # "env": envs["StatelessCartPole"],
        "env" : "MountainCarContinuous-v0",
        "horizon": 1000,
        "gamma": 0.95,
        "batch_mode": "complete_episodes",
        "prioritized_replay": False,
        "buffer_size": 100000,
        "learning_starts": 1000,
        "train_batch_size": 480,
        "target_network_update_freq": 480,
        "tau": 0.3,
        "burn_in": 4,
        "zero_init_states": False,
        "optimization": {
            "actor_learning_rate": 0.005,
            "critic_learning_rate": 0.005,
            "entropy_learning_rate": 0.0001
        },
        "model": {
            "max_seq_len": 20,
        },
        "policy_model": {
            "use_lstm": True,
            "lstm_cell_size": 64,
            "fcnet_hiddens": [64, 64],
            "lstm_use_prev_action": True,
            "lstm_use_prev_reward": True,
        },
        "Q_model": {
            "use_lstm": True,
            "lstm_cell_size": 64,
            "fcnet_hiddens": [64, 64],
            "lstm_use_prev_action": True,
            "lstm_use_prev_reward": True,
        },
    },
}

if __name__ == "__main__":
    # INIT
    ray.init(num_cpus=5)

    # TRAIN
    results = tune.run("RNNSAC", **config)

    # TEST
    best_checkpoint = results.best_checkpoint
    print("Loading checkpoint: {}".format(best_checkpoint))
    checkpoint_config_path = str(
        Path(best_checkpoint).parent.parent / "params.json")
    with open(checkpoint_config_path, "rb") as f:
        checkpoint_config = json.load(f)

    checkpoint_config["explore"] = False

    agent = get_trainer_class("RNNSAC")(
        env=config["config"]["env"], config=checkpoint_config)
    agent.restore(best_checkpoint)

    env = agent.env_creator({})
    state = agent.get_policy().get_initial_state()
    prev_action = 0
    prev_reward = 0
    obs = env.reset()

    eps = 0
    ep_reward = 0
    while eps < 10:
        action, state, info_trainer = agent.compute_action(
            obs,
            state=state,
            prev_action=prev_action,
            prev_reward=prev_reward,
            full_fetch=True)
        obs, reward, done, info = env.step(action)
        prev_action = action
        prev_reward = reward
        ep_reward += reward
        try:
            env.render()
        except (NotImplementedError, ImportError):
            pass
        if done:
            eps += 1
            print("Episode {}: {}".format(eps, ep_reward))
            ep_reward = 0
            state = agent.get_policy().get_initial_state()
            prev_action = 0
            prev_reward = 0
            obs = env.reset()
    ray.shutdown()

Full error message:

2021-11-29 18:27:50,134	ERROR worker.py:425 -- Exception raised in creation task: The actor died because of an error raised in its creation task, ray::RNNSACTrainer.__init__() (pid=20300, ip=127.0.0.1)
(pid=20300)   File "python\ray\_raylet.pyx", line 565, in ray._raylet.execute_task
(pid=20300)   File "python\ray\_raylet.pyx", line 569, in ray._raylet.execute_task
(pid=20300)   File "python\ray\_raylet.pyx", line 519, in ray._raylet.execute_task.function_executor
(pid=20300)   File ".\WorkingENV\lib\site-packages\ray\_private\function_manager.py", line 576, in actor_method_executor
(pid=20300)     return method(__ray_actor, *args, **kwargs)
(pid=20300)   File ".\WorkingENV\lib\site-packages\ray\util\tracing\tracing_helper.py", line 451, in _resume_span
(pid=20300)     return method(self, *_args, **_kwargs)
(pid=20300)   File ".\WorkingENV\lib\site-packages\ray\rllib\agents\trainer_template.py", line 137, in __init__
(pid=20300)     Trainer.__init__(self, config, env, logger_creator)
(pid=20300)   File ".\WorkingENV\lib\site-packages\ray\rllib\agents\trainer.py", line 623, in __init__
(pid=20300)     super().__init__(config, logger_creator)
(pid=20300)   File ".\WorkingENV\lib\site-packages\ray\tune\trainable.py", line 107, in __init__
(pid=20300)     self.setup(copy.deepcopy(self.config))
(pid=20300)   File ".\WorkingENV\lib\site-packages\ray\util\tracing\tracing_helper.py", line 451, in _resume_span
(pid=20300)     return method(self, *_args, **_kwargs)
(pid=20300)   File ".\WorkingENV\lib\site-packages\ray\rllib\agents\trainer_template.py", line 147, in setup
(pid=20300)     super().setup(config)
(pid=20300)   File ".\WorkingENV\lib\site-packages\ray\rllib\agents\trainer.py", line 776, in setup
(pid=20300)     self._init(self.config, self.env_creator)
(pid=20300)   File ".\WorkingENV\lib\site-packages\ray\util\tracing\tracing_helper.py", line 451, in _resume_span
(pid=20300)     return method(self, *_args, **_kwargs)
(pid=20300)   File ".\WorkingENV\lib\site-packages\ray\rllib\agents\trainer_template.py", line 176, in _init
(pid=20300)     num_workers=self.config["num_workers"])
(pid=20300)   File ".\WorkingENV\lib\site-packages\ray\util\tracing\tracing_helper.py", line 451, in _resume_span
(pid=20300)     return method(self, *_args, **_kwargs)
(pid=20300)   File ".\WorkingENV\lib\site-packages\ray\rllib\agents\trainer.py", line 864, in _make_workers
(pid=20300)     logdir=self.logdir)
(pid=20300)   File ".\WorkingENV\lib\site-packages\ray\rllib\evaluation\worker_set.py", line 89, in __init__
(pid=20300)     lambda p, pid: (pid, p.observation_space, p.action_space)))
(pid=20300)   File ".\WorkingENV\lib\site-packages\ray\_private\client_mode_hook.py", line 105, in wrapper
(pid=20300)     return func(*args, **kwargs)
(pid=20300)   File ".\WorkingENV\lib\site-packages\ray\worker.py", line 1627, in get
(pid=20300)     raise value
(pid=20300) ray.exceptions.RayActorError: The actor died because of an error raised in its creation task, ray::RolloutWorker.__init__() (pid=24004, ip=127.0.0.1)
(pid=20300)   File "python\ray\_raylet.pyx", line 565, in ray._raylet.execute_task
(pid=20300)   File "python\ray\_raylet.pyx", line 569, in ray._raylet.execute_task
(pid=20300)   File "python\ray\_raylet.pyx", line 519, in ray._raylet.execute_task.function_executor
(pid=20300)   File ".\WorkingENV\lib\site-packages\ray\_private\function_manager.py", line 576, in actor_method_executor
(pid=20300)     return method(__ray_actor, *args, **kwargs)
(pid=20300)   File ".\WorkingENV\lib\site-packages\ray\util\tracing\tracing_helper.py", line 451, in _resume_span
(pid=20300)     return method(self, *_args, **_kwargs)
(pid=20300)   File ".\WorkingENV\lib\site-packages\ray\rllib\evaluation\rollout_worker.py", line 588, in __init__
(pid=20300)     seed=seed)
(pid=20300)   File ".\WorkingENV\lib\site-packages\ray\util\tracing\tracing_helper.py", line 451, in _resume_span
(pid=20300)     return method(self, *_args, **_kwargs)
(pid=20300)   File ".\WorkingENV\lib\site-packages\ray\rllib\evaluation\rollout_worker.py", line 1385, in _build_policy_map
(pid=20300)     conf, merged_conf)
(pid=20300)   File ".\WorkingENV\lib\site-packages\ray\rllib\policy\policy_map.py", line 144, in create_policy
(pid=20300)     merged_config)
(pid=20300)   File ".\WorkingENV\lib\site-packages\ray\rllib\policy\policy_template.py", line 282, in __init__
(pid=20300)     stats_fn=None if self.config["in_evaluation"] else stats_fn,
(pid=20300)   File ".\WorkingENV\lib\site-packages\ray\rllib\policy\policy.py", line 732, in _initialize_loss_from_dummy_batch
(pid=20300)     self._dummy_batch, explore=False)
(pid=20300)   File ".\WorkingENV\lib\site-packages\ray\rllib\policy\torch_policy.py", line 303, in compute_actions_from_input_dict
(pid=20300)     seq_lens, explore, timestep)
(pid=20300)   File ".\WorkingENV\lib\site-packages\ray\rllib\utils\threading.py", line 21, in wrapper
(pid=20300)     return func(self, *a, **k)
(pid=20300)   File ".\WorkingENV\lib\site-packages\ray\rllib\policy\torch_policy.py", line 348, in _compute_action_helper
(pid=20300)     is_training=False)
(pid=20300)   File ".\WorkingENV\lib\site-packages\ray\rllib\agents\sac\rnnsac_torch_policy.py", line 175, in action_distribution_fn
(pid=20300)     _, q_state_out = model.get_q_values(model_out, states_in["q"], seq_lens)
(pid=20300)   File ".\WorkingENV\lib\site-packages\ray\rllib\agents\sac\rnnsac_torch_model.py", line 101, in get_q_values
(pid=20300)     seq_lens)
(pid=20300)   File ".\WorkingENV\lib\site-packages\ray\rllib\agents\sac\rnnsac_torch_model.py", line 91, in _get_q_value
(pid=20300)     out, state_out = net(model_out, state_in, seq_lens)
(pid=20300)   File ".\WorkingENV\lib\site-packages\ray\rllib\models\modelv2.py", line 243, in __call__
(pid=20300)     res = self.forward(restored, state or [], seq_lens)
(pid=20300)   File ".\WorkingENV\lib\site-packages\ray\rllib\models\torch\recurrent_net.py", line 187, in forward
(pid=20300)     wrapped_out, _ = self._wrapped_forward(input_dict, [], None)
(pid=20300)   File ".\WorkingENV\lib\site-packages\ray\rllib\models\torch\fcnet.py", line 124, in forward
(pid=20300)     self._features = self._hidden_layers(self._last_flat_in)
(pid=20300)   File ".\WorkingENV\lib\site-packages\torch\nn\modules\module.py", line 1102, in _call_impl
(pid=20300)     return forward_call(*input, **kwargs)
(pid=20300)   File ".\WorkingENV\lib\site-packages\torch\nn\modules\container.py", line 141, in forward
(pid=20300)     input = module(input)
(pid=20300)   File ".\WorkingENV\lib\site-packages\torch\nn\modules\module.py", line 1102, in _call_impl
(pid=20300)     return forward_call(*input, **kwargs)
(pid=20300)   File ".\WorkingENV\lib\site-packages\ray\rllib\models\torch\misc.py", line 160, in forward
(pid=20300)     return self._model(x)
(pid=20300)   File ".\WorkingENV\lib\site-packages\torch\nn\modules\module.py", line 1102, in _call_impl
(pid=20300)     return forward_call(*input, **kwargs)
(pid=20300)   File ".\WorkingENV\lib\site-packages\torch\nn\modules\container.py", line 141, in forward
(pid=20300)     input = module(input)
(pid=20300)   File ".\WorkingENV\lib\site-packages\torch\nn\modules\module.py", line 1102, in _call_impl
(pid=20300)     return forward_call(*input, **kwargs)
(pid=20300)   File ".\WorkingENV\lib\site-packages\torch\nn\modules\linear.py", line 103, in forward
(pid=20300)     return F.linear(input, self.weight, self.bias)
(pid=20300)   File ".\WorkingENV\lib\site-packages\torch\nn\functional.py", line 1848, in linear
(pid=20300)     return torch._C._nn.linear(input, weight, bias)
(pid=20300) RuntimeError: mat1 and mat2 shapes cannot be multiplied (32x2 and 3x64)

Kai2357 · December 6, 2021, 1:15pm

I have the same problem.
@sven1977 do you have any idea how to solve it?

wildsky95 · January 8, 2022, 7:11am

hi also i have the same problem, and i created an issue on github.

github.com/ray-project/ray

[RLlib] [Bug] concatenating obs_space with action _space as input space in RNNSAC build_q_model method causes shape mismatch building rnn model

opened 02:34PM - 07 Jan 22 UTC

wildsky95

bug triage rllib

### Search before asking - [X] I searched the [issues](https://github.com/ray…-project/ray/issues) and found no similar issues. ### Ray Component RLlib ### What happened + What you expected to happen ``Hi, im trying to train a multiagent RNNsac with my custom environment. but the problem is i get a shape mismatch error, i tried to resolve this on my own. but i get that when building the q_model the obs_shape and action space gets concatenated and therefore the model shape gets a shape of action shape + ob shape, and in training the shape mismatch occurs. i cant quite understand why the build_q_model is concatenation the action and obs. my custom env's observation space is (9640,) and action space is (4031,) so with concatenation in q model building i get a shape error. im literally trying the RNNSAC test algorithm to run the model. and also it's worth mentioning that works perfectly well with multiagent cartpole but it doesnt work with custom env. ofcourse i tested my custom multi agent env with PPO and PG and its works good!!! the error i get is : ```Traceback (most recent call last): File "/home/wildsky/My_Venv/DRL/lib/python3.8/site-packages/ray/rllib/agents/trainer.py", line 773, in setup self._init(self.config, self.env_creator) File "/home/wildsky/My_Venv/DRL/lib/python3.8/site-packages/ray/rllib/agents/trainer.py", line 873, in _init raise NotImplementedError NotImplementedError During handling of the above exception, another exception occurred: Traceback (most recent call last): File "/home/wildsky/Dropbox/AI-AoI-FeLSA/Simulation/marl_test/testSAC.py", line 116, in <module> trainer = sac.RNNSACTrainer(config=config, env="multi_agent_aoi") File "/home/wildsky/My_Venv/DRL/lib/python3.8/site-packages/ray/rllib/agents/sac/sac.py", line 187, in __init__ super().__init__(*args, **kwargs) File "/home/wildsky/My_Venv/DRL/lib/python3.8/site-packages/ray/rllib/agents/trainer.py", line 690, in __init__ super().__init__(config, logger_creator, remote_checkpoint_dir, File "/home/wildsky/My_Venv/DRL/lib/python3.8/site-packages/ray/tune/trainable.py", line 122, in __init__ self.setup(copy.deepcopy(self.config)) File "/home/wildsky/My_Venv/DRL/lib/python3.8/site-packages/ray/rllib/agents/trainer.py", line 788, in setup self.workers = self._make_workers( File "/home/wildsky/My_Venv/DRL/lib/python3.8/site-packages/ray/rllib/agents/trainer.py", line 1822, in _make_workers return WorkerSet( File "/home/wildsky/My_Venv/DRL/lib/python3.8/site-packages/ray/rllib/evaluation/worker_set.py", line 123, in __init__ self._local_worker = self._make_worker( File "/home/wildsky/My_Venv/DRL/lib/python3.8/site-packages/ray/rllib/evaluation/worker_set.py", line 479, in _make_worker worker = cls( File "/home/wildsky/My_Venv/DRL/lib/python3.8/site-packages/ray/rllib/evaluation/rollout_worker.py", line 587, in __init__ self._build_policy_map( File "/home/wildsky/My_Venv/DRL/lib/python3.8/site-packages/ray/rllib/evaluation/rollout_worker.py", line 1550, in _build_policy_map self.policy_map.create_policy(name, orig_cls, obs_space, act_space, File "/home/wildsky/My_Venv/DRL/lib/python3.8/site-packages/ray/rllib/policy/policy_map.py", line 143, in create_policy self[policy_id] = class_(observation_space, action_space, File "/home/wildsky/My_Venv/DRL/lib/python3.8/site-packages/ray/rllib/policy/policy_template.py", line 280, in __init__ self._initialize_loss_from_dummy_batch( File "/home/wildsky/My_Venv/DRL/lib/python3.8/site-packages/ray/rllib/policy/policy.py", line 799, in _initialize_loss_from_dummy_batch self.compute_actions_from_input_dict( File "/home/wildsky/My_Venv/DRL/lib/python3.8/site-packages/ray/rllib/policy/torch_policy.py", line 294, in compute_actions_from_input_dict return self._compute_action_helper(input_dict, state_batches, File "/home/wildsky/My_Venv/DRL/lib/python3.8/site-packages/ray/rllib/utils/threading.py", line 21, in wrapper return func(self, *a, **k) File "/home/wildsky/My_Venv/DRL/lib/python3.8/site-packages/ray/rllib/policy/torch_policy.py", line 908, in _compute_action_helper self.action_distribution_fn( File "/home/wildsky/My_Venv/DRL/lib/python3.8/site-packages/ray/rllib/agents/sac/rnnsac_torch_policy.py", line 175, in action_distribution_fn _, q_state_out = model.get_q_values(model_out, states_in["q"], seq_lens) File "/home/wildsky/My_Venv/DRL/lib/python3.8/site-packages/ray/rllib/agents/sac/rnnsac_torch_model.py", line 100, in get_q_values return self._get_q_value(model_out, actions, self.q_net, state_in, File "/home/wildsky/My_Venv/DRL/lib/python3.8/site-packages/ray/rllib/agents/sac/rnnsac_torch_model.py", line 91, in _get_q_value out, state_out = net(model_out, state_in, seq_lens) File "/home/wildsky/My_Venv/DRL/lib/python3.8/site-packages/ray/rllib/models/modelv2.py", line 243, in __call__ res = self.forward(restored, state or [], seq_lens) File "/home/wildsky/My_Venv/DRL/lib/python3.8/site-packages/ray/rllib/models/torch/recurrent_net.py", line 187, in forward wrapped_out, _ = self._wrapped_forward(input_dict, [], None) File "/home/wildsky/My_Venv/DRL/lib/python3.8/site-packages/ray/rllib/models/torch/fcnet.py", line 124, in forward self._features = self._hidden_layers(self._last_flat_in) File "/home/wildsky/My_Venv/DRL/lib/python3.8/site-packages/torch/nn/modules/module.py", line 1051, in _call_impl return forward_call(*input, **kwargs) File "/home/wildsky/My_Venv/DRL/lib/python3.8/site-packages/torch/nn/modules/container.py", line 139, in forward input = module(input) File "/home/wildsky/My_Venv/DRL/lib/python3.8/site-packages/torch/nn/modules/module.py", line 1051, in _call_impl return forward_call(*input, **kwargs) File "/home/wildsky/My_Venv/DRL/lib/python3.8/site-packages/ray/rllib/models/torch/misc.py", line 160, in forward return self._model(x) File "/home/wildsky/My_Venv/DRL/lib/python3.8/site-packages/torch/nn/modules/module.py", line 1051, in _call_impl return forward_call(*input, **kwargs) File "/home/wildsky/My_Venv/DRL/lib/python3.8/site-packages/torch/nn/modules/container.py", line 139, in forward input = module(input) File "/home/wildsky/My_Venv/DRL/lib/python3.8/site-packages/torch/nn/modules/module.py", line 1051, in _call_impl return forward_call(*input, **kwargs) File "/home/wildsky/My_Venv/DRL/lib/python3.8/site-packages/torch/nn/modules/linear.py", line 96, in forward return F.linear(input, self.weight, self.bias) File "/home/wildsky/My_Venv/DRL/lib/python3.8/site-packages/torch/nn/functional.py", line 1847, in linear return torch._C._nn.linear(input, weight, bias) RuntimeError: mat1 and mat2 shapes cannot be multiplied (32x9640 and 13671x10)``` ### i use this code to train : ```from ray.tune.registry import register_env from ray.rllib.env.multi_agent_env import make_multi_agent from env_rllib import Environment from ray.rllib.models import ModelCatalog import ray.rllib.agents.sac as sac from ray.rllib.utils.framework import try_import_tf, try_import_torch from ray.rllib.utils.test_utils import check_compute_single_action, \ framework_iterator from rnn_model import TorchRNNModel, RNNModel tf1, tf, tfv = try_import_tf() torch, nn = try_import_torch() MultiAgentAOI = make_multi_agent(Environment) ModelCatalog.register_custom_model("lstm_model", TorchRNNModel) ModelCatalog.register_custom_model("lstm_model_tf", RNNModel) register_env("multi_agent_aoi" , lambda x : MultiAgentAOI({"num_agents": 5})) config = sac.RNNSAC_DEFAULT_CONFIG.copy() config["num_workers"] = 0 # Run locally. config["model"] = { "max_seq_len": 100, } config["env"]= "multi_agent_aoi" config["policy_model"] = { # "custom_model": "lstm_model", "fcnet_hiddens": [10], "use_lstm": True, "lstm_cell_size": 64, "lstm_use_prev_action": True, "lstm_use_prev_reward": True, } config["Q_model"] = { # "custom_model": "lstm_model", "fcnet_hiddens": [10], "use_lstm": True, "lstm_cell_size": 64, "lstm_use_prev_action": True, "lstm_use_prev_reward": True, } config["prioritized_replay"] = True config["burn_in"] = 20 config["zero_init_states"] = True config["lr"] = 5e-4 num_iterations = 1 for _ in framework_iterator(config, frameworks="torch"): trainer = sac.RNNSACTrainer(config=config, env="multi_agent_aoi") for i in range(num_iterations): results = trainer.train() print(results)``` **i dont quite understand this part of building q_model method :** ```def build_q_model(self, obs_space, action_space, num_outputs, q_model_config, name): """Builds one of the (twin) Q-nets used by this SAC. Override this method in a sub-class of SACTFModel to implement your own Q-nets. Alternatively, simply set `custom_model` within the top level SAC `Q_model` config key to make this default implementation of `build_q_model` use your custom Q-nets. Returns: TorchModelV2: The TorchModelV2 Q-net sub-model. """ self.concat_obs_and_actions = False if self.discrete: input_space = obs_space else: orig_space = getattr(obs_space, "original_space", obs_space) if isinstance(orig_space, Box) and len(orig_space.shape) == 1: input_space = Box( float("-inf"), float("inf"), shape=(orig_space.shape[0] + action_space.shape[0], )) self.concat_obs_and_actions = True``` **thanks in advance for your guidance.** ### Versions / Dependencies v2.0 ### Reproduction script from ray.tune.registry import register_env from ray.rllib.env.multi_agent_env import make_multi_agent from env_rllib import Environment from ray.rllib.models import ModelCatalog import ray.rllib.agents.sac as sac from ray.rllib.utils.framework import try_import_tf, try_import_torch from ray.rllib.utils.test_utils import check_compute_single_action, \ framework_iterator from rnn_model import TorchRNNModel, RNNModel tf1, tf, tfv = try_import_tf() torch, nn = try_import_torch() MultiAgentAOI = make_multi_agent(Environment) ModelCatalog.register_custom_model("lstm_model", TorchRNNModel) ModelCatalog.register_custom_model("lstm_model_tf", RNNModel) register_env("multi_agent_aoi" , lambda x : MultiAgentAOI({"num_agents": 5})) config = sac.RNNSAC_DEFAULT_CONFIG.copy() config["num_workers"] = 0 # Run locally. config["model"] = { "max_seq_len": 100, } config["env"]= "multi_agent_aoi" config["policy_model"] = { # "custom_model": "lstm_model", "fcnet_hiddens": [10], "use_lstm": True, "lstm_cell_size": 64, "lstm_use_prev_action": True, "lstm_use_prev_reward": True, } config["Q_model"] = { # "custom_model": "lstm_model", "fcnet_hiddens": [10], "use_lstm": True, "lstm_cell_size": 64, "lstm_use_prev_action": True, "lstm_use_prev_reward": True, } config["prioritized_replay"] = True config["burn_in"] = 20 config["zero_init_states"] = True config["lr"] = 5e-4 num_iterations = 1 for _ in framework_iterator(config, frameworks="torch"): trainer = sac.RNNSACTrainer(config=config, env="multi_agent_aoi") for i in range(num_iterations): results = trainer.train() print(results) ### Anything else _No response_ ### Are you willing to submit a PR? - [ ] Yes I am willing to submit a PR!

Thank you in advance @sven1977

Topic		Replies	Views
Running Custom Attention_net with RNNSAC RLlib	3	707	October 25, 2021
There was an error changing the trajecy_tory_view_api into continuous action space RLlib	7	597	February 22, 2022
RNN L2 weights regularization RLlib	41	2051	July 5, 2021
Custom RNN Model with Examples - why do they fail? RLlib	11	2356	May 5, 2022
RayTaskError(AttributeError) : ray::RolloutWorker.par_iter_next() RLlib	12	1432	February 21, 2022

RNNSAC with continous action space

Related topics