Memory issue debugging

mannyv · September 21, 2022, 9:00pm

My guess is that your environment is generating samples much faster than the training is consuming them. This is causing the sample queue to fill up in the policy server which is causing the memory issue.

Try adding the following print and see if this is growing:

github.com

ray-project/ray/blob/7ca334f4138b310353ceb473b03662d7de81f183/rllib/env/policy_server_input.py#L174-L176


      
          @override(InputReader)
          def next(self):
              return self.samples_queue.get()

    @override(InputReader)
    def next(self):
        print(f"Size of samples queue is: {self.samples_queue.qsize()}", )
        return self.samples_queue.get()

My env is not much faster than the training but if I artificially slow training down by putting a break point in the training call of the policy and waiting 20 seconds I see something like this:

Size of samples queue is: 6
Size of samples queue is: 5
Size of samples queue is: 5
Size of samples queue is: 5
Size of samples queue is: 4
Size of samples queue is: 3
Size of samples queue is: 4
Size of samples queue is: 3
Size of samples queue is: 2
Size of samples queue is: 1
Size of samples queue is: 1
Size of samples queue is: 0
Size of samples queue is: 0
Size of samples queue is: 0
Size of samples queue is: 0

Topic		Replies	Views
[RLlib] GPU Memory Leak? Tune + PPO, Policy Server + Client RLlib	18	1222	May 29, 2023
PPO trainer eating up memory RLlib	9	2352	April 2, 2021
Help debugging a memory leak in rllib RLlib	21	3900	September 25, 2022
Memory leakage using distributed workers Ray Core	3	401	January 7, 2023
Memory Pressure Issue Configure Algorithm, Training, Evaluation, Scaling	9	767	February 22, 2023

Memory issue debugging

Related topics