How to run multi-GPU single node training with ray and PyTorch Lightning?

goku · February 6, 2024, 1:37pm

I have a cluster with 4 GPUs on a single node. I need to run DDP training using all the GPUs available on that node. From the docs, I set num_workers=1 and devices=4, num_nodes=1 for PyTorch Lightning. But it’s not working as expected. Am I missing something?

Here is a minimal code for it.

import torch
from lightning.pytorch import LightningModule, Trainer
from torch.utils.data import DataLoader, Dataset
from argparse import ArgumentParser
import ray.train.lightning
import ray.train.torch
from ray.train.torch import TorchTrainer
from ray.train import ScalingConfig
from ray import train
import time


class RandomDataset(Dataset):
    def __init__(self, size, length):
        self.len = length
        self.data = torch.randn(length, size)

    def __getitem__(self, index):
        return self.data[index]

    def __len__(self):
        return self.len


class BoringModel(LightningModule):
    def __init__(self):
        super().__init__()
        self.layer = torch.nn.Linear(32, 2048)
        self.layer2 = torch.nn.Linear(2048, 2)

    def forward(self, x):
        return self.layer2(self.layer(x))

    def training_step(self, batch, batch_idx):
        loss = self(batch).sum()
        return loss

    def configure_optimizers(self):
        return torch.optim.SGD(self.parameters(), lr=0.1)


def run(config):
    train_data = DataLoader(RandomDataset(32, 64), batch_size=2)

    model = BoringModel()
    plugins = [
        ray.train.lightning.RayLightningEnvironment(),
    ]

    trainer = Trainer(
        strategy=ray.train.lightning.RayDDPStrategy(),
        plugins=plugins,
        enable_model_summary=False,
        profiler='simple',
        **config,
    )
    trainer.fit(model, train_dataloaders=train_data)

def _main():
    config = {}
    config["num_nodes"] = 1
    config["devices"] = 4

    trainer = TorchTrainer(
        train_loop_per_worker=run,
        train_loop_config=config,
        scaling_config=ScalingConfig(
            num_workers=1,
            use_gpu=True,
        ),
    )

    trainer.fit()


if __name__ == "__main__":
    _main()

Topic		Replies	Views
Ray Tune does not work properly with DDP PyTorch Lightning Ray Tune	8	1660	March 17, 2022
Ray.tune with pytorch: only uses 1 of 4 GPUs	1	314	May 15, 2023
Ray Tune for single-node distributed training in PyTorch Ray Tune	3	1004	August 24, 2021
[Tune] lightning without model/dataset parallelism	0	119	March 31, 2024
[SGD] Hydra + RaySGD (PyTorch Lightning) Ray Tune	2	612	June 15, 2021

How to run multi-GPU single node training with ray and PyTorch Lightning?

Related topics