Metadata fetching seems to be a sequential run

Nano1337 · March 1, 2025, 5:47am

ray.data has an API called read_parquet_bulk() which takes in a list of parquet files (not a directory). You can run the following instead:

        import s3fs
        fs = s3fs.S3FileSystem()
        input_ds: Dataset = read_parquet_bulk(
            [
                "s3://" + f
                for f in fs.glob(f"{relevant_directory}/*.parquet")
            ],
        )

This cut down my metadata fetch time from 11 minutes to 18 seconds. Hope this helps!

Topic		Replies	Views
Why isn't `ray.data.read_api._get_reader` parallelized?	0	190	December 5, 2023
Read_binary_files does not load data from S3 in parallel Ray Data	1	161	April 9, 2024
Ray data.read_csv keeps pausing Ray Data	3	398	September 28, 2023
Retry Task w/Different Resources Ray Core	6	658	April 23, 2022
How to increase parallelism for dataset.count()? Ray Clusters	6	1141	October 26, 2022

Metadata fetching seems to be a sequential run

Related topics