按照现在Trainer的逻辑,gen_rm输入数据(即采样数据)是所有进程gather之后的,维度是(gradient_step_accumulation * num_processes * bs_per_device, ),而调用gen_rm貌似也没有做进程指数判断(比如if accelerator.is_main_process:),这是不是会导致每个进程上都会把所有的采样数据重复处理,导致gen_rm的效率非常慢