Skip to content

grpo的生成式奖励模型如何接收输入 #4912

Closed
@256785

Description

@256785

我在 rm_plugin.py实现了一个生成式奖励模型,如doc所写使用call函数接收inputs输入,但inputs是在哪里进行控制?打印出的inputs比较奇怪。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions