Skip to content

Commit 82d2e87

Browse files
Marwan Mattarsurfnerd
Marwan Mattar
authored andcommitted
Changing Training-RewardSignals.md --> Reward-Signals.md (#2525)
1 parent 436c5ea commit 82d2e87

File tree

2 files changed

+4
-4
lines changed

2 files changed

+4
-4
lines changed

docs/Training-SAC.md

Lines changed: 2 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -15,7 +15,7 @@ SAC is also a "maximum entropy" algorithm, and enables exploration in an intrins
1515
Read more about maximum entropy RL [here](https://bair.berkeley.edu/blog/2017/10/06/soft-q-learning/).
1616

1717
To train an agent, you will need to provide the agent one or more reward signals which
18-
the agent should attempt to maximize. See [Reward Signals](Training-RewardSignals.md)
18+
the agent should attempt to maximize. See [Reward Signals](Reward-Signals.md)
1919
for the available reward signals and the corresponding hyperparameters.
2020

2121
## Best Practices when training with SAC
@@ -35,7 +35,7 @@ rewarding the agent for various different behaviors. For instance, we could rewa
3535
the agent for exploring new states, rather than explicitly defined reward signals.
3636
Furthermore, we could mix reward signals to help the learning process.
3737

38-
`reward_signals` provides a section to define [reward signals.](Training-RewardSignals.md)
38+
`reward_signals` provides a section to define [reward signals.](Reward-Signals.md)
3939
ML-Agents provides two reward signals by default, the Extrinsic (environment) reward, and the
4040
Curiosity reward, which can be used to encourage exploration in sparse extrinsic reward
4141
environments.

docs/localized/KR/docs/Training-PPO.md

Lines changed: 2 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -3,7 +3,7 @@
33
ML-Agents는 [Proximal Policy Optimization (PPO)](https://blog.openai.com/openai-baselines-ppo/) 라는 강화학습 기법을 사용합니다.
44
PPO는 에이전트의 관측 (Observation)을 통해 에이전트가 주어진 상태에서 최선의 행동을 선택할 수 있도록 하는 이상적인 함수를 인공신경망을 이용하여 근사하는 기법입니다. ML-agents의 PPO 알고리즘은 텐서플로우로 구현되었으며 별도의 파이썬 프로세스 (소켓 통신을 통해 실행중인 유니티 프로그램과 통신)에서 실행됩니다.
55

6-
에이전트를 학습하기 위해서 사용자는 에이전트가 최대화하도록 시도하는 보상 시그널을 하나 혹은 그 이상 설정해야합니다. 사용 가능한 보상 시그널들과 관련된 하이퍼파라미터에 대해서는 [보상 시그널](Training-RewardSignals.md) 문서를 참고해주십시오.
6+
에이전트를 학습하기 위해서 사용자는 에이전트가 최대화하도록 시도하는 보상 시그널을 하나 혹은 그 이상 설정해야합니다. 사용 가능한 보상 시그널들과 관련된 하이퍼파라미터에 대해서는 [보상 시그널](Reward-Signals.md) 문서를 참고해주십시오.
77

88
`learn.py`를 이용하여 학습 프로그램을 실행하는 방법은 [ML-Agents 학습](Training-ML-Agents.md) 문서를 참고해주십시오.
99

@@ -26,7 +26,7 @@ PPO는 에이전트의 관측 (Observation)을 통해 에이전트가 주어진
2626

2727
강화학습에서 목표는 보상을 최대로 하는 정책 (Policy)을 학습하는 것입니다. 기본적으로 보상은 환경으로부터 주어집니다. 그러나 우리는 다양한 다른 행동을 통해 에이전트에게 보상을 주는 것을 생각해볼 수 있습니다. 예를 들어 에이전트가 새로운 상태를 탐험했을 때 에이전트에게 보상을 줄 수 있습니다. 이런 보상 시그널을 추가하여 학습 과정에 도움을 줄 수도 있습니다.
2828

29-
`reward_signals`[보상 시그널](Training-RewardSignals.md)을 정의합니다. ML-Agents는 기본적으로 두개의 보상 시그널을 제공합니다. 하나는 외부 (환경) 보상이며 다른 하나는 호기심 (Curiosity) 보상입니다. 이 호기심 보상은 외부 보상이 희소성을 가지는 환경 (Sparse Extrinsic Reward Environment)에서 더 다양한 탐험을 수행할 수 있도록 도와줍니다.
29+
`reward_signals`[보상 시그널](Reward-Signals.md)을 정의합니다. ML-Agents는 기본적으로 두개의 보상 시그널을 제공합니다. 하나는 외부 (환경) 보상이며 다른 하나는 호기심 (Curiosity) 보상입니다. 이 호기심 보상은 외부 보상이 희소성을 가지는 환경 (Sparse Extrinsic Reward Environment)에서 더 다양한 탐험을 수행할 수 있도록 도와줍니다.
3030

3131
### Lambda
3232

0 commit comments

Comments
 (0)