카트 위에서 막대가 균형을 잡도록 강화 학습을 사용해 모델을 훈련합니다.
설명
이 예제는 TensorFlow.js를 사용해 간단한 강화 학습(RL)을 수행하는 방법을 보여줍니다. 구체적으로 TensorFlow.js로 정책 그레이디언트 방법을 구현합니다. 이 구현을 사용해 전통적인 카트-막대 제어 문제를 해결합니다.
스스로 플레이하면서 에이전트는 가능한 많은 스텝 동안 막대가 균형을 잡는 방법을 학습합니다.
방법
상태
모델 초기화
훈련 파라미터
훈련 과정
시뮬레이션