TensorFlow.js 예제: 강화 학습 - 카트 막대 문제

카트 위에서 막대가 균형을 잡도록 강화 학습을 사용해 모델을 훈련합니다.

설명

이 예제는 TensorFlow.js를 사용해 간단한 강화 학습(RL)을 수행하는 방법을 보여줍니다. 구체적으로 TensorFlow.js로 정책 그레이디언트 방법을 구현합니다. 이 구현을 사용해 전통적인 카트-막대 제어 문제를 해결합니다.

스스로 플레이하면서 에이전트는 가능한 많은 스텝 동안 막대가 균형을 잡는 방법을 학습합니다.

방법

은닉 층 크기를 고르고 "모델 생성"를 클릭하세요.
훈련 파라미터를 선택한 다음 "훈련" 버튼을 클릭하세요.
모델이 훈련되는 동안 주기적으로 로컬 브라우저 저장소에 모델의 복사본을 저장합니다. 페이지를 새로 고침하더라도 마지막 저장 지점부터 훈련을 이어갈 수 있다는 것을 의미합니다. 처음부터 모델을 훈련하고 싶다면 "저장된 모델 삭제" 버튼을 클릭하세요.
모델 훈련이 끝나면 "테스트" 버튼을 클릭하여 에이전트가 얼마나 많은 스텝 동안 막대의 균형을 잡는지 볼 수 있습니다. 현재 훈련 반복 이후에 바로 모델을 테스트하고 싶다면 "중지" 버튼을 클릭하여 훈련을 멈출 수 있습니다.
훈련과 테스트를 할 때 에이전트 동작의 시뮬레이션이 화면에 렌더링됩니다.

상태

대기 중.

모델 초기화

은닉층 크기 (예를 들면: "256", "32,64"):

로컬에 저장된 모델

훈련 파라미터

반복 횟수:

반복 당 게임수:

게임 당 최대 스텝수:

보상 할인 계수:

학습률:

훈련하는 동안 렌더링하기: 훈련 속도를 높이려면 체크하지 마세요.

훈련 과정

반복 #:

게임 #:

훈련 속도:

시뮬레이션