Dynamic Programming1 [강화학습] TD방법으로 Cliff walking 문제 풀기 (C++) 저번 학기에 배운 수업 내용과 과제를 정리 강화학습이란 문제를 해결하는데에 있어서 최적의 방법을 찾는데, 그 시스템 안에서 주어진 상태(State, s) 에서 어떻게 행동(Action, a)하니까 보상(Reward, r)이 얼만큼 나왔다라는 흐름으로 구조를 만들어 보상의 합인 가치값이 가능 크게 만드는 행동을 최적의 해결책으로 선정하는 학습 방법입니다. 강화학습은 크게 3가지 방법으로 나뉩니다. 1. Dynamic Programming (DP) 2. Monte Carlo (MC) 3. Temporal Differnece (TD) DP방법은 환경모델과 벨만 방정식을 이용해서 모든 경우에 대한 가치를 계산하여 상태 별 가치를 구하고, 그 중에서 가장 높은 가치를 가진 만들어내는 행동을 찾는 방식이다. 모든 .. 2022. 3. 5. 이전 1 다음