Value function

    강화학습(Reinforcement Learning) - 1.Value Function

    # 1. 강화학습이란? 강화학습이란 어떤 Enviroment을 탐색하는 Agent가 현재의 State을 인식하여 어떤 Action을 취하면 그 행동에 대한 Reward가 주어지게 되고, Reward를 최대화하는 Action을 찾는 Policy를 찾는 학습방법이다. # 2 .Value Function Markov Decision Process란? 순차적 의사결정 과정을 모델링하는 수학적인 틀로서 현재 State에서 이전 이력은 고려하지 않고, 최선의 action을 결정하는 방법을 말한다. 상태(State), 행동(Action), 보상(Reward), 상태 변환 확률(State Transition Probability), 감가율(Discount Factor), 정책(Policy)으로 구성되어 있으며 이를 통..