강화학습(Reinforcement Learning) - 1.Value Function

# 1. 강화학습이란?

강화학습이란 어떤 Enviroment을 탐색하는 Agent가 현재의 State을 인식하여 어떤 Action을 취하면 그 행동에 대한 Reward가 주어지게 되고, Reward를 최대화하는 Action을 찾는 Policy를 찾는 학습방법이다.

# 2 .Value Function

Markov Decision Process란?
순차적 의사결정 과정을 모델링하는 수학적인 틀로서 현재 State에서 이전 이력은 고려하지 않고, 최선의 action을 결정하는 방법을 말한다. 상태(State), 행동(Action), 보상(Reward), 상태 변환 확률(State Transition Probability), 감가율(Discount Factor), 정책(Policy)으로 구성되어 있으며 이를 통해 더 좋은 정책을 찾는 과정이다.

Reward란?

t라는 시간일 때의 State에서 Action이 취해졌을 때 t+1에 받을 수 있는 Reward의 기대값을 말한다.

상태변환 확률이란?

상태 변환 확률이란 시점 t에서 State와 Action이 주어졌을 때 다음 State에 도달할 확률로서 다음과 같이 나타낸다.

감가율(Discount Factor)이란?

감가율이란 에이전트가 현재에 가까운 시점에 받는 보상을 미래에 받는 보상보다 가치있게 해주는 개념이다.

정책(Policy)이란?

모든 상태에 대해 에이전트가 할 행동을 나타낸 개념이다.

그럼, 강화학습 알고리즘이 하는 일은

Value Function이란?

value Function은 해당 State로부터 종료 될 때까지의 누적 Reward를 추정하는 식이고 𝑣_𝜋 (𝑠)로 표기한다.

따라서, 에이전트가 시점 t에서 State와 Action을 선택하고 Reward를 계속 반복해서 받았던 모든 보상의 합을 감가율을 곱해주어 더하면 다음과 같이 나타난다.

이 식의 기대값이 바로 t시점의 State에 대한 Value를 나타낸다.

이 식을 감가율을 묶고 뒤를 정리해보면 다음과 같이 나타난다.

따라서, t 시점의 State에 대한 기대값은 Reward와 t+1에 대한 Value에 감가율을 곱한 값을 합한 기대값과 같다.

# 3 . Q-Value Function

위에서 살펴본 Value Funtion은 Action에 대해서는 고려하지 않지만, 에이전트는 State에 대한 최적의 Action을 알아야 하므로, Value Function을 좀 수정해야 한다.

따라서, 이번에는 {State,Action} Pair을 통해 Reward를 누적하는 방식인 Q-value Function에 대해 보려고 한다.

일단, 현재까지 Value Function을 활용한 Bellman Equation은 다음과 같다.

여기에 Action에 대한 Quality를 추가한게 바로 Q-value function이다. State-Action Function이라고 부르기도 한다.

그리고 이 Q-value function에 대한 벨만 방정식은 다음과 같이 나타낼 수 있다.

저작자표시

'🗂️Data Science > Aritificial Intelli' 카테고리의 다른 글

강화학습(Reinforcement Learning) - 3.DQN (0)	2022.12.07
강화학습(Reinforcement Learning) - 2.Q-learning (0)	2022.12.07
Pattern mining (0)	2022.11.26
주성분분석(Principal Component Analysis) (0)	2022.11.22