# 1. ๊ฐํํ์ต์ด๋?
๊ฐํํ์ต์ด๋ ์ด๋ค Enviroment์ ํ์ํ๋ Agent๊ฐ ํ์ฌ์ State์ ์ธ์ํ์ฌ ์ด๋ค Action์ ์ทจํ๋ฉด ๊ทธ ํ๋์ ๋ํ Reward๊ฐ ์ฃผ์ด์ง๊ฒ ๋๊ณ , Reward๋ฅผ ์ต๋ํํ๋ Action์ ์ฐพ๋ Policy๋ฅผ ์ฐพ๋ ํ์ต๋ฐฉ๋ฒ์ด๋ค.
# 2 .Value Function
Markov Decision Process๋?
์์ฐจ์ ์์ฌ๊ฒฐ์ ๊ณผ์ ์ ๋ชจ๋ธ๋งํ๋ ์ํ์ ์ธ ํ๋ก์ ํ์ฌ State์์ ์ด์ ์ด๋ ฅ์ ๊ณ ๋ คํ์ง ์๊ณ , ์ต์ ์ action์ ๊ฒฐ์ ํ๋ ๋ฐฉ๋ฒ์ ๋งํ๋ค. ์ํ(State), ํ๋(Action), ๋ณด์(Reward), ์ํ ๋ณํ ํ๋ฅ (State Transition Probability), ๊ฐ๊ฐ์จ(Discount Factor), ์ ์ฑ (Policy)์ผ๋ก ๊ตฌ์ฑ๋์ด ์์ผ๋ฉฐ ์ด๋ฅผ ํตํด ๋ ์ข์ ์ ์ฑ ์ ์ฐพ๋ ๊ณผ์ ์ด๋ค.
Reward๋?
t๋ผ๋ ์๊ฐ์ผ ๋์ State์์ Action์ด ์ทจํด์ก์ ๋ t+1์ ๋ฐ์ ์ ์๋ Reward์ ๊ธฐ๋๊ฐ์ ๋งํ๋ค.
์ํ๋ณํ ํ๋ฅ ์ด๋?
์ํ ๋ณํ ํ๋ฅ ์ด๋ ์์ t์์ State์ Action์ด ์ฃผ์ด์ก์ ๋ ๋ค์ State์ ๋๋ฌํ ํ๋ฅ ๋ก์ ๋ค์๊ณผ ๊ฐ์ด ๋ํ๋ธ๋ค.
๊ฐ๊ฐ์จ(Discount Factor)์ด๋?
๊ฐ๊ฐ์จ์ด๋ ์์ด์ ํธ๊ฐ ํ์ฌ์ ๊ฐ๊น์ด ์์ ์ ๋ฐ๋ ๋ณด์์ ๋ฏธ๋์ ๋ฐ๋ ๋ณด์๋ณด๋ค ๊ฐ์น์๊ฒ ํด์ฃผ๋ ๊ฐ๋ ์ด๋ค.
์ ์ฑ (Policy)์ด๋?
๋ชจ๋ ์ํ์ ๋ํด ์์ด์ ํธ๊ฐ ํ ํ๋์ ๋ํ๋ธ ๊ฐ๋ ์ด๋ค.
๊ทธ๋ผ, ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ด ํ๋ ์ผ์
Value Function์ด๋?
value Function์ ํด๋น State๋ก๋ถํฐ ์ข ๋ฃ ๋ ๋๊น์ง์ ๋์ Reward๋ฅผ ์ถ์ ํ๋ ์์ด๊ณ ๐ฃ_๐ (๐ )๋ก ํ๊ธฐํ๋ค.
๋ฐ๋ผ์, ์์ด์ ํธ๊ฐ ์์ t์์ State์ Action์ ์ ํํ๊ณ Reward๋ฅผ ๊ณ์ ๋ฐ๋ณตํด์ ๋ฐ์๋ ๋ชจ๋ ๋ณด์์ ํฉ์ ๊ฐ๊ฐ์จ์ ๊ณฑํด์ฃผ์ด ๋ํ๋ฉด ๋ค์๊ณผ ๊ฐ์ด ๋ํ๋๋ค.
์ด ์์ ๊ธฐ๋๊ฐ์ด ๋ฐ๋ก t์์ ์ State์ ๋ํ Value๋ฅผ ๋ํ๋ธ๋ค.
์ด ์์ ๊ฐ๊ฐ์จ์ ๋ฌถ๊ณ ๋ค๋ฅผ ์ ๋ฆฌํด๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ์ด ๋ํ๋๋ค.
๋ฐ๋ผ์, t ์์ ์ State์ ๋ํ ๊ธฐ๋๊ฐ์ Reward์ t+1์ ๋ํ Value์ ๊ฐ๊ฐ์จ์ ๊ณฑํ ๊ฐ์ ํฉํ ๊ธฐ๋๊ฐ๊ณผ ๊ฐ๋ค.
# 3 . Q-Value Function
์์์ ์ดํด๋ณธ Value Funtion์ Action์ ๋ํด์๋ ๊ณ ๋ คํ์ง ์์ง๋ง, ์์ด์ ํธ๋ State์ ๋ํ ์ต์ ์ Action์ ์์์ผ ํ๋ฏ๋ก, Value Function์ ์ข ์์ ํด์ผ ํ๋ค.
๋ฐ๋ผ์, ์ด๋ฒ์๋ {State,Action} Pair์ ํตํด Reward๋ฅผ ๋์ ํ๋ ๋ฐฉ์์ธ Q-value Function์ ๋ํด ๋ณด๋ ค๊ณ ํ๋ค.
์ผ๋จ, ํ์ฌ๊น์ง Value Function์ ํ์ฉํ Bellman Equation์ ๋ค์๊ณผ ๊ฐ๋ค.
์ฌ๊ธฐ์ Action์ ๋ํ Quality๋ฅผ ์ถ๊ฐํ๊ฒ ๋ฐ๋ก Q-value function์ด๋ค. State-Action Function์ด๋ผ๊ณ ๋ถ๋ฅด๊ธฐ๋ ํ๋ค.
๊ทธ๋ฆฌ๊ณ ์ด Q-value function์ ๋ํ ๋ฒจ๋ง ๋ฐฉ์ ์์ ๋ค์๊ณผ ๊ฐ์ด ๋ํ๋ผ ์ ์๋ค.
'๐๏ธData Science > Aritificial Intelli' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
๊ฐํํ์ต(Reinforcement Learning) - 3.DQN (0) | 2022.12.07 |
---|---|
๊ฐํํ์ต(Reinforcement Learning) - 2.Q-learning (0) | 2022.12.07 |
Pattern mining (0) | 2022.11.26 |
์ฃผ์ฑ๋ถ๋ถ์(Principal Component Analysis) (0) | 2022.11.22 |