# 1. Q-Learning
๊ฐํํ์ต(Reinforcement Learning) - 1.Value Function
# 1. ๊ฐํํ์ต์ด๋? ๊ฐํํ์ต์ด๋ ์ด๋ค Enviroment์ ํ์ํ๋ Agent๊ฐ ํ์ฌ์ State์ ์ธ์ํ์ฌ ์ด๋ค Action์ ์ทจํ๋ฉด ๊ทธ ํ๋์ ๋ํ Reward๊ฐ ์ฃผ์ด์ง๊ฒ ๋๊ณ , Reward๋ฅผ ์ต๋ํํ๋ Action์ ์ฐพ๋ Policy๋ฅผ ์ฐพ
repoji-dataengineer.tistory.com
์ฌ๊ธฐ์ Q-Value Function๊น์ง ์ดํด๋ณด์๋ค.
์ด์ ๋ชจ๋ {State,Action} Pair์ ํด๋นํ๋ Q-value๋ฅผ ๊ตฌํ๊ณ ์ต๋๊ฐ์ ์ฐพ๋ ๊ฒ Q-Learning์ด๋ค.
๊ทธ๋ ๋ค๋ฉด, ํ์ฌ๊น์ง ์๊ณ ์๋ ์์ ํ์ฉํ์ฌ ๋ค์๊ณผ ๊ฐ์ ๋จ๊ณ๋ฅผ ๊ฑฐ์น๊ฒ ๋๋ค.
๋ชจ๋ Q(s, a)๋ฅผ 0์ผ๋ก ์ด๊ธฐํ ํ๋ค.
์ด ํ, ๋ค์ ๋์๋ค์ ๋ฐ๋ณตํ๋ค.
- Q(s, a)์ ๋ฐ๋ผ ๋์์ ์คํํ๋ค.
- ํ๋์ ๋ฐ๋ฅธ ๋ณด์์ ๋ฐ๋๋ค.
- ์๋ก์ด ์ํ๋ฅผ ํ์ธํ๋ค.
- Q(s, a) = reward + Max Q(s', a')์ ํ์ฉํ์ฌ Q(s,a)๋ฅผ ์ ๋ฐ์ดํธ ํ๋ค
Discounted Reward
ํ์ง๋ง, ์ด๋ ๊ฒ ๋๋ฉด ๊ฐ์ Q(s,a)๊ฐ ๋ง์์ง๋ ๋จ์ ์ด ์๋ค. ๋ฐ๋ผ์, Discounted Reward๊ฐ์ ๊ณฑํด์ ๊ฐ์ Q(s,a)๊ฐ ๋์ฌ ํ๋ฅ ์ ์ค์ฌ์ค๋ค.
ε-ํ์ ์ ์ฑ (ε-greedy Policy)
์ด๋ ๊ฒ ํด๋ ์๋ก์ด ํ์(Exploration)์ด ์ด๋ฃจ์ด์ง์ง๋ ์๋๋ค๋ ๋จ์ ์ด ์๋ค. ๊ทธ๋์ ε-ํ์ ์ ์ฑ (ε-greedy Policy)์ ํ์ฉํ์ฌ ์๋ก์ด ๊ฒ์ ๋ํ ํ์์ ๋๋ฆฌ๋๋ก ํ๋ค.
๋ฐ๋ผ์, 1-epsilon์ ํ๋ฅ ๋ก๋ Q(s,a)๋ฅผ ๋ฐ๋ฅด๊ณ , epsilon์ ํ๋ฅ ๋ก๋ Randomํ๊ฒ ์งํ๋๋๋ก ํ๋ค. ํ์ง๋ง, ์ด๊ฒ ์ด๋ฐ์๋ ๋ง์ ํ์์ด ํ์ํ์ง๋ง, ๊ฐ์๋ก ํ์(Exploration)๋ณด๋ค๋ ์ ๋ต์ ๊ฐ๊น์์ง๋ Exploitation์ด ๋ ๋ง์์ ธ์ผ ํ๋ฏ๋ก ε decaying์ ํตํด์ ํ์ ์๋๋ฅผ ์ค์ผ ์ ์๋ค.
Temporal Difference
Temporal Difference, ์๊ฐ์ฐจ ์ ์ด๋ผ๊ณ ๋ถ๋ฅด๋ฉฐ, Episode ๋ณ์ด ์๋ Timestamp๋ณ๋ก ์ ๋ฐ์ดํธ ํ๋ ๋ฐฉ์์ ๋งํ๋ค.
์ฌ๊ธฐ๊น์ง ํ๋ฉด, ์ ์ฒด์ ์ธ ์๊ณ ๋ฆฌ์ฆ ๊ณผ์ ์ด ๋ค์๊ณผ ๊ฐ๋ค.
'๐๏ธData Science > Aritificial Intelli' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
๊ฐํํ์ต(Reinforcement Learning) - 3.DQN (0) | 2022.12.07 |
---|---|
๊ฐํํ์ต(Reinforcement Learning) - 1.Value Function (0) | 2022.12.07 |
Pattern mining (0) | 2022.11.26 |
์ฃผ์ฑ๋ถ๋ถ์(Principal Component Analysis) (0) | 2022.11.22 |