๐๏ธData Science/Aritificial Intelli

๊ฐํํ์ต(Reinforcement Learning) - 3.DQN
# 1. Deep Q network ์ฐ์ , ์ง๊ธ๊น์ง ๋ดค๋ Q-learning๊ณผ DQN์ ๋น๊ตํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค. Q-Learning์์๋ Q-Table์ ์ ๋ฐ์ดํธ ํ๋ ๋ฐฉ์์ผ๋ก Input์ผ๋ก {State,Action} Pair์ด ๋ค์ด์ค๋ฉด ๊ทธ๊ฑฐ์ ๋ํ Q-value๊ฐ์ returnํ๋ค. ํ์ง๋ง, ์ด๋ฌ๊ธฐ์๋ State์ Action๊ฐ์๊ฐ ๋ง์์ง๋ฉด Q-Table์ ๊ด๋ฆฌํ๊ธฐ๋ ๋ถ๊ฐ๋ฅ์ ๊ฐ๊น๊ฒ ๋ ๋ฟ๋๋ฌ ์๊ฐ๋ ์ค๋๊ฑธ๋ฆฌ๊ฒ ๋๋ค. ๊ทธ๋ฆฌ๊ณ ๊ฒฝํํ์ง ๋ชปํ ๊ฒ์ ๋ํ ๊ฐ์ ์ ์๊ฐ ์๋ค.๋ฐ๋ผ์, Q-Learning์์ Q-Table ๋์ Neural Network๋ฅผ ์ฌ์ฉํด์ Q-value๋ฅผ ์ถ์ ํด๋ณด๋ ๊ฒ DQN์ด๋ค. # 2. Naive DQN Neural Network๋ฅผ ํ์ต์ํค๊ธฐ ์ํด์๋ Loss Function์ด ํ์ํ..

๊ฐํํ์ต(Reinforcement Learning) - 2.Q-learning
# 1. Q-Learning https://repoji-dataengineer.tistory.com/entry/%EA%B0%95%ED%99%94%ED%95%99%EC%8A%B5Reinforcement-Learning ๊ฐํํ์ต(Reinforcement Learning) - 1.Value Function # 1. ๊ฐํํ์ต์ด๋? ๊ฐํํ์ต์ด๋ ์ด๋ค Enviroment์ ํ์ํ๋ Agent๊ฐ ํ์ฌ์ State์ ์ธ์ํ์ฌ ์ด๋ค Action์ ์ทจํ๋ฉด ๊ทธ ํ๋์ ๋ํ Reward๊ฐ ์ฃผ์ด์ง๊ฒ ๋๊ณ , Reward๋ฅผ ์ต๋ํํ๋ Action์ ์ฐพ๋ Policy๋ฅผ ์ฐพ repoji-dataengineer.tistory.com ์ฌ๊ธฐ์ Q-Value Function๊น์ง ์ดํด๋ณด์๋ค. ์ด์ ๋ชจ๋ {State,Action} Pair์ ํด..

๊ฐํํ์ต(Reinforcement Learning) - 1.Value Function
# 1. ๊ฐํํ์ต์ด๋? ๊ฐํํ์ต์ด๋ ์ด๋ค Enviroment์ ํ์ํ๋ Agent๊ฐ ํ์ฌ์ State์ ์ธ์ํ์ฌ ์ด๋ค Action์ ์ทจํ๋ฉด ๊ทธ ํ๋์ ๋ํ Reward๊ฐ ์ฃผ์ด์ง๊ฒ ๋๊ณ , Reward๋ฅผ ์ต๋ํํ๋ Action์ ์ฐพ๋ Policy๋ฅผ ์ฐพ๋ ํ์ต๋ฐฉ๋ฒ์ด๋ค. # 2 .Value Function Markov Decision Process๋? ์์ฐจ์ ์์ฌ๊ฒฐ์ ๊ณผ์ ์ ๋ชจ๋ธ๋งํ๋ ์ํ์ ์ธ ํ๋ก์ ํ์ฌ State์์ ์ด์ ์ด๋ ฅ์ ๊ณ ๋ คํ์ง ์๊ณ , ์ต์ ์ action์ ๊ฒฐ์ ํ๋ ๋ฐฉ๋ฒ์ ๋งํ๋ค. ์ํ(State), ํ๋(Action), ๋ณด์(Reward), ์ํ ๋ณํ ํ๋ฅ (State Transition Probability), ๊ฐ๊ฐ์จ(Discount Factor), ์ ์ฑ (Policy)์ผ๋ก ๊ตฌ์ฑ๋์ด ์์ผ๋ฉฐ ์ด๋ฅผ ํต..

Pattern mining
# Frequent Pattern Mining Association Rule vs Sequential patterns Association rule์ ์ฐ๊ด ๊ท์น์ ์ฐพ๋ ๊ฒ์ด์ง๋ง, ๊ทธ ์์๋ ๊ณ ๋ คํ์ง ์๋๋ค. ์๋ฅผ ๋ค์ด, ์นํจ๊ณผ ํผ์๋ฅผ ์ฐ ์ฌ๋์ด ์ฝ๋ผ๋ฅผ ์ด ํ๋ฅ ๋๋ค๋ ๊ฒ์ ์ ์ ์์ง๋ง, ๋ฌด์์ด ๋จผ์ ์ธ์ง๋ ์ ์ ์๋ค. ์ฝ๋ผ์ ํผ์๋ฅผ ์ฐ ์ฌ๋์ด ์นํจ์ ๋ง์ด ์ฐ๊ฑด์ง ์๋๋ฉด ๊ทธ ์ธ์ธ์ง๋ ์ ์ ์๋ค. ์ด๋ฐ ๋ถ๋ถ์ ๋ณด์ํ ๊ฒ Sequential Pattern ๋ถ์์ด๋ค. ์ด ๊ธ์์๋ Association Rule์ ๋ํด์๋ง ๋ค๋ฃจ๊ฒ ๋ค. ์ฐ์ ์ฐ๊ด์ฑ ๋ถ์์ ์ํด์๋ ์ฃผ์์งํ์ธ Support์ Confidence๋ผ๋ ๊ฐ๋ ์ ๋จผ์ ์์์ผ ํ๋ค. A,B,C๋ผ๋ ์ธ ๋ฌผ๊ฑด ์ฌ์ด์ ๊ตฌ๋งค ์ฐ๊ด์ฑ์ ํ์ ํ๋ค๊ณ ์๊ฐํด๋ณด์. Sup..

์ฃผ์ฑ๋ถ๋ถ์(Principal Component Analysis)
# 1 ์ฃผ์ฑ๋ถ ๋ถ์์ด๋? ์ฃผ์ฑ๋ถ ๋ถ์์ ์ฐจ์ ์ถ์(dimensionality reduction)๊ณผ ๋ณ์ ์ถ์ถ(feature extraction) ๊ธฐ๋ฒ์ผ๋ก ๋๋ฆฌ ์ฌ์ฉ๋๊ณ ์๋ค. PCA๋ ๋์ ์ฐจ์์ ๋ฐ์ดํฐ ๋ถํฌ์์ ๋ฎ์ ์ฐจ์์ ์ ์ฌ์๋ ์ถ์ ์ฐพ๋ ๋ฐฉ์์ผ๋ก ์ฐจ์์ ์ถ์์ํจ๋ค. ์ด ๋ ์ถ๊ณผ ๋ฐ์ดํฐ ๊ฐ์ ์ค์ฐจ๋ ์ต์ํ ํ๊ณ , ๋ฐ์ดํฐ์ ๋ถ์ฐ์ ์ต๋ํ ์ ์ง์ํฌ ์ ์๋ ์ถ์ ์ฐพ๋ ๊ฑธ ๋ชฉํ๋ก ํ๊ณ , ์๋์ ๊ทธ๋ฆผ์ด ๊ทธ ๊ณผ์ ์ ๋ณด์ฌ์ค๋ค. # 2 . ๊ณต๋ถ์ฐ(Covariance) ๊ณต๋ถ์ฐ์ด๋? 2๊ฐ์ ํ๋ฅ ๋ณ์์ ์๊ด ์ ๋๋ฅผ ๋ํ๋ด๋ ๊ฐ์ด๋ค. Cov(X,Y) > 0 : ํ๋ฅ ๋ณ์ X๊ฐ ์ฆ๊ฐํ ๋ Y๊ฐ ์ฆ๊ฐํ๋ฉด, ๊ณต๋ถ์ฐ์ 0๋ณด๋ค ํฐ ๊ฐ์ ๊ฐ์ง๋ค. Cov(X,Y) < 0 : ํ๋ฅ ๋ณ์ X๊ฐ ์ฆ๊ฐํ ๋ Y๊ฐ ๊ฐ์ํ๋ฉด, ๊ณต๋ถ์ฐ์ 0๋ณด๋ค ..