Pattern mining
# Frequent Pattern Mining
Association Rule vs Sequential patterns
Association rule์ ์ฐ๊ด ๊ท์น์ ์ฐพ๋ ๊ฒ์ด์ง๋ง, ๊ทธ ์์๋ ๊ณ ๋ คํ์ง ์๋๋ค. ์๋ฅผ ๋ค์ด, ์นํจ๊ณผ ํผ์๋ฅผ ์ฐ ์ฌ๋์ด ์ฝ๋ผ๋ฅผ ์ด ํ๋ฅ ๋๋ค๋ ๊ฒ์ ์ ์ ์์ง๋ง, ๋ฌด์์ด ๋จผ์ ์ธ์ง๋ ์ ์ ์๋ค. ์ฝ๋ผ์ ํผ์๋ฅผ ์ฐ ์ฌ๋์ด ์นํจ์ ๋ง์ด ์ฐ๊ฑด์ง ์๋๋ฉด ๊ทธ ์ธ์ธ์ง๋ ์ ์ ์๋ค. ์ด๋ฐ ๋ถ๋ถ์ ๋ณด์ํ ๊ฒ Sequential Pattern ๋ถ์์ด๋ค.
์ด ๊ธ์์๋ Association Rule์ ๋ํด์๋ง ๋ค๋ฃจ๊ฒ ๋ค.
์ฐ์ ์ฐ๊ด์ฑ ๋ถ์์ ์ํด์๋ ์ฃผ์์งํ์ธ Support์ Confidence๋ผ๋ ๊ฐ๋ ์ ๋จผ์ ์์์ผ ํ๋ค. A,B,C๋ผ๋ ์ธ ๋ฌผ๊ฑด ์ฌ์ด์ ๊ตฌ๋งค ์ฐ๊ด์ฑ์ ํ์ ํ๋ค๊ณ ์๊ฐํด๋ณด์.
Support๋ ์ ์ฒด ์๋น์ ์ค A,B,C๋ฅผ ๊ตฌ๋งคํ ๊ณ ๊ฐ ์
Confidence๋ A์ B๋ฅผ ๊ตฌ๋งคํ ๊ณ ๊ฐ ์ค A,B,C๋ฅผ ๋ชจ๋ ๊ตฌ๋งคํ ๊ณ ๊ฐ ์๋ฅผ ๋ปํ๋ค. ์ฆ, {A,B → A,B,C}์ ๋ํ ์ ๋ขฐ๋๊ฐ ๋์ผ๋ฉด, A,B๋ฅผ ๊ตฌ๋งคํ ๊ณ ๊ฐ์ด C๊น์ง ๊ตฌ๋งคํ ํ๋ฅ ์ด ๋๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค.
์ด ๋, Confidence{A → A,B}๋ ๊ฒฐ๊ตญ Suppot(A,B)๋ฅผ Support(A)๋ก ๋๋ ๊ฒ๊ณผ ๊ฐ๋ค.
๋ฐ๋ผ์ ์ ์ฒด์ ์ธ ๊ณผ์ ์,
- ๋ชจ๋ Itemset์ ๋ํด Support๋ฅผ ๊ณ์ฐํ๋ค.
- ๋ชจ๋ Itemset๊ฐ์ ๋ชจ๋ ์กฐํฉ๋ค์ Confidence๋ฅผ ๊ณ์ฐํ๋ค.
ํ์ง๋ง, ๋ชจ๋ ์กฐํฉ์ Confidence๋ฅผ ๊ณ์ฐํ๊ธฐ๋ ๋ถ๊ฐ๋ฅํ๋ฏ๋ก, ๋ค๋ฅธ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค.(I = {I(1),I(2),(3),,,,I(k)}๋ผ๊ณ ํ ๋ I์ ๋ํ ๋ชจ๋ ๋ถ๋ถ์งํฉ์ ๊ฐ์๋ ๊ณต์งํฉ์ ์ ์ธํ๊ณ $2^k-1$ ์ด๋ค)
# Apriori Pruning Principle
์ด ์๊ณ ๋ฆฌ์ฆ์ ์ต์์ง์ง๋ ์ด์์ ๊ฐ๋ ํญ๋ชฉ๋ง ๊ฐ์ง๊ณ ์ ๋ขฐ๋๋ฅผ ๊ณ์ฐํ๋๋ก ํ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค.
๋ฐ๋ผ์, ์ต์์ง์ง๋ ์ดํ์ธ Itemset๋ค์ SuperSet๊น์ง ๋ชจ๋ Pruningํ ์ ์๋ค.
Apriori Algorithm
1. 1-itemset์ ์ง์ง๋๋ฅผ ๋จผ์ ๊ณ์ฐํ๊ณ , ๊ทธ ์ค ์ต์์ง์ง๋๋ฅผ ๋๋ item๋ง ๊ฐ์ง๊ณ itemset์ ๊ตฌ์ฑํ๋ค.
2.๊ทธ๋ฆฌ๊ณ ๊ทธ๊ฑธ ์ด์ฉํ์ฌ 2-itemset์ ์กฐํฉํด๋ณด๊ณ ๊ทธ ์ค ์ต์์ง์ง๋๋ฅผ ๋๋ item๋ง ๊ฐ์ง๊ณ 2-itemset์ ๊ตฌ์ฑํ๊ณ , ๋์ง ๋ชปํ๋ itemset๋ค์ Superset๋ค๋ ๋ชจ๋ pruningํ๋ค.
์ด ๋, k-itemset์ ๊ฐ์ง๊ณ (k+1)-itemset์ ๊ตฌ์ฑํ๋ ๋ฐฉ๋ฒ์ ์ฐ์ , k-itemset์ ๋จผ์ Sorting ํ๊ณ , (k-1)๊น์ง ๋๊ฐ์ item๋ผ๋ฆฌ k-1๊น์ง๋ ๋๊ฐ์ด ๋๊ณ k๋ฒ์งธ item์ ์กฐํฉํ์ฌ (k+1)-itemset์ ๊ตฌ์ฑํ๋ค. ๊ทธ๋ฆฌ๊ณ , ์๋กญ๊ฒ ๊ตฌ์ฑํ (k+1)-item์ subset์ค์์ ์ต์์ง์ง๋๋ฅผ ๋์ง ์๋ subset์ด ์๋ค๋ฉด, ์ญ์ ํ๋ค.