๊ณ ์ ๊ฐ(eigen value)์ ๊ณ ์ ๋ฒกํฐ(eigen vector)์ด ๋ฌด์์ด๊ณ ์ ์ค์ํ์ง ์ค๋ช ํด์ฃผ์ธ์.
๐ก
$n \times n$ ํ๋ ฌ$A$ ๋ฅผ ์ ํ๋ณํ์ผ๋ก ๋ดค์ ๋, ์ ํ๋ณํ $A$์ ์ํ ๋ณํ ๊ฒฐ๊ณผ๊ฐ ์๊ธฐ ์์ ์ ์์๋ฐฐ๊ฐ ๋๋ 0์ด ์๋ ๋ฒกํฐ๋ฅผ ๊ณ ์ ๋ฒกํฐ๋ผ๊ณ ํ๊ณ ์ด ์์๋ฐฐ ๊ฐ์ ๊ณ ์ ๊ฐ์ด๋ผ ํ๋ค.
- ์ ํ๋ณํ(Linear Transformation): ์ ํ ๊ฒฐํฉ์ ๋ณด์กดํ๋ ๋ ๋ฒกํฐ ๊ณต๊ฐ ์ฌ์ด์ ํจ์
$T(a+b) = T(a) + T(b), T(ca) = cT(a)$ ๋ฅผ ๋ง์กฑํ๋ ๋ณํ. - ์๋์ ๊ฐ์ ์์ ๋ง์กฑํ๋ ์ด๋ฒกํฐ
$v$ ๋ฅผ eigen vector, ์์$\lambda$ ๋ฅผ eigen value๋ผ ํ๋ค.
- eigen vector, eigen value๋ ์์์ ๋ฒกํฐ๋ฅผ ์ด๋ ๋ฐฉํฅ์ผ๋ก ๋ณํ์์ผฐ๋์ง, ๋ณํ ๊ณผ์ ์์ ๋ณํ ์์ด ์ ์ง ๋๋ ๋ถ๋ถ์ ์ด๋ ๋ถ๋ถ์ธ์ง์ ๋ํ ์ ๋ณด๋ฅผ ๋ด๊ณ ์๋ค.
- ์ด๋ค ๋ฌผ์ฒด๋ ์์ ๋ฑ์ ์๋ง์ ๋ฒกํฐ์ ๋ญ์น๋ก ๋ณผ ์ ์๋๋ฐ eigen vector์ value๋ฅผ ํ์ฉํด ๋ฌผ์ฒด๋ ์์์ด ์ด๋ค ์์ผ๋ก ๋ณํํ๋์ง์ ๋ํ ์ ๋ณด๋ฅผ ํ์ ํ ์ ์๊ฒ ๋์์ค๋ค.
- ๋ฐ์ดํฐ์ ํน์ง์ ํ์ ํ ์ ์๊ฒ ๋์์ฃผ๋ SVD(ํน์ด๊ฐ๋ถํด), Pseudo-Inverse, ์ ํ์ฐ๋ฆฝ๋ฐฉ์ ์์ ํ์ด, PCA(์ฃผ์ฑ๋ถ๋ถ์)์ ์ฌ์ฉํ๋ค.
๊ฐ ๋ฐ์ดํฐ์ Feature ๊ฐ์ ์ ์ฌ๋๋ ๋ชจ๋ธ ํ์ต ๊ฒฐ๊ณผ์ ์ํฅ์ ๋ผ์น๊ธฐ ๋๋ฌธ์ ๊ณ ์ ๊ฐ๊ณผ ๊ณ ์ ๋ฒกํฐ๋ฅผ ๊ตฌํด์ ์์ ๋ ๋ฆฝ ๊ด๊ณ์ธ feature๋ฅผ ์์ฑ ํน์ ์ถ์ถํ๋ ๊ฒ์ด ์ค์ํ๋ค.
- [์ ํ๋์ํ #3] ๊ณ ์ ๊ฐ๊ณผ ๊ณ ์ ๋ฒกํฐ (eigenvalue & eigenvector)
- ๊ณ ์ ๊ฐ(eigen value)๊ณผ ๊ณ ์ ๋ฒกํฐ(eigen vector), ์ ์ค์ํ๊ฐ?
- eigen vector & eigen value
์ํ๋ง(Sampling)๊ณผ ๋ฆฌ์ํ๋ง(Resampling)์ด ๋ฌด์์ด๊ณ ๋ฆฌ์ํ๋ง์ ์ฅ์ ์ ๋งํด์ฃผ์ธ์.
๐ก ์ํ๋ง์ ๋ชจ์ง๋จ์์ ์ผ๋ถ๋ง์ ๋ฝ์๋ด์ ๋ชจ์ง๋จ ์ ์ฒด์ ๊ฒฝํฅ์ฑ์ ์ดํด๋ณด๊ณ ์ถ์ด ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ผ๋ก ํ๋ณธ์ถ์ถ์ด๋ผ๊ณ ํ๋ค.
- Sampling ๋ฐฉ์
- Probability Sampling
- Simple Random Sampling
- Cluster Sampling(๊ตฐ์ง ํ์ง)
- Stratified Sampling(์ธตํ ํ์ง)
- Systematic Sampling(๊ณํต ํ์ง)
- Non-Probability Sampling
- Convenience Sampling(ํธ์ ํ๋ณธ ์ถ์ถ)
- Judgmental/Purposive Sampling(ํ๋จ ํ๋ณธ)
- Snowball/Referral Sampling(๋๋ฉ์ด ํ์ง)
- Quota Sampling( ํ ๋น๋ ์ํ๋ง)
- Probability Sampling
- Sampling ์ฅ์
- ์๊ฐ๊ณผ ๋น์ฉ์ ์ค์
- ๋ฐ์ดํฐ๊ฐ ์ ํ์ฑ
- ๋ ๋ง์ ๋ชจ์ง๋จ์ ๋ํ ์์ธก ๊ฐ๋ฅ
- ๋ ์ ์ ์์์ผ๋ก ์งํ ๊ฐ๋ฅ
ํ์ง๋ง ๋งค์ฐ ์ ๊ตํ ์ถ์ถ์ด ์ด๋ฃจ์ด์ ธ๋ ๋ชจ์ง๋จ๊ณผ ์ ํํ๊ฒ ์ผ์นํ ์๋ ์์ผ๋ฏ๋ก ์ด๋ฅผ ๋ณด์ํ๊ธฐ ์ํด ์ํ๋ง๋ ๋ฐ์ดํฐ์์ ๋ถ๋ถ์งํฉ์ ๋ฝ์ ํต๊ณ๋์ ๋ณ๋์ฑ์ ํ์ธํ๋ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋๋ฐ ์ด๋ฅผ ๋ฆฌ์ํ๋ง์ด๋ผ๊ณ ํ๋ค.
- ๋ํ์ ์ธ ๋ฆฌ์ํ๋ง ๊ธฐ๋ฒ์ผ๋ก๋ k-fold ๊ต์ฐจ๊ฒ์ฆ, bootstrapping ๊ธฐ๋ฒ์ด ์กด์ฌ
- k-fold: k-1๊ฐ์ ๋ถ๋ถ์งํฉ๋ค์ ํ๋ จ ์ธํธ๋ก ์ฌ์ฉํ๊ณ ๋๋จธ์ง ํ๋์ ๋ถ๋ถ์งํฉ์ ํ
์คํธ ์ธํธ๋ก ์ฌ์ฉํ๋ ๊ฒ์ ๋งํจ
- k๋ฒ์ ํ๋ จ๊ณผ ํ ์คํธ๋ฅผ ๊ฑฐ์ณ ๊ฒฐ๊ณผ์ ํ๊ท ์ ๊ตฌํ ์ ์์
- bootstrapping
- ํ๋ณธ ์ค m๊ฐ๋ฅผ ๋ฝ์ ๊ธฐ๋กํ๊ณ ๋ค์ ์ ์๋ฆฌ์ ๋๋ค.
- ์ด๋ฅผ n๋ฒ ๋ฐ๋ณตํ๋ค.
- n๋ฒ ์ฌํ๋ณธ์ถ์ถํ ๊ฐ์ ํ๊ท ์ ๊ตฌํ๋ค.
- 1~3๋จ๊ณ๋ฅผ R๋ฒ ๋ฐ๋ณตํ๋ค.(R: ๋ถํธ์คํธ๋ฉ ๋ฐ๋ณต ํ์)
- ํ๊ท ์ ๋ํ ๊ฒฐ๊ณผ R๊ฐ๋ฅผ ์ฌ์ฉํ์ฌ ์ ๋ขฐ๊ตฌ๊ฐ์ ๊ตฌํ๋ค.
- ํ๋ณธ์ ์ถ์ถํ๋ฉด์ ์๋์ ๋ฐ์ดํฐ์ ์ ๋ณต์ํ๊ธฐ์ ๋ชจ์ง๋จ์ ๋ถํฌ์ ์ด๋ค ๊ฐ์ ๋ ํ์ ์์ด ํ๋ณธ๋ง์ผ๋ก ์ถ๋ก ์ด ๊ฐ๋ฅ
- ์ํ๋ง๊ณผ ๋ฆฌ์ํ๋ง
- DATA - 12. ๋ถํธ์คํธ๋ฉ(Bootstrap)
- ์ํ๋ง๊ณผ ๋ฆฌ์ํ๋ง์ ์ฐจ์ด๋ ๋ฌด์์ผ๊น?
๐ก ํ๋ฅ ๋ณ์๋ ํ๋ฅ ๋ก ํํํ๊ธฐ ์ํ event๋ฅผ ์ ์ํ๋ ๊ฒ์ผ๋ก Sample space์์ ํ๋ฅ ๋ณ์๊ฐ ์ทจํ ์ ์๋ ๊ฐ์ ๋ฐ๋ผ ์ธ ๊ฐ์ง๋ก ๋๋๋ค.
- ์ด์ฐํ๋ฅ ๋ณ์: ์ทจํ ์ ์๋ ๊ฐ์ด ์ ์์ธ ๊ฒฝ์ฐ
- ์ฐ์ํ๋ฅ ๋ณ์: ์ทจํ ์ ์๋ ๊ฐ์ด ์ค์์ธ ๊ฒฝ์ฐ
- ํผํฉ๋๋ค ๋ณ์: ์์ ๋ ๊ฐ์ง ๊ฒฝ์ฐ๊ฐ ์์ธ ๊ฒฝ์ฐ
ํ๋ฅ ๋ถํฌ๋ ํ๋ฅ ๋ณ์์ ๋ชจ๋ ๊ฐ๊ณผ ๊ทธ์ ๋์ํ๋ ํ๋ฅ ๋ค์ด ์ด๋ป๊ฒ ๋ถํฌํ๊ณ ์๋์ง๋ฅผ ๋งํ๋ค.
์ด๋ฐ ๋ณ์ ์ฑ๊ฒฉ์ ๋ฐ๋ผ ๊ฐ๊ฐ์ด ๊ฐ์ง๋ ํ๋ฅ ํจ์์ ์ด๋ฆ๋ ๋ฌ๋ผ์ง๋๋ฐ, ์ด์ฐํ์ ํ๋ฅ ์ง๋ ํจ์๋ผ๊ณ ํ๊ณ , ์ฐ์ํ์ ํ๋ฅ ๋ฐ๋ ํจ์๋ผ๊ณ ๋ถ๋ฅธ๋ค. ํ๋ฅ ํจ์๋ ํด๋น ํ๋ฅ ๋ณ์๊ฐ ๊ฐ์ง ํ๋ฅ ๋ถํฌ๋ฅผ ๋ํ๋ธ๋ค.
- ํ๋ฅ ํจ์: ํ๋ฅ ๋ณ์๋ฅผ 0๊ณผ 1 ์ฌ์ด์ ํ๋ฅ ๋ก mappingํ๋ ๊ฒ
- ์ผ๋ฐ์ ์ผ๋ก ์ํ์์ ๋ค๋ฃจ๋ ๋ฏธ์ง์๋ผ ์๊ฐํ๋ฉด ๋จ
$P(X=event) = probability$
๐ก ํ๋ฅ ๋ชจํ์ด๋ ํ๋ฅ ๋ณ์๋ฅผ ์ด์ฉํ์ฌ ๋ฐ์ดํฐ ๋ถํฌ๋ฅผ ์ํ์ ์ผ๋ก ์ ์ํ๋ ๊ฒ์ ๋งํ๋ค.
- ํจ์์ ์ฐ์ธ ๊ณ์๋ค์ ๋ชจ์(parameter)๋ผ๊ณ ๋ถ๋ฅธ๋ค.
- ํ๋ฅ ๋ถํฌ๋ฅผ ์๋ค. โ ํ๋ฅ ๋ถํฌ๋ฅผ ๋ํ๋ด๋ ํ๋ฅ ๋ถํฌ ํจ์๋ฅผ ์๋ค. โ ํจ์์์ ๊ตฌ์ฑํ๋ ๋ชจ์๋ฅผ ์๋ค.
- ํ๋ฅ ๋ถํฌ๋ฅผ ์๋ฉด ํ๋ฅ ๋ณ์์ ๋ชจ๋ ๊ฐ๊ณผ ๊ทธ์ ๋์ํ๋ ํ๋ฅ ๋ค์ ์๋ค.
- ๋ชจ์ ์ถ์ ์ด ์ค์ํ ์ด์
- http://www.stat.yale.edu/Courses/1997-98/101/probint.htm
- https://ko.wikipedia.org/wiki/ํ๋ฅ _๋ณ์
- ์จ๋์ ๋ฌด์์ ๋ฐ๋ผํ๊ธฐ - ํ๋ฅ ๋ณ์์ ํ๋ฅ ๋ชจํ
- hanseโs.log - ํ๋ฅ ๋ชจํ๊ณผ ํ๋ฅ ๋ณ์
- Jupyter Community
๋์ ๋ถํฌ ํจ์์ ํ๋ฅ ๋ฐ๋ ํจ์๋ ๋ฌด์์ธ๊ฐ์? ์์๊ณผ ํจ๊ป ํํํด์ฃผ์ธ์.
๐ก ๋์ ๋ถํฌํจ์๋ ํ๋ฅ ๋ก ์์ ์ฃผ์ด์ง ํ๋ฅ ๋ถํฌ๊ฐ ํน์ ๊ฐ๋ณด๋ค ์๊ฑฐ๋ ๊ฐ์ ํ๋ฅ ์ ๋ํ๋ด๋ ํจ์
ํ๋ฅ ์ ์ฌ๊ฑด(event)์ด๋ผ๋ ํ๋ณธ์ ์งํฉ์ ๋ํด ํ ๋น๋ ์ซ์์ด๊ณ ์ด๋ค ์ฌ๊ฑด์ ์ด๋ ์ ๋์ ํ๋ฅ ์ด ํ ๋น๋์๋์ง ๋ฌ์ฌํ ๊ฒ์ ํ๋ฅ ๋ถํฌ๋ผํ๋ค. ํ๋ฅ ๋ถํฌ๋ฅผ ๋ฌ์ฌํ ๋, ๋ชจ๋ ์ฌ๊ฑด๋ค์ ํ๋์ฉ ์ ์ํ๋ ๊ฒ์ ์ด๋ ค์ฐ๋ฏ๋ก ํ๋ฅ ๋ณ์๋ฅผ ์ด์ฉํ๋ค๋ฉด ๋ฌ์ฌ ์์ ์ด ๊ฐํธํด์ง๋ค. ์ฌ๊ฑด(event)์ด ๊ตฌ๊ฐ(interval)์ด ๋๊ณ ์ด ๊ตฌ๊ฐ์ ์ง์ ํ๋๋ฐ ์์์ ๊ณผ ๋์ ์ด๋ผ๋ ๋๊ฐ์ ์ซ์๋ง ์์ผ๋ฉด ๋๊ธฐ ๋๋ฌธ์ด๋ค. ํ์ง๋ง ์ด๋ฅผ ์ ์ํ ๋, ์ซ์ ํ๋๋ง์ผ๋ก ์ ์๊ฐ ๊ฐ๋ฅํ๋๋ก ์์์ ์ ์์ ๋ฌดํ๋๋ก ํต์ผํ์ฌ ํ๋ฅ ๋ถํฌ๋ฅผ ์์ ํ ์ ์๊ณ , ์ด๋ฅผ ๋์ ํ๋ฅ ๋ถํฌ(CDF)๋ผ๊ณ ํ๋ค.
๋์ ๋ถํฌ ํจ์๋ ํ๋ฅ ๋ถํฌ๋ฅผ ํจ์๋ผ๋ ํธ๋ฆฌํ ์ํ๋ก ๋ฐ๊พธ์ด ์ฃผ์๊ณ , ํ๋ฅ ์ด ์ด๋ ์ฌ๊ฑด์ ์ด๋ ์ ๋ ๋ถํฌ๋์ด ์๋์ง ์ํ์ ์ผ๋ก ๋ช ํํ๊ฒ ํํํด ์ค๋ค. ๊ทธ๋ฌ๋ ๋์ ๋ถํฌ ํจ์๋ ๋ถํฌ์ ํ์์ ์ง๊ด์ ์ผ๋ก ์ดํดํ๊ธฐ ์ด๋ ต๋ค๋ ๋จ์ ์ด ์๊ณ , ์ด๋ฅผ ์๊ธฐ ์ํด์ ํ๋ฅ ๋ณ์๊ฐ ๋์ฌ ์ ์๋ ์ ์ฒด ๊ตฌ๊ฐ์ ์์ฃผ ์์ ํญ์ ๊ฐ์ง๋ ๊ตฌ๊ฐ๋ค๋ก ๋๋ ๋ค์ ๊ฐ ๊ตฌ๊ฐ์ ํ๋ฅ ์ ์ดํด๋ณด๋ ๊ฒ์ด ํธ๋ฆฌํ๋ค. ๊ทธ๋ฌ๋ ์ด ๊ณผ์ ์์ ๊ตฌ๊ฐ์ ํญ์ ์ด๋ ์ ๋๋ก ์ ์ํด์ผ ํ๋์ง์ ๋ํ ์ถ๊ฐ์ ์ธ ์ฝ์์ด ํ์ํ๊ณ ์ด๋ฌํ ๋จ์ ์ ๋ณด์ํ๊ธฐ ์ํด ์๋์ ์ธ ํ๋ฅ ๋ถํฌ ํํ๋ง์ ๋ณด๋๋ก ๋ง๋ค์ด์ง ๊ฒ์ด ํ๋ฅ ๋ฐ๋ ํจ์์ด๋ค. ๋์ ํ๋ฅ ๋ถํฌ ๊ทธ๋ํ x์ถ์ ์ค๋ฅธ์ชฝ์ผ๋ก ์ด๋ํ๋ฉด์ ํฌ๊ธฐ์ ๋ณํ๋ฅผ ์ดํด๋ณด๋ฉด ํน์ ํ ๊ตฌ๊ฐ์์ ํ๋ฅ ์ด ๋ฐฐ์ ๋์ง ์๋๋ค๋ฉด ๊ธฐ์ธ๊ธฐ๊ฐ 0์ด๊ณ ๋ฐฐ์ ๋๋ค๋ฉด ๊ธฐ์ธ๊ธฐ๊ฐ 0์ด ์๋ ๊ฒ์ด๋ค. ๋ฐ๋ผ์ ๊ธฐ์ธ๊ธฐ์ ํฌ๊ธฐ๋ฅผ ๋ณด๋ฉด ๊ฐ ์์น์ ๋ฐฐ์ ๋ ํ๋ฅ ์ ์๋์ ์ธ ํฌ๊ธฐ๋ฅผ ์ ์ ์๊ณ , ๊ธฐ์ธ๊ธฐ์ ํฌ๊ธฐ๋ฅผ ๊ตฌํ๋ ์ํ์ ์ฐ์ฐ์ด ๋ฏธ๋ถ์ด๋ฏ๋ก ํ๋ฅ ๋ฐ๋ ํจ์๋ ๋์ ๋ถํฌ ํจ์์ ๋ฏธ๋ถ์ผ๋ก ์ ์ํ๋ค. ์ด๋ฌํ ์ด์ ๋ก ํ๋ฅ ๋ฐ๋ํจ์์ ๋์ ๋ถํฌํจ์๋ ๋ฏธ์ ๋ถ์ ๊ด๊ณ๋ฅผ ๊ฐ์ง๊ณ ์๋ค.(๋ฐ์ดํฐ๊ฐ ์ฐ์ํ์ผ๋๋ง ํด๋น)
ํ๋ฅ ๋ฐ๋ ํจ์๋ ํ๋ฅ ๋ณ์ X๊ฐ ์ด๋ค ๊ฐ x๋ฅผ ๊ฐ์ง ํ๋ฅ ์ ๋ํ๋ด๋ ๊ฒ์ด ์๋๋ผ, x ๊ทผ์ฒ์์์ ํ๋ฅ ๋ฐ๋๋ฅผ ๋ํ๋ด๋ ๊ฒ์ด๋ค. ์ด๋, ํ๋ฅ ๋ฐ๋ ํจ์๋ ๋ค์๊ณผ ๊ฐ์ ํน์ฑ์ ๊ฐ์ง๋ค.
- f(x)๋ ํญ์ 0๋ณด๋ค ํฌ๊ฑฐ๋ ๊ฐ๋ค.
- X์ ๊ฐ์ด ํน์ ํ ๊ตฌ๊ฐ a์ b ์ฌ์ด์ ์์ ํ๋ฅ ์ ํ๋ฅ ๋ฐ๋ ํจ์ f(x)์ a, b ์ฌ์ด์ ๋ฉด์ ์ ๊ตฌํ์ฌ ๋ํ๋ผ ์ ์๋ค.
- ํ๋ฅ ๋ฐ๋ ํจ์์ ์ ์ฒด ๋ฉด์ ์ 1์ด๋ค.
ํ๋ฅ ๋ฐ๋ ํจ์๋ ๊ฐ ํ๋ฅ ๋ณ์์ ๋ถํฌ๋ง๋ค ๋ค๋ฅด๊ฒ ์ ์๋๋ค. ์๋ฅผ ๋ค์ด, ์ ๊ท ๋ถํฌ์ ํ๋ฅ ๋ฐ๋ ํจ์๋ ๋ค์๊ณผ ๊ฐ๋ค.
์ฌ๊ธฐ์
- https://www.ncl.ac.uk/webtemplate/ask-assets/external/maths-resources/statistics/distribution-functions/cumulative-distribution-function.html
- https://ko.wikipedia.org/wiki/ํ๋ฅ _๋ฐ๋_ํจ์
- https://ko.wikipedia.org/wiki/๋์ _๋ถํฌ_ํจ์
- notebook community
- [ํ๋ฅ /ํต๊ณ] ๋์ ๋ถํฌํจ์ (CDF, Cumulative Distribution Function)
- ํ๋ฅ ๋ถํฌ ํจ์์ ํ๋ฅ ๋ฐ๋ ํจ์์ ์๋ฏธ
๐ก Conditional Probability(์กฐ๊ฑด๋ถ ํ๋ฅ ์ด๋?)
์ฃผ์ด์ง ์ฌ๊ฑด์ด ๋ฐ์ํ์ ๋, ๋ค๋ฅธ ํ ์ฌ๊ฑด์ด ์ผ์ด๋ ํ๋ฅ $P(B|A)$์ ๊ฐ์ด ํํํ๋ฉฐ ์ฌ๊ฑด$A$์ ๋ํ ์ฌ๊ฑด$B$์ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ด๋ผ ํ๋ค.
์ด๋ฅผ ํ์ฉํด ์๋์ ๊ฐ์ด ๋ฒ ์ด์ฆ ์ ๋ฆฌ๋ฅผ ์ ๋ํ ์ ์๋ค.
-
$D$ : ์๋ก ๊ด์ฐฐ๋๋ ๋ฐ์ดํฐ -
$\theta$ : ๋ชจ๋ธ์์ ๊ณ์ฐํ๊ณ ์ถ์ดํ๋ ๋ชจ์ (๊ฐ์ค) - ์ฌํํ๋ฅ (Posterior): ๋ฐ์ดํฐ๋ฅผ ๊ด์ฐฐํ์ ๋, ์ด ๊ฐ์ค์ด ์ฑ๋ฆฝํ ํ๋ฅ (๋ฐ์ดํฐ ๊ด์ฐฐ ์ดํ ์ธก์ ํ๊ธฐ ๋๋ฌธ์ ์ฌํํ๋ฅ )
- ์ฌ์ ํ๋ฅ (Prior): ๊ฐ์ค์ ๋ํด ์ฌ์ ์ ์ธ์ด ํ๋ฅ (๋ฐ์ดํฐ ๊ด์ธก ์ดํ ์ฌํํ๋ฅ ์ด ์ฌ์ ํ๋ฅ ์ด ๋๋ค.)
- ๊ฐ๋ฅ๋(Likelihood): ํ์ฌ ์ฃผ์ด์ง ๋ชจ์ (๊ฐ์ ) ์์ ์ด ๋ฐ์ดํฐ๊ฐ ๊ด์ฐฐ๋ ๊ฐ๋ฅ์ฑ
- ์ฆ๊ฑฐ(Evidence): ๋ฐ์ดํฐ ์ ์ฒด์ ๋ถํฌ
๐ก ๊ณต๋ถ์ฐ(Convariance)
ํ๋ฅ ๋ณ์์ ๊ธฐ๋๊ฐ๊ณผ ๋ถ์ฐ์ด ํ๋ฅ ๋ถํฌ์ ๋ํ ์ ๋ณด๋ฅผ ์ฃผ๋ฏ์ด ๋ ํ๋ฅ ๋ณ์ X, Y ์ฌ์ด์์ ์ ์๋ ๊ณต๋ถ์ฐ์ ๋ ํ๋ฅ ๋ณ์์ ์ ํ๊ด๊ณ์ ๋ํ ์ ๋ณด๋ฅผ ์๋ ค ์ค๋ค.
๐ก ์๊ด๊ณ์(Correlation Coefficient)
๊ณต๋ถ์ฐ์ ํฌ๊ธฐ๋ ๋ ๋ณ์์ ์ธก์ ๋จ์์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ฏ๋ก ์๋ฏธ๋ฅผ ๋ถ์ฌํ๊ธฐ์ ์ ์ ํ์ง ์๋ค. ๊ณต๋ถ์ฐ์ ๊ฐ ๋ณ์์ ํ์คํธ์ฐจ๋ก ๋๋๋ฉด ์ด๋ค ๋จ์๋ฅผ ์ฌ์ฉํ๋ ๊ฐ์ ๊ฐ์ ์ป๊ฒ ๋๋๋ฐ, ์ด ๊ฐ์ ์๊ด๊ณ์๋ผ๊ณ ํ๋ค.
๊ณต๋ถ์ฐ
๋ ํ๋ฅ ๋ณ์ X, Y์ ๊ธฐ๋๊ฐ์ ๊ฐ๊ฐ
- ๊ธฐ๋ณธ ์ ์
- ์ด์ฐ ํ๋ฅ ์ธ ๊ฒฝ์ฐ
- ์ฐ์ ํ๋ฅ ์ธ ๊ฒฝ์ฐ
๊ธฐ๋๊ฐ์ ์ฑ์ง์ ์ด์ฉํ์ฌ ์ ๋ฆฌํ๋ฉด ๋ค์๊ณผ ๊ฐ์ด ํํ๋๋ค.
๊ณต๋ถ์ฐ์ ๊ธฐ๋ณธ ์ฑ์ง
- ์์ a์ ๋ํ์ฌ
$Cov(X, a) = 0$ $Cov(X, Y) = Cov(Y,X)$ $Cov(X,X) = V(X) \ge 0$ $Cov(X_1+X_2,\ Y)=Cov(X_1,Y)+Cov(X_2,Y)$ $Cov(aX,Y)=aCov(X,Y)$
๊ทธ๋ํ ์์์์ ๊ณต๋ถ์ฐ
-
$Cov(X,Y) > 0$ : X๊ฐ ์ฆ๊ฐํ ๋, Y๋ ์ฆ๊ฐํ๋ค. -
$Cov(X,Y) < 0$ : ๊ฐ ์ฆ๊ฐํ ๋, Y๋ ๊ฐ์ํ๋ค. -
$Cov(X,Y) = 0$ : ์๋ฌด๋ฐ ์ ํ๊ด๊ณ๊ฐ ์๋ค.
์๊ด์์๊ณผ ๋ ๋ฆฝ์ฑ
๋ ํ๋ฅ ๋ณ์ X, Y๊ฐ ๋
๋ฆฝ์ด๋ฉด
์๊ด๊ณ์
๋ ํ๋ฅ ๋ณ์ X, Y์ ์๊ด๊ณ์๋
- ์๊ด๊ณ์์ ์ฑ์ง
- ์๊ด๊ณ์์ ์ ๋๊ฐ์ 1์ ๋์ ์ ์๋ค.
- ํ๋ฅ ๋ณ์ X, Y๊ฐ ๋ ๋ฆฝ์ด๋ผ๋ฉด ์๊ด๊ณ์๋ 0์ด๋ค.
- X, Y๊ฐ ์ ํ๊ด๊ณ์ธ Y = aX + b์ ๊ด๊ณ์ผ ๋ a๊ฐ ์์๋ฉด ์๊ด๊ณ์๋ 1 a๊ฐ ์์๋ฉด -1์ด๋ค.
- https://online.stat.psu.edu/stat414/lesson/18/18.1
- https://datascienceschool.net/02 mathematics/07.05 ๊ณต๋ถ์ฐ๊ณผ ์๊ด๊ณ์.html
- ๊ณต๋ถ์ฐ(Covariance)๊ณผ ์๊ด๊ณ์(Correlation)
- https://terms.naver.com/entry.naver?docId=3404964&cid=47324&categoryId=47324
๐ก ๋ชจ์ง๋จ์์ ํ๋ณธ์ ์ถ์ถํ์ฌ ํ๋ณธํ๊ท ์ ๊ณ์ฐํ์ ๋ ์ ํด์ง ํ์ ์ ์ ๋๋ฅผ ๊ฐ์ง๊ณ ๋ฏธ์ง์ ๋ชจ์๊ฐ ์ํ ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ ๊ตฌ๊ฐ์ ์ ๋ขฐ๊ตฌ๊ฐ(confidence Interval)์ด๋ผ ํ๋ค.
์ด๋ ์ถ์ ํ ๊ตฌ๊ฐ ์์ ์ค์ ๋ก ๋ชจ์๊ฐ ๋ค์ด์์ ํ์ ์ ์ ๋๋ฅผ ์ ๋ขฐ์์ค(์ ๋ขฐ๋, confidence level) ๋๋ ์ ๋ขฐ๊ณ์ (confidence coefficient)๋ผ ํ๋ค. ๋ณดํต ์ ๋ขฐ์์ค์ ๋ฐฑ๋ถ์จ๋ก ๋ํ๋ด๋ฉฐ, ์ ๋ขฐ๊ณ์๋ 0๋ถํฐ 1 ์ฌ์ด์ ๊ฐ์ผ๋ก ๋ํ๋ธ๋ค.
1m ๋ฌผ์ฒด์ ๊ธธ์ด๋ฅผ ์ถ์ ํ ๋ ๊ธธ์ด๋ ์ ํํ๋ค๊ณ ๋งํ๋ค๋ฉด ์ ๋ขฐ์์ค 100%๊ฐ ๋ ์ ์์ง๋ง ์ด๊ฒ์ ๋ฌด์๋ฏธํ ์ถ์ ์ด๋ฏ๋ก ์ ์ ํ ์ ๋ขฐ์์ค์ ์ ๋ขฐ๊ตฌ๊ฐ์ ์ถ์ ํ๋ ๊ฒ์ด ์ค์ํ๋ค.
๊ด์ธก ํ์๊ฐ n์ด๊ณ ๊ด์ธก ๊ฒฐ๊ณผ์ ํ๊ท ์ด M์ด๋ผ๋ฉด, n๋ฒ์ฉ ๊ด์ธกํ ๋๋ง๋ค ์ป์ด์ง๋ ํ๊ท ๊ฐ M๋ค์ ๊ฐ์ ๋น์ฐํ ์ฐธ๊ฐ์ ๋งค์ฐ ๊ฐ๊น์์ง๋ค. ๋์ฑ ๊ฐ๊น์์ง๋ค๋ ๊ฒ์ M๋ค์ ํ์คํธ์ฐจ๊ฐ ์๋ค๋ ๋ป์ด ๋๋๋ฐ, ๊ด์ธก ๊ฒฐ๊ณผ ํ๋ํ๋๊ฐ ํ์คํธ์ฐจ ฯ์ธ ์ ๊ท๋ถํฌ๋ฅผ ๋ฐ๋ฅธ๋ค๋ฉด, n๋ฒ ๊ด์ธกํ์ฌ ์ป์ด์ง๋ M์ ํ์คํธ์ฐจ๋ ๋ค์๊ณผ ๊ฐ์ด ๋๋ค.
ํ๋ณธ ํ๊ท ์ ํ๊ท ์ ๋ชจํ๊ท ๊ณผ ๊ฐ์ผ๋ฏ๋ก ์ฐธ๊ฐ์ด m๋ฏธํฐ๋ผ๋ฉด ์ค์ฌ๊ทนํ์ ๋ฆฌ์์ํด ๊ด์ธก ๊ฒฐ๊ณผ์ ํ๊ท M์ ํ๊ท ์ด m์ด๊ณ ํ์คํธ์ฐจ๊ฐ
์ ์์ m์ ๊ธฐ์ค์ผ๋ก ์ดํญ ์ ๋ฆฌํ๋ฉด ์๋์ ๊ฐ๋ค
์ด๋ฅผ ํตํด ์ฐธ๊ฐ m์ด ๊ด์ธก์ผ๋ก๋ถํฐ ๊ตฌํ ํ๊ท ๊ฐ M ๊ทผ์ฒ์ ์์ ํ๋ฅ ์ ํํํ ์ ์๊ฒ ๋๋ค.
ํ๋ฅ 68%๋ฅผ ์ ๋ขฐ์์ค, ์ ๋ขฐ๋๋ผ ํ๋ฉฐ 100%์์ ์ ๋ขฐ์์ค์ ๋บ 32%๋ฅผ ์ ์์์ค์ด๋ผ๊ณ ํ๋ค.
์ด๋ ํ๋ณธ์ 100๋ฒ ์ถ์ถํ์ ๋ 100๊ฐ์ ์ ๋ขฐ๊ตฌ๊ฐ ์ค์ 95๊ฐ ์ ๋๊ฐ ๋ชจ์์ ์ฐธ๊ฐ์ ํฌํจํ๊ณ 5๊ฐ ์ ๋๋ ๋ชจ์์ ์ฐธ๊ฐ์ ํฌํจํ์ง ์๋๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค.
์ ๋ขฐ ๊ตฌ๊ฐ์ ํน์ฑ
- ์ ๋ขฐ ๊ตฌ๊ฐ์ด ์ข์์๋ก ๋ชจ์ง๋จ ํ๊ท ์ถ์ ์น๊ฐ ์ ํํด์ง๋ค.
- ์ผ๋ฐ์ ์ผ๋ก ํ๋ณธ ํฌ๊ธฐ๊ฐ ํด์๋ก, ์ ๋ขฐ ๊ตฌ๊ฐ์ด ์ข์์ง๋ค.
์ค์ฌ๊ทนํ์ ๋ฆฌ
- ๋ชจ์ง๋จ์์ ํ๋ณธ ํ๊ท ์ ๋์์ด ๊ตฌํ ์๋ก ํ๋ณธ ํ๊ท ์ ๋ถํฌ๋ ์ ๊ท ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๊ฒ ๋จ
- https://angeloyeo.github.io/2021/01/05/confidence_interval.html
- https://terms.naver.com/entry.naver?docId=6512706&cid=60207&categoryId=60207
- https://terms.naver.com/entry.naver?docId=3569431&cid=58944&categoryId=58970
๐ก p-value๋ ์ป์ ๊ฒ์ ํต๊ณ๋(ex, t-value)๋ณด๋ค ํฌ๊ฑฐ๋ ๊ฐ์ ๊ฐ์ ์ป์ ์ ์๋ ํ๋ฅ ์ด๋, ๊ฒ์ ํต๊ณ๋์ ๋๋ถ๋ถ์ด ๊ท๋ฌด๊ฐ์ค์ ๊ฐ์ ํ๊ณ ์ป๊ฒ ๋๋ ๊ฐ
โ๋ชจํ๊ท ์ด 100์ด๋คโ๋ผ๋ ๊ท๋ฌด๊ฐ์ค์ด ์ฐธ์ด๋ผ๋ ๊ฐ์ ํ์์, 100๊ฐ์ ๋ฐ์ดํฐ๋ฅผ sampling ํ ๋ ์ด๋ก ์ ์ผ๋ก ๋์ฌ ์ ์๋ ํ๊ท ์ ๋ถํฌ์์, ์ง๊ธ ๋ด๊ฐ ๊ฐ๊ณ ์๋ ํ๋ณธ ํ๊ท ์ ๊ฐ์ธ 95๋ณด๋ค ํฐ ๊ฐ์ด ๋์ฌ ์ ์๋ ํ๋ฅ ์ ๋งํ๋ค.
์์ ์์์์ ๊ทธ๋ด ํ๋ฅ ์ด ๋งค์ฐ ๋ฎ๋ค๋ฉด ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐํ ์ ์๊ฒ ๋๋ค.
์ฐ์ฐํ ๋ฐ์ํ ๊ฐ๋ฅ์ฑ์ด ๋งค์ฐ ํฌ๋ฐํ ์ฌ๊ฑด์ด ์ค์ ๋ก ๋ฐ์ํ์ ๊ฒฝ์ฐ, ๊ทธ๊ฒ์ ์ฐ์ฐ์ด ์๋๋ผ๊ณ ์๊ฐํ๋ ๊ฒฝํฅ์ด ์๊ณ , p-value ์ญ์ ๊ทธ์ ๊ฐ์ ๊ฒฝํฅ์ ๋ฐ๋ฅธ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ด๋ค.
์ผ๋ฐ์ ์ผ๋ก P-value๊ฐ 5% ๋ณด๋ค ์์ผ๋ฉด ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐํ๋ค. ํ์ง๋ง ์ด 5% ๊ธฐ์ค์ ์ ํต์ ์ผ๋ก ์ฌ์ฉํ๋ ์์น์ด๊ธฐ ๋๋ฌธ์ ์คํ์๊ฐ ์กฐ์ ๊ฐ๋ฅํ๋ค.
์ผ๋ฐ์ ์ผ๋ก p-value๊ฐ ๋๋ฌด ๋ฎ์ผ๋ฉด, ๊ทธ๋ ๊ฒ ๋ฎ์ ํ๋ฅ ์ ์ฌ๊ฑด์ด ์ค์ ๋ก ์ผ์ด๋ฌ๋ค๊ณ ์๊ฐํ๊ธฐ ๋ณด๋ค๋ ๊ท๋ฌด๊ฐ์ค์ด ํ๋ ธ๋ค๊ณ ์๊ฐํ๊ฒ ๋๋ค. ๊ทธ๋์ ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐํ๊ณ ๋๋ฆฝ๊ฐ์ค์ ์ฑํํ๊ฒ ๋๋๋ฐ p-value๋ ๊ฒ์ ํต๊ณ๋์ด ์์ถ์ ์ผ๋ก ๋ด๊ณ ์๋ ์ ๋ณด๋ฅผ ๋ ์์ถํ๊ธฐ ๋๋ฌธ์ ํจ๊ณผ์ ํฌ๊ธฐ(effect size)๊ฐ ์ปค์ง๊ฑฐ๋ ํ๋ณธ์ ํฌ๊ธฐ(n)๊ฐ ์ปค์ง๋ฉด p-value๋ ์์์ง๋ค๋ ๊ฒ์ ๋ช ์ฌํด์ผ ํ๋ค.
p-value๊ฐ ์๋ฏธํ๋ ๊ฒ: ํจ๊ณผ์ ํฌ๊ธฐ (effect size, ํ๋ณธ์ ํฌ๊ธฐ)
- p-value๊ฐ ์์ ์ด์ ๋ effect size๊ฐ ํฌ๊ธฐ ๋๋ฌธ์ธ์ง ํ๋ณธ์ ํฌ๊ธฐ๊ฐ ํฌ๊ธฐ ๋๋ฌธ์ธ์ง ์ ์ ์์
- https://angeloyeo.github.io/2020/03/29/p_value.html
- https://www.scribbr.com/statistics/p-value/
- https://adnoctum.tistory.com/332
- https://terms.naver.com/entry.naver?docId=3580638&cid=58944&categoryId=58970
- https://terms.naver.com/entry.naver?docId=6458445&cid=68053&categoryId=68053
๐ก Coefficient of Determination์ ํ๊ท ๋ชจ๋ธ์์ ๋ ๋ฆฝ ๋ณ์๊ฐ ์ข ์๋ณ์๋ฅผ ์ผ๋ง๋งํผ ์ค๋ช ํด ์ฃผ๋์ง ๊ฐ๋ฆฌํค๋ ์งํ(๋์ ์๋ก ์ ์ค๋ช )
- SST : ๊ด์ธก๊ฐ์์ ๊ด์ธก๊ฐ์ ํ๊ท ์ ๋บ ๊ฒฐ๊ณผ์ ์ดํฉ
- SSE : ์ถ์ ๊ฐ์์ ๊ด์ธก๊ฐ์ ํ๊ท ์ ๋บ ๊ฒฐ๊ณผ์ ์ดํฉ
- SSR : ๊ด์ธก๊ฐ์์ ์ถ์ ๊ฐ์ ๋บ ๊ฐ์ ์ดํฉ
- https://m.blog.naver.com/tlrror9496/222055889079
- https://www.ncl.ac.uk/webtemplate/ask-assets/external/maths-resources/statistics/regression-and-correlation/coefficient-of-determination-r-squared.html
- ์๋ฃ๊ฐ์ ๋ถํฌ๊ฐ ๋์นญ์ ์ด๊ณ ๋จ์ผ๋ด ํํ์ธ ๊ฒฝ์ฐ : ํ๊ท
- ์๋ฃ์ ๊ฐ์ ํ ๊ฐ ์ด์์ ๊ทน๋จ์ ์ธ ๊ฐ์ด ์๋ ๊ฒฝ์ฐ : ์ค์๊ฐ
- ์๋ฃ์ ๊ฐ์ ๋ถํฌ๊ฐ ํ ์ชฝ์ผ๋ก ์น์ฐ์น ๊ฒฝ์ฐ : ์ค์๊ฐ
ํ๊ท ์ข ๋ฅ
- ์ฐ์ ํ๊ท : ์ด์์น์ ๋ฏผ๊ฐ
- ๊ธฐํํ๊ท : ๊ธฐ๊ฐ ๋ณ ์์น ํ๋ฝ ๊ณ์ฐ ์ ์ ์ฉ
- ์กฐํํ๊ท : F1 score๋ฅผ ๊ตฌํ ๋ ์ฌ์ฉ
- https://terms.naver.com/entry.naver?docId=3338104&cid=47324&categoryId=47324
- https://lsh-story.tistory.com/76
๐ก ํ๋ณธ ํฌ๊ธฐ๊ฐ n์ธ ํ๋ณธ์ ์ฌ๋ฌ ๋ฒ ๋ฐ๋ณตํด์ ์ถ์ถํ์ ๋ ๊ฐ ํ๋ณธ ํ๊ท ๋ค์ด ์ด๋ฃจ๋ ๋ถํฌ๊ฐ ์ ๊ท๋ถํฌ๊ฐ ์ด๋ฃจ๊ฒ ๋๋ค. ์ด ๋, ์ ๊ท๋ถํฌ์ ํ๊ท ์ ๋ชจ์ง๋จ์ ํ๊ท ์ด๊ณ ์ ๊ท๋ถํฌ์ ํ์คํธ์ฐจ๋ ๋ชจ์ง๋จ์ ํ์คํธ์ฐจ๋ฅผ
$\sqrt n$ ($n$ : ํ๋ณธ์ ํฌ๊ธฐ)์ผ๋ก ๋๋ ํํ๋ก ๋ํ๋๊ธฐ ๋๋ฌธ์ ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ชจ์๋ฅผ ์ถ์ ํ ์ ์๊ธฐ ๋๋ฌธ์ ์ ์ฉํ๋ค.
- i.i.d.(independent and identically distribution) ๊ฐ์ ์ด ์ฑ๋ฆฝํ๊ณ ํ๊ท , ํ์คํธ์ฐจ๋ง ์๊ณ ์์ผ๋ฉด
$X_i$ ์ ๋ถํฌ ์์ฒด์ ๋ํ ์ ๋ณด๊ฐ ์๋๋ผ๋$\xi_n$ ์ ๋ถํฌ๋ฅผ ์ ๊ทผ์ ์ผ๋ก ์ ์ ์๋ค.
- ๋ฐ์ดํฐ(ํน์ ํ๋ณธ)๊ฐ ์ถฉ๋ถํ์ง ์์ ์ํฉ์์ ์ ๊ท๋ถํฌ๋ก ๊ฐ์ ํ๋ ๊ฒ์ ์ฌ๋ฐ๋ฅด์ง ์๋ค. ์ฆ ๊ทน๋จ์ ์ธ ์ฌ๋ก๊ฐ ๋ฐ์ํ ์ํฉ์ ๊ณผ์ ํ๊ฐ ๋๊ธฐ ์ฝ๊ณ ๋๋ถ๋ถ์ ์ํฉ์ ์ ๊ท๋ถํฌ๋ก ๊ฐ์ ํด์ ํฐ ํผํด๋ฅผ ๋ณธ ๊ฒฝ์ฐ๊ฐ 2008๋ ๊ธ์ต ์๊ธฐ์ด๋ค.
๐ก Entropy๋ ์ต์ ์ ์ ๋ต ํ์์ ๊ทธ ์ฌ๊ฑด์ ์์ธกํ๋ ๋ฐ์ ํ์ํ ์ง๋ฌธ ๊ฐ์๋ฅผ ์๋ฏธํ๋ค. ๋ค๋ฅธ ํํ์ผ๋ก๋ ์ต์ ์ ์ ๋ต ํ์์ ํ์ํ ์ง๋ฌธ ๊ฐ์์ ๋ํย ๊ธฐ๋๊ฐ์ด๋ค. ๋ฐ๋ผ์, ์ด entropy๊ฐ ๊ฐ์ํ๋ค๋ ๊ฒ์ ์ฐ๋ฆฌ๊ฐ ๊ทธ ์ฌ๊ฑด์ ๋งํ๊ธฐ ์ํด์ ํ์ํ ์ง๋ฌธ์ ๊ฐ์๊ฐ ์ค์ด๋๋ ๊ฒ์ ์๋ฏธํ๊ณ ์ง๋ฌธ์ ๊ฐ์๊ฐ ์ค์ด๋ ๋ค๋ ์ฌ์ค์ ์ ๋ณด๋๋ ์ค์ด๋ ๋ค๋ ์๋ฏธ์ด๋ค.
- log๋ก ํ์ํ๋ ์ด์
- ํ๋ฅ ๊ณผ ๋ฐ๋น๋ก ๊ด๊ณ
- ๋ ์ฌ๊ฑด์ ์ ๋ณด๋์ ํฉ์ ๊ฐ ์ฌ๊ฑด์ ์ ๋ณด๋์ ํฉ๊ณผ ๊ฐ์์ผ ํ๊ธฐ ๋๋ฌธ์
- Entropy๋ ๊ฐ๋ฅํ ๋ชจ๋ ์ฌ๊ฑด์ด ๊ฐ์ ํ๋ฅ ๋ก ์ผ์ด๋ ๋ ๊ทธ ์ต๋๊ฐ์ ๊ฐ์ง
๐ก Information Gain(IG)์ ์ด๋ค ์์ฑ์ ์ ํํจ์ผ๋ก ์ธํด์ ๋ฐ์ดํฐ๋ฅผ ๋ ์ ๊ตฌ๋ถํ๊ฒ ๋๋ ๊ฒ์ ๋งํ๋ค. ์ด๋ ์ด๋ค ์กฐ๊ฑด์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฅํ ๋ ์ํธ๋กํผ๊ฐ ์ผ๋ง๋ ๊ฐ์ ํ๋์ง๋ฅผ ์ธก์ ํจ์ผ๋ก์จ ๊ณ์ฐํ ์ ์๊ณ Decision Tree์ ๋ถ๋ชจ ๋ ธ๋์ ์์ ๋ ธ๋์ ์ฐจ์ด๊ฐ ์ด์ ํด๋นํ๋ค.
- Decision Tree
- ์์ ๋ ธ๋๊ฐ ๋ถ๋ชจ ๋ ธ๋๋ณด๋ค ๋ ์์๋๊ฐ ๋์ ์์ ๋ ธ๋๋ค์ด ๋๋๋ก ๋ฐ์ดํฐ๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ๋ ์์ ์ง๋จ์ผ๋ก ๋๋๋ ๊ฒ
- ์ ๋ณด ์ด๋์ ์์ ๋ ธ๋์ ์ํธ๋กํผ์์ ํ์ ๋ ธ๋์ ์ํธ๋กํผ๋ฅผ ๋บ ๊ฐ์ด๋ค.ย ๊ทธ๋ฆฌ๊ณ E(A)๋ A๋ผ๋ ์์ฑ์ ์ ํํ์ ๋ ํ์๋ก ์์ m๊ฐ์ ๋ ธ๋๋ก ๋๋์ด์ง๋ค๊ณ ํ๋ฉด ํ์ ๊ฐ ๋ ธ๋์ ์ํธ๋กํผ๋ฅผ ๊ณ์ฐ ํ ํย ๋ ธ๋์ ์ํ ๋ ์ฝ๋์ ๊ฐ์๋ฅผ ๊ฐ์ค์น๋ก ํ์ฌ ํ๊ท ํ ๊ฐ์ด๋ค.
- Gain(A)๋ ์์ฑ A๋ฅผ ์ ํํ์ ๋์ ์ ๋ณด ์ด๋ ์์ ๊ณ์ฐํ๋ ์์์ผ๋ก ์๋ ๋ ธ๋์ ์ํธ๋กํผ๋ฅผ ๊ตฌํ๊ณ , ๋ฐฉ๊ธ ๊ตฌํ ์ํธ๋กํผ๋ฅผ ์ ํํ ํ์ m๊ฐ์ ํ์ ๋ ธ๋๋ก ๋๋์ด์ง ๊ฒ์ ๋ํ ์ ์ฒด์ ์ธ ์ํธ๋กํผ๋ฅผ ๊ตฌํ ํ์ ๊ฐ์ ๋บ ๊ฒฐ๊ณผ์ด๋ค.
- Gain(A) ๊ฐ์ด ํด์๋ก ์ ๋ณด ์ด๋์ด ํฐ ๊ฒ์ด๊ณ , ๋ณ๋ณ๋ ฅ์ด ์ข๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค.
- ๊ฒฐ์ ํธ๋ฆฌ ์ค๋ช ๋ฐ ๋ถ๋ฅ๊ธฐ ๊ตฌํ
- ์ํธ๋กํผ ์ดํดํ๊ธฐ
- ์ ๋ณด ์ด๋ ์ดํดํ๊ธฐ
- ๊ณต๋์ด์ ์ํ์ ๋ฆฌ๋ ธํธ
- [์ธ๊ณต์ง๋ฅ] ์ํธ๋กํผ(Entropy) ์ ์ ๋ณด์ด๋(Information Gain) ๊ณ์ฐ
- Voyager - Information Gain
- ์ด๋ณด๋ฅผ ์ํ ์ ๋ณด์ด๋ก ์๋ด์
์ด๋จ ๋ ๋ชจ์์ ๋ฐฉ๋ฒ๋ก ์ ์ธ ์ ์๊ณ , ์ด๋จ ๋ ๋น๋ชจ์์ ๋ฐฉ๋ฒ๋ก ์ ์ธ ์ ์๋์?
๐ก ๋ชจ์์ ๋ฐฉ๋ฒ๋ก (Parametricย method): ๋ชจ์ง๋จ์ ๋ถํฌ๊ฐ ํน์ ํ๋ฅ ๋ถํฌ(Probability Distribution)์ ํํ๋ก ๋ํ๋๋ ๊ฒฝ์ฐ ์ฌ์ฉํ๋ค. ๋น๋ชจ์์ ๋ฐฉ๋ฒ๋ก (Nonparametricย method): ํ๋ณธ์ ์๊ฐ ์ ์ด ์ ๊ท๋ถํฌ๋ฅผ ๊ฐ์ ํ ์ ์๋ ๊ฒฝ์ฐ, ๋ชจ์ง๋จ์ ๋ํ ์ ๋ณด๊ฐ ์๋ ๊ฒฝ์ฐ ์ฌ์ฉํ๋ค.
- ๋ชจ์์ ๋ฐฉ๋ฒ
- ๊ด์ธก ๊ฐ์ด ์ด๋ ํน์ ํ ํ๋ฅ ๋ถํฌ๋ฅผ ๋ฐ๋ฅธ๋ค๊ณ ์ ์ ํ ํ ๊ทธ ๋ถํฌ์ ๋ชจ์์ ๋ํ ๊ฒ์ ์ ์ค์ํ ๋ ์ฌ์ฉ ๊ฐ๋ฅํ๋ค.
- ์ค์ฌ ๊ทนํ ์ ๋ฆฌ์ ์ํด ์ผ์ ์ ์ด์์ ํ๋ณธ์ ๋ชจ์ง๋จ์ ๋ถํฌ์ ์๊ด์์ด ์ ๊ท๋ถํฌ์ ๊ทผ์ ํ๋ค.
- ํ๋ฅ ๋ถํฌ์ ํ๊ท , ํ์คํธ์ฐจ ๋ฑ์ ๋ชจ์๋ฅผ ๋น๊ตํจ์ผ๋ก์จ ์ง๋จ๊ฐ์ ์ฐจ์ด๋ฅผ ๋ฐํ ์ ์๋ค.
- ๋น๋ชจ์์ ๋ฐฉ๋ฒ
- ๊ด์ธก ๊ฐ์ด ์ด๋ ํน์ ํ ํ๋ฅ ๋ถํฌ๋ฅผ ๋ฐ๋ฅธ๋ค๊ณ ์ ์ ํ ์ ์๋ ๊ฒฝ์ฐ, ๋ชจ์ง๋จ์ ๋ํ ์๋ฌด๋ฐ ์ ๋ณด๊ฐ ์๋ ๊ฒฝ์ฐ์ ์ฌ์ฉ ๊ฐ๋ฅํ๋ค.
- ์๋ฃ๋ฅผย ํฌ๊ธฐย ์์ผ๋กย ๋ฐฐ์ดํ์ฌย ์์๋ฅผย ๋งค๊ธดย ๋ค์ย ์์์ย ํฉ์ย ํตํดย ์ฐจ์ด๋ฅผย ๋น๊ตํ๋ย ์์ํฉ๊ฒ์ ์ย ์ ์ฉํ ย ์ย ์๋ค.
- ๊ด๋ จ ๋ชจ๋ธ
- ๋ชจ์์ ๋ชจ๋ธ
- ํ๊ท๋ชจ๋ธ, ๋ก์ง์คํฑํ๊ท๋ชจ๋ธ, 1์ฐจ/2์ฐจ ํ๋ณ ๋ชจ๋ธ(LDA / QDA)
- ๋น๋ชจ์์ ๋ชจ๋ธ
- ์์ฌ๊ฒฐ์ ๋๋ฌด, ๋๋คํฌ๋ ์คํธ, K-๊ทผ์ ์ด์(KNN)
- ์ธ๊ณต์ ๊ฒฝ๋ง์ ๊ฒฝ์ฐ ๋ชจ์์ ๋ชจ๋ธ๊ณผ ๋น๋ชจ์์ ๋ชจ๋ธ ๋ ๋ฐฉ๋ฒ์ด ํผ์ฌํ๋ค.
- ๋ชจ์์ ๋ชจ๋ธ
- ๋ชจ์ ๋ชจ๋ธ vs. ๋น๋ชจ์ ๋ชจ๋ธ ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ๋ง ๊ด์ ์์
- ํต๊ณ์ฉ์ด - ๋ชจ์์ , ๋น๋ชจ์์ ๋ฐฉ๋ฒ
- ์ 13์ฅ. ๋น๋ชจ์์ ๋ฐฉ๋ฒ(Distribution-free Method)
- [ํต๊ณ์ด๋ก ] ๋ชจ์์ ๋ฐฉ๋ฒ vs ๋น๋ชจ์์ ๋ฐฉ๋ฒ
๐ก ํ๋ฅ (Probability): ์ฃผ์ด์ง ํ๋ฅ ๋ถํฌ๊ฐ ์์ ๋, ๊ด์ธก๊ฐ ํน์ ๊ด์ธก ๊ตฌ๊ฐ์ด ๋ถํฌ ์์์ ์ผ์ด๋ ๊ฐ๋ฅ์ฑ์ ๋ปํ๊ณ
$f(x|\theta)$ ๋ก ํํํ๋ค. ๊ฐ๋ฅ๋(Likelihood): ์ด๋ค ๊ฐ์ด ๊ด์ธก ๋์์ ๋ ์ด๊ฒ์ด ์ด๋ค ํ๋ฅ ๋ถํฌ์์ ์๋์ง์ ๋ํ ๊ฐ๋ฅ์ฑ์ ๋ปํ๋ค.$\mathcal{L}(\theta|x)$ ๋ก ํํํ๋ค.
- ์ฌํ์ ๊ฐ๊ธฐ ์ํด ์บ๋ฆฌ์ด์ ์ง์ ์์์ ๋ ์บ๋ฆฌ์ด ๋ฌด๊ฒ๋ฅผ ์๋ก ๋ ๋ค๋ฉด, ํ๋ฅ ์ ํ๋ฅ ๋ถํฌ๊ฐ ๊ณ ์ ๋์ ๋ ์บ๋ฆฌ์ด ๋ฌด๊ฒ๊ฐ 20~30์ธ ์ฌ๊ฑด์ด ์ผ์ด๋ ๊ฐ๋ฅ์ฑ์ ๋ปํ๋ค.
-
๊ฐ๋ฅ๋๋ ๊ณ ์ ๋ ์ฌ๊ฑด์์ ์ฌ๊ฑด์ด ์ผ์ด๋ ํ๋ฅ ๋ถํฌ์ ๋ํ ๊ฐ๋ฅ์ฑ์ ์๋ฏธํ๋ค. ์ผ์ชฝ์ 30kg ์บ๋ฆฌ์ด๋ฅผ ๊ด์ฐฐํ ๊ฐ๋ฅ์ฑ์ 0.2๊ณ ์ค๋ฅธ์ชฝ์ 0.3์ด๋ค. ๋ฐ๋ผ์ ๊ฐ๋ฅ๋๋ ์ผ์ชฝ๋ณด๋ค ์ค๋ฅธ์ชฝ์ด ๋ ํฌ๋ค.
-
ํ๋ฅ ์ ์ด๋ค ์ํ(trial, experiment)์์ ํน์ ๊ฒฐ๊ณผ(sample)๊ฐ ๋์ฌ ๊ฐ๋ฅ์ฑ. ์ฆ, ์ํ ์ ๋ชจ๋ ๊ฒฝ์ฐ์ ์์ ๊ฐ๋ฅ์ฑ์ ์ ํด์ ธ ์์ผ๋ฉฐ ๊ทธ ์ดํฉ์ 1(100%)์ด๋ค.
-
๊ฐ๋ฅ๋๋ ์ด๋ค ์ํ(trial, experiment)์ ์ถฉ๋ถํ ์ํํ ๋ค ๊ทธ ๊ฒฐ๊ณผ(sample)๋ฅผ ํ ๋๋ก ๊ฒฝ์ฐ์ ์์ ๊ฐ๋ฅ์ฑ์ ๋์ถํ๋ ๊ฒ. ์๋ฌด๋ฆฌ ์ถฉ๋ถํ ์ํํด๋ ์ด๋๊น์ง๋ ์ถ๋ก (inference)์ด๊ธฐ ๋๋ฌธ์ ๊ฐ๋ฅ์ฑ์ ํฉ์ด 1์ด ๋์ง ์์ ์๋ ์๋ค.
- StatQuest: Maximum Likelihood ์ต๋ ์ฐ๋ ์ถ์ , ๋งค์ฐ ๊น๋ํ๊ฒ ์ค๋ช ๋์์ต๋๋ค!!!
- [๊ธฐ์ดํต๊ณ] ํ๋ฅ (Probability) vs ์ฐ๋(๊ฐ๋ฅ๋,Likelihood)
- [์๋ฆฌํต๊ณํ] ๊ฐ๋ฅ๋๋ ํ๋ฅ ๊ณผ ์ด๋ป๊ฒ ๋ค๋ฅด์ง?
- ๊ฐ๋ฅ๋(Likelihood)์ ํ๋ฅ (Probability)์ ์ฐจ์ด
๐ก ๋จ์ผ ๋๋ค ํ๋ณธ์์ ๋ณต์ ์ถ์ถ์ ์งํํด์ ํ๋ณธ ์ถ์ถ ๋ถํฌ๋ฅผ ์ถ์ ํ๋ ๋ฐฉ๋ฒ์ผ๋ก ๋ํ์ ์ธ ๋ฆฌ์ํ๋ง ๊ธฐ๋ฒ ์ค ํ๋
-
์ฅ์ : ํ๊ท (mean)๊ฐ์ด ํ์ค ์ค์ฐจ๊ฐ ์ ์๋ ค์ง ์ถ์ ๋๋ค์ ์ด๋ฐ ๋ถํธ์คํธ๋ฉ ๊ฐ์ ๋ฐฉ๋ฒ์ ์ธ ์ด์ ๊ฐ ์์ง๋ง ํ์ค ์ค์ฐจ๋ฅผ ๊ณ์ฐํ๋ ๋ฐฉ๋ฒ์ด ์ ์๋ ค์ ธ ์์ง ์์ ์ถ์ ๋๋ค์ ๊ฒฝ์ฐ ๋ถํธ์คํธ๋ฉ ๋ฐฉ๋ฒ์ ํตํด ์ค์ฐจ ๋ฒ์๋ฅผ ํ์ ํ ์ ์์
-
์ฌ์ฉ ์๊ธฐ : ํ๋ฅ ๋ณ์์ ์ ํํ ํ๋ฅ ๋ถํฌ๋ฅผ ๋ชจ๋ฅด๋ ๊ฒฝ์ฐ๋ ์ธก์ ๋ ์ํ์ด ๋ถ์กฑํ ๊ฒฝ์ฐ
-
์ ๋ขฐ ๊ตฌ๊ฐ์ ๊ตฌํ๋ ์ ์ฐจ
- ์ ์ฒด n๊ฐ์ ํ๋ณธ ์ค ํ๋๋ฅผ ๋ฝ์ ๊ธฐ๋ก ํ ๋ค์ ํ๋ณธ์ ์ฝ์
- m๋ฒ ๋ฐ๋ณต
- m๋ฒ ์ฌํ๋ณธ์ถ์ถํ ๊ฐ์ ํ๊ท ์ ๊ณ์ฐ
- 1~3๋ฒ์ K๋ฒ ๋ฐ๋ณต(K๊ฐ ํด์๋ก ์ ๋ขฐ๊ตฌ๊ฐ ์ถ์ ์ด ์ ํํด์ง)
- ํ๊ท ์ ๋ํ ๊ฒฐ๊ณผ K๊ฐ๋ฅผ ์ฌ์ฉํ์ฌ ์ ๋ขฐ๊ตฌ๊ฐ์ ๊ตฌํจ
- 4.2. Bootstrp - An Introduction to Statistical Learning
- ๋ถํธ์คํธ๋ฉ ์ํ๋ง์ด๋?
- DATA -12. ๋ถํธ์คํธ๋ฉ
- ๊ณต๋์ด์ ์ํ์ ๋ฆฌ๋ ธํธ
๋ชจ์ง๋จ์ ์๊ฐ ๋งค์ฐ ์ ์ (์์ญ๊ฐ ์ดํ) ์ผ์ด์ค์ ๊ฒฝ์ฐ ์ด๋ค ๋ฐฉ์์ผ๋ก ์์ธก ๋ชจ๋ธ์ ์๋ฆฝํ ์ ์์๊น์?
๐ก ํ๋ณธ์ ์๊ฐ ์ ์ ๊ฒฝ์ฐ๋ผ๋ ๋ชจ์ง๋จ์ด ์ ๊ท๋ถํฌ๋ฅผ ๋ฐ๋ฅธ ๋ค๋ฉด ๋ชจ์์ ๋ฐฉ๋ฒ์ ํตํด ์์ธก ๋ชจ๋ธ์ ์๋ฆฝํ ์ ์๋ค.
ํ์ง๋ง ์ ๊ท๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋์ง ์ ์ ์๋ค๋ฉด Shapiro-Wilk ๊ฒ์ ๋ฑ์ ๋ชจ์ง๋จ ์ ๊ท์ฑ ๊ฒ์ฆ์ ํตํด ์ ๊ท๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋์ง ๊ฒ์ฆํด๋ณผ ์ ์๊ณ ๊ฒ์ฆ๋ ๋์ง ์๋๋ค๋ฉด ์ด๋๋ ๋น๋ชจ์์ ์ธ ๋ฐฉ๋ฒ์ ์ฌ์ฉํด์ผํ๋ค.
- ์ ๊ท์ฑ ๊ฒ์ โ ํ๋ณธ์ ํตํด ๋ชจ์ง๋จ์ด ์ ๊ท ๋ถํฌํ๋์ง ๊ฒ์ ํ๋ ๊ฒ
- Null Hypothesis : ๋ชจ์ง๋จ์ด ์ ๊ท๋ถํฌ๋ฅผ ์ด๋ฃจ๊ณ ์๋ค๊ณ ๊ฒ์
- Alternative Hypothesis : ๋ชจ์ง๋จ์ด ์ ๊ท๋ถํฌ๋ฅผ ์ด๋ฃจ๊ณ ์์ง ์๋ค๊ณ ๊ฒ์
- ๊ฒ์ ๋ฐฉ๋ฒ
- Shapiro-Wilk ๊ฒ์ : ์ํ๋ณธ์ ํ๊ท ์ ํ์ฉํ ๊ฒ์ ์ ์ํ ๋ชจ์ง๋จ ์ ๊ท์ฑ ๊ฒ์ ์ ์ ํฉ
- Kolmogorov-Smirnov ๊ฒ์ : ์ํ๋ณธ์ ํ๊ท ์ ํ์ฉํ ๊ฒ์ ์ ์ํ ๋ชจ์ง๋จ ์ ๊ท์ฑ ๊ฒ์ ์ ์ ํฉ
- ๋น๋ชจ์์ ๋ฐฉ๋ฒ๋ก
: ๋น๋ชจ์์ ๋ฐฉ๋ฒ์ ๊ฒ์ ๋ ฅ์ด ๋ค์ ๋จ์ด์ง๊ณ , ํฌ๊ธฐ์ ์ฐจ์ด๋ฅผ ๋ณด์ฌ์ฃผ์ง ๋ชปํ๋ ๋์ ์ ํ๋ณธ์๊ฐ ์์ ๊ฒฝ์ฐ์ด๊ฑฐ๋ ์์ ์ฒ๋์ธ ๊ฒฝ์ฐ๋ฅผ ๋น๋กฏํ์ฌ ์ซ์๋ก ๋์ด ์๋ ๋ชจ๋ ๊ฒฝ์ฐ์ ์ ์ฉ์ ํ ์ ์๋ ์ฅ์ ์ด ์๋ค.
- KNN, Random forest, Decision Tree
- ๋ถํธ ๊ฒ์ (sign test): ๋ถํฌ์ ์ค์๊ฐ์ ๋ํ์ฌ ๊ฒ์ ํ๋ ๊ธฐ๋ฒ์ผ๋ก, ํ๋ณธ์๋ฃ๋ณด๋ค ํฐ ๊ฒ์ + ์์ ๊ฒ์ - ๋ฅผ ๋ถ์ฌํ์ฌ ๊ฐ์๋ฅผ ๋น๊ต
- ๋ฐ(run) ๊ฒ์ : ์ด๋ค ํจํด์ด๋ ๊ฒฝํฅ์ด ์์ด ๋๋คํ๊ฒ ๊ตฌ์ฑ๋์๋ค๋ ๊ท๋ฌด๊ฐ์ค์ ๊ฒ์ ํ๊ธฐ ์ํ ๋ฐฉ๋ฒ, ํ๋ณธ ๋ฐ์ดํฐ๋ฅผ ์๋ก ๋ฐฐํ์ ์ธ 2๊ฐ์ ๋ฒ์ฃผ๋ก ๋๋์ด ์ ๊ทผ
- Wilcoxon ์์ํฉ ๊ฒ์ (Mann-Whitney ๊ฒ์ ): ๋ ๋ชจ์ง๋จ์ ์ค์๊ฐ์ด ๊ฐ๋ค๋ ๊ท๋ฌด๊ฐ์ค์ ๋ํ์ฌ ๋น๋ชจ์์ ์ผ๋ก ๊ฒ์ ํ๋ ๋ฐฉ๋ฒ์ผ๋ก ๋ ๋ชจ์ง๋จ์ ์๋ก ๋ ๋ฆฝ์ด์ด์ผ ํจ.
- Wilcoxon ๋ถํธ ์๋ ์์ ๊ฒ์ : ๋ ๋ชจ์ง๋จ์ด ๋ ๋ฆฝ์ด ์๋ ์ ์ฌ์ฉ
- Kruskal-Wallis ๊ฒ์ : 3๊ฐ ์ด์์ ๋ชจ์ง๋จ์ ๋น๊ตํ๋๋ฐ ์ฌ์ฉ๋๋ ๋น๋ชจ์ ๊ฒ์
- ๋น๋ชจ์์ ๋ฐฉ๋ฒ - Medical Programmer
- ํ๋ณธ ํฌ๊ธฐ๊ฐ ์์ ๋(n<30)๋ ์ด๋ป๊ฒ ํด์ผ ํ์ฃ ? ์ ๊ท์ฑ ๊ฒ์ ์ ๊ผญ? ์ด๊ฑธ ๋ชจ๋ฅด๋ฉด ๊ถ๊ธ์ฆ์ ์ง์ฅํ
- [ํต๊ณ์ด๋ก ] ๋ชจ์์ ๋ฐฉ๋ฒ vs ๋น๋ชจ์์ ๋ฐฉ๋ฒ
๋ฒ ์ด์ง์์ ํ์ฌ๊น์ง ์ป์ ํ๋ณธ์ ์ ๋ฐ์ดํธ ํ์ฌ ์ฌํํ๋ฅ ์ ๊ณ์ฐํ๋ค. ๋ชจ์๊ฐ ๊ณ ์ ๋์ด ์์ง ์๊ณ ๋ฐ์ดํฐ ์์ง์ ์ํด ๋ฐ๋ ์ ์๋ค๊ณ ์๊ฐํ๋ค. ํ๋ฆฌํํฐ์คํธ๋ ํ์ฌ๊น์ง ์ป์ ํ๋ณธ ์ธ์ ์ป์ ์์ ์ด๊ฑฐ๋ ์ป์ง ๋ชปํ ํ๋ณธ๊น์ง๋ ๋ถ์ํ์ฌ ๋ชจ์๋ฅผ ์ถ์ ํ๋ค. ๋ํ ๋ชจ์๋ ๊ณ ์ ๋์ด ์๋ค๊ณ ์๊ฐํ๋ค.
์์๋ก ๋ถ๋์ด๊ฐ ์ฝ์ ์๊ฐ์ ๋ฆ๋ ์๊ฐ์ด
๊ด์ ์ ๋ฐ๋ฅธ ์ฐจ์ด์ผ ๋ฟ ํต๊ณ์ ์ถ๋ก ์ ์ํด ๋์จ ๋๋ต์ธ ๊ฒ์ ์ฐจ์ด๊ฐ ์๋ค. ํ์ง๋ง ๋ถ๋์ด๊ฐ ์ฝ์์๊ฐ์ ์ ํํ ๋ง์ถฐ์์ ๋ ๋์ ์ ์ฅ ์ฐจ์ด๊ฐ ์๊ธด๋ค.
ํ๋ฆฌํํฐ์คํธ๋ โ๋ถ๋์ด๊ฐ ์ ์๊ฐ์ ๋ง์ถฐ ์ค๋๊ฑด ๊ทธ ํ๋ฅ ์ด 3% ๊ฐ ์ ๋ ์ ๋๋ก ๋๋ฌธ ๊ฒฝ์ฐ๊ธด ํด.โ ๋ฒ ์ด์ง์๋ โ๋ถ๋์ด๊ฐ ์ผ์ฐ ์ฌ ๋๋ ์๊ตฌ๋. ๋ค์์๋ ์ด ๋ ์ฌ๊น?โ
๊ทธ๋ฆฌ๊ณ ๋์๊ฒ ๋ถ๋์ด๊ฐ ๋ค์๋ฒ์๋ ์ฝ์์๊ฐ์ ์ ํํ ๋์ฌ ๊ฒ์ธ์ง ๋ฌผ์ด๋ณธ๋ค๋ฉด ๋๋ต์ ํฌ๊ฒ ๋ฌ๋ผ์ง๋ค.
ํ๋ฆฌํํฐ์คํธ๋ โ๋ถ๋์ด๊ฐ ๋ฐ๋ ๊ฒ์ด๋ผ๊ณ ๋ณด๊ธด ํ๋ค์ด ์ฝ์ ์๊ฐ์ ๋ง์ถฐ ๋์ค๋ ๊ฒ์ ์ผ์ด๋ ์ ์๋ ์ผ์ด์ผโ ๋ฒ ์ด์ง์์ โ๋ถ๋์ด๊ฐ ๋ฆ๊ฒ ๋์ฌ ํ๋ฅ ์ ์ฌ์ ํ ๋์ง๋ง ์ฝ์ ์๊ฐ์ ๋ง์ถฐ ๋์ฌ ํ๋ฅ ์ด ์ฌ๋ผ๊ฐ ๊ฒ๋ ์ฌ์ค์ด์ผโ
ํ๋ฆฌํํฐ์คํธ๋ ์๋กญ๊ฒ ์ป์ ๊ด์ธก๊ฐ์ด ์ด๋ฏธ ๋ด๋ฆฐ ๊ฒฐ๋ก ์ ๋ถํฉํ๋์ง๋ง์ ํ์ธํ ๋ฟ์ด์ง๋ง ๋ฒ ์ด์ง์์ ๊ธฐ์กด์ ๊ฐ๊ณ ์๋ ๊ฒฐ๋ก ์ ์ฆ์ ์ ๋ฐ์ดํธํจ์ผ๋ก์จ ์๋ก์ด ์ฌํ๋ถํฌ๋ฅผ ๊ตฌํ ๊ฒ์ผ๋ก ๋ณผ ์ ์๋ค.
-
๋จธ์ ๋ฌ๋ ๋ถ์ผ์์ ๋ฒ ์ด์ง์ ๋ฐฉ๋ฒ๋ก ์ด ํฌ๊ฒ ํ์ฉ๋ ์ด์
- ๋ฒ ์ด์ฆ๋ฃฐ์ ๊ณ์ฐํ๊ธฐ ์ํ ์กฐ๊ฑด โ ์ด์ ์๋ ๊ณ์ฐํ๊ธฐ ๊น๋ค๋ก์
- ๊ฐ๋ฅ๋: ํ๋ผ๋ฏธํฐ(
$\theta$ )๋ฅผ ๋ฐฐ๊ฒฝ์ผ๋ก ํ๋ ๊ด์ธก๊ฒฐ๊ณผ($D$ )์ ํ๋ฅ - ์ฌ์ ํ๋ฅ : ํ๋ผ๋ฏธํฐ(
$\theta$ )์ ํ๋ฅ - ์ ๊ทํ์์ : D ์์ฒด์ ํ๋ฅ
- ๊ฐ๋ฅ๋: ํ๋ผ๋ฏธํฐ(
โ ์ปดํจํ ๊ธฐ์ ๋ฐ ์๊ณ ๋ฆฌ์ฆ์ ๋ฐ๋ฌ๋ก ๋น ๋ฅธ ์๋๋ก ๊ณ์ฐํ ์ ์๊ฒ ๋๋ฉด์ ๋ณดํธ์ ์ผ๋ก ์ ์ฉ
- ๋ฒ ์ด์ฆ๋ฃฐ์ ๊ณ์ฐํ๊ธฐ ์ํ ์กฐ๊ฑด โ ์ด์ ์๋ ๊ณ์ฐํ๊ธฐ ๊น๋ค๋ก์
-
๋น๋๋ก
์ฅ์ : ๋์ฉ๋์ ๋ฐ์ดํฐ๋ง ์ฒ๋ฆฌํ ์ ์๋ค๋ฉด ๊ณ์ฐ์ด ๋ณต์กํ์ง ์์์ ์ฝ๊ฒ ์ฒ๋ฆฌ ๊ฐ๋ฅ
๋จ์ : ๋ฐ์ดํฐ ๋ถ์ , ๊ฒฐ์ธก์น ์กด์ฌ, ์์๋ผ์ด์ด ํฌํจ ๋ฑ ๋ฐ์ดํฐ๊ฐ ๋ถํ์คํ ๊ฒฝ์ฐ ๊ฒฐ๊ณผ๋ฌผ์ ์ง์ด ๋ฎ์์ง
-
๋ฒ ์ด์ง์
์ฅ์ : ํ๋ฅ ๋ชจ๋ธ์ด ๋ช ํํ ์ค์ ๋์ด ์๋ค๋ฉด ๋ฒ ์ด์ง์์ผ๋ก ๊ฒ์ฆ๋ ๊ฐ์ค์ ํ๋น์ฑ์ด ๋์ ๊ฒ์ผ๋ก ๊ณ ๋ ค๋จ
๋จ์ : ์ฌ์ ํ๋ฅ ์ ๋ํ ๋ชจ๋ธ๋ง์ด ์ด๋ ต๊ณ ๋ชจ๋ธ๋ง์ ๋ฐ๋ผ ๊ฒฐ๊ณผ๊ฐ ํฌ๊ฒ ๋ฌ๋ผ์ง ์ ์์
- Frequentist and Bayesian
- ๋น๋๋ก ๊ณผ ๋ฒ ์ด์ง์ ๋ฐฉ๋ฒ๋ก ๋น๊ต
- 3์ฃผ์ฐจ_#2. ๋ฒ ์ด์ง์(Bayesian)๊ณผ ํ๋ฆฌํํฐ์คํธ(Frequentist) ๊ฐ์ ์ ์ฅ ์ฐจ์ด
- ๋ฒ ์ด์ง์ ํจ๋ฌ๋ค์
๐ก ๋๋ฆฝ๊ฐ์ค์ด ์ฌ์ค์ผ ๋, ์ด๋ฅผ ์ฌ์ค๋ก์ ๊ฒฐ์ ํ ํ๋ฅ = ๊ท๋ฌด๊ฐ์ค์ ์ฌ๋ฐ๋ฅด๊ฒ ๊ธฐ๊ฐํ๋ ํ๋ฅ
๊ฒ์ ๋ ฅ์ด 90%๋ผ๊ณ ํ๋ฉด, ๋๋ฆฝ๊ฐ์ค์ด ์ฌ์ค์์๋ ๋ถ๊ตฌํ๊ณ ย ๊ท๋ฌด๊ฐ์ค์ ์ฑํํ ํ๋ฅ (2์ข ์ค๋ฅ, ฮฒ error)์ ํ๋ฅ ์ 10%์ด๋ค. ๊ฒ์ ๋ ฅ์ด ์ข์์ง๊ฒ ๋๋ฉด, 2์ข ์ค๋ฅ(ฮฒ error)๋ฅผ ๋ฒํ ํ๋ฅ ์ ์์์ง๊ฒ ๋๋ค. ๋ฐ๋ผ์ ๊ฒ์ ๋ ฅ์ 1-ฮฒ๊ณผ ๊ฐ๋ค.
๊ฒ์ ๋ ฅ์ ๋์ด๊ธฐ ์ํ ๋ฐฉ๋ฒ
-
์ ์ ์์ค(1์ข ์ค๋ฅ)์ ๋ํ๋ค. == ์ ๋ขฐ ์์ค์ ๋ฎ์ถ๋ค.
-
ํ๋ณธ์ ํฌ๊ธฐ๋ฅผ ํค์ด๋ค.
-
ํจ๊ณผ ํฌ๊ธฐ(๋ ๋ชจ์ง๋จ์ ์ฐจ์ด)๋ฅผ ํค์ด๋ค.
ํจ๊ณผ ํฌ๊ธฐ๋?
์ฐ๊ตฌ๋๋ ํ์์ด ์ค์ ๋ก ๋ชจ์ง๋จ์ ์กด์ฌํ๋ ์ ๋
์ง๋จ ์ฐจ์ด ๊ฒ์ฆ ์, ์ง๋จ ํ๊ท ๊ฐ๋ค์ ์ฐจ์ด๋ฅผ ํ์คํธ์ฐจ๋ก ๋๋ ์ฐจ์ด๊ฐ ํด์๋ก ํจ๊ณผ ํฌ๊ธฐ๋ ํฌ๊ฒ ๋ํ๋จ
1์ข ์ค๋ฅ, 2์ข ์ค๋ฅ, ๊ฒ์ฆ๋ ฅ๊ณผ์ ๊ด๊ณ
์ผ์ชฝ์ ๋ถํฌ๋ ๊ท๋ฌด๊ฐ์ค์ ํ๋ฅ ๋ถํฌ์ด๊ณ ์ค๋ฅธ์ชฝ์ ํ๋ณธ์ ํตํด ๊ตฌํ ๋๋ฆฝ๊ฐ์ค์ ํ๋ฅ ๋ถํฌ์ด๋ค.
Any mean์ ๊ธฐ์ค์ผ๋ก ์ค๋ฅธ์ชฝ์ ๋๋ฆฝ๊ฐ์ค์ ์ฑํํ๊ณ , ์ผ์ชฝ์ ๊ท๋ฌด๊ฐ์ค์ ์ฑํํ๋ค.
- 1์ข ์ค๋ฅ: ๊ท๋ฌด๊ฐ์ค์ด ๋ง๋๋ฐ ํ๋ฆฌ๋ค๊ณ ํจ (๋๋ฆฝ๊ฐ์ค ์ฑํ)
- 2์ข ์ค๋ฅ: ๊ท๋ฌด๊ฐ์ค์ด ํ๋ฆฐ๋ฐ ๋ง๋ค๊ณ ํจ (๊ท๋ฌด๊ฐ์ค ์ฑํ)
- ๊ฒ์ ๋ ฅ: ๊ท๋ฌด๊ฐ์ค์ด ํ๋ ธ์ ๋, ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐ์ํฌ ํ๋ฅ
- ์ ์์์ค (1์ข ์ค๋ฅ):์ ์์์ค์ด ์ปค์ง์๋ก (5%์์ 10%๋ก), ์ฆ ์ ๋ขฐ๋๊ฐ ๋๋น ์ง์๋ก ๊ฒ์ ๋ ฅ์ ์ข์์ง๋ค.
- ํ์คํธ์ฐจ๊ฐ ์ปค์ง๋ฉด ๊ฒ์ ๋ ฅ์ ๋๋น ์ง๋ค.
- ๋ ๋ชจ์ง๋จ ๊ฐ์ ์ฐจ์ด๊ฐ ์์์๋ก ๊ฒ์ ๋ ฅ์ ๋๋น ์ง๋ค.
- ํ๋ณธ์ ํฌ๊ธฐ๊ฐ ํด์๋ก ๊ฒ์ ๋ ฅ์ ์ฆ๊ฐํ๋ค.
- ๊ฒ์ ๋ ฅ์ด๋?
- ๊ฒ์ ๋ ฅ๊ณผ ๊ฒ์ ๋ ฅ ํจ์์ ๋ํด
- 1์ข ์ค๋ฅ, 2์ข ์ค๋ฅ, ๊ฒ์ฆ๋ ฅ
- Statistical Power, Clearly Explained!!!
- Power Analysis, Clearly Explained!!!
- ์ํค๋ฐฑ๊ณผ/๊ฒ์ ๋ ฅ
๐ก ๊ฒฐ์ธก์น(๊ฒฐ์ธก๊ฐ, Missing value)๊ฐ ๋ฐ์ํ ์์ธ์ ๋ฌด์์์ฑ๊ณผ ๊ฒฐ์ธก์น์ ๋ณ์์์ ์๊ด๊ด๊ณ ์ ๋์ ๋ฐ๋ผ ๊ฒฐ์ธก์น๋ฅผ ๋์ฒด, ์ญ์ ์ฌ๋ถ๋ฅผ ํ๋จํ๋ค.
๊ฒฐ์ธก์น๋ฅผ ์ญ์ ํ ๋ ๊ฒฐ์ธก์ด ์ผ์ด๋ ๋ณ์๋ฅผ ๋ฒ๋ฆด ๊ฒ์ธ์ง, ๊ฐ์ฒด๋ฅผ ๋ฒ๋ฆด ๊ฒ์ธ์ง ๋ฑ์ ๊ฒฐ์ธก๊ณผ ๋ณ์์ ์๊ด๊ด๊ณ๋ฅผ ํตํด ํ๋จํด์ผ ํ๋ค.
๋ํ ๊ฒฐ์ธก์น๋ฅผ ๋์ฒดํ์ฌ ์ฑ์ด๋ค๋ฉด ํ๊ท ๊ฐ, ์ค์๊ฐ, ์์ธก๊ฐ ๋ฑ ์ ์ ํ ๊ฐ์ผ๋ก ์ฑ์์ค์ผ ํ๋ค.
๊ฒฐ์ธก์น๋ฅผ ์ฑ์ฐ์ง ์๋๋ค๋ฉด ์ฅ์ ์ผ๋ก๋ ๊ฒฐ์ธก์น ์ ๊ฑฐ๋ฅผ ํตํด์ ๊ฐ๊ฑดํ ๋ชจ๋ธ ํ์ต์ด ๊ฐ๋ฅํ๋ค๋ ์ ์ด๋ค. ํ์ง๋ง ๋จ์ ์ผ๋ก๋ ์ ๋ณด์ ๋ถ์กฑ์ด ๋ฐ์ํ ์ ์๊ณ , ์ด๋ก ์ธํด ์คํ๋ ค ๋์ ์ฑ๋ฅ์ ๊ฐ์ง ๋ชจ๋ธ์ ์ป๊ฒ ๋ ์๋ ์๋ค.
- ๊ฒฐ์ธก์น ๋ฐ์ ์์ธ
- ์์ ๋ฌด์์ ๊ฒฐ์ธก (MCAR: Missing completely at random)ย : ๊ฒฐ์ธก์น์ ๋ฐ์์ด ๋ค๋ฅธ ๋ณ์๋ค๊ณผ ์๋ฌด๋ฐ ์๊ด์ด ์๋ ๊ฒฝ์ฐ. (์ ์ฐ์ค๋ฅ, ์ฌ๋์ ์ค์ ๋ฑ์ผ๋ก ๋ฐ์)
- ๋ฌด์์ ๊ฒฐ์ธก (MAR: Missing at random)ย : ๊ฒฐ์ธก์น์ ๋ฐ์์ด ํน์ ๋ณ์์ ๊ด๋ จ๋์ด ์ผ์ด๋์ง๋ง, ๊ทธ ๋ณ์์ ๊ฒฐ๊ณผ์๋ ๊ด๋ จ์ด ์๋ ๊ฒฝ์ฐ (ex. ์ฐ์ธ์ฆ์ ๋ํ ์ค๋ฌธ์กฐ์ฌ๋ฅผ ํ ๋ ๋จ์ฑ์ ์๋ต์ ๊บผ๋ฆฌ๋(์๋ต ๋๋ฝ) ๊ฒฝํฅ์ด ์์ง๋ง, ๊ทธ๊ฒ์ด ์ฐ์ธ์ฆ ์ฌ๋ถ์๋ ๊ด๋ จ์ด ์์)
- ๋น๋ฌด์์ ๊ฒฐ์ธก (MNAR: Missing not at random)ย : ๊ฒฐ์ธก์น์ ๋ฐ์์ด ๋ค๋ฅธ ๋ณ์์ ๊ด๋ จ ์๋ ๊ฒฝ์ฐ (ex. ์์ ์์์ ๋จ์ฑ์ ์ฐ์ธ์ฆ ์ค๋ฌธ์กฐ์ฌ ์ฐธ์ฌ์จ(์๋ต๋ฅ )์ด ์ฐ์ธ์ฆ์ ์ ๋์ ๊ด๋ จ์๋ ๊ฒฝ์ฐ)
- ๊ฒฐ์ธก์น ์ฒ๋ฆฌ ๋ฐฉ๋ฒ
- ๋์ฒด
- ๋จ์ ๋์ฒด(Single Imputation)
- ํ๊ท ๊ฐ, ์ค์๊ฐ ๋์ฒด: Mean, Median, Mode ๋ฑ์ผ๋ก ๋์ฒด(์ฐ์ํ)
- ์ต๋น๊ฐ์ผ๋ก ์ฑ์ฐ๊ธฐ(์นดํ ๊ณ ๋ฆฌํ)
- ๊ฐ์ฅ ๋ง์ง๋ง์ ํ์ธํ ๊ฐ์ผ๋ก ์ฑ์ฐ๊ธฐ(์๊ณ์ด)
- ํ๊ท ๋์ฒด: ๊ด์ธก๋ ๋ฐ์ดํฐ๋ก 1์ฐจ ํ๊ท์ ๊ณผ ML ์๊ณ ๋ฆฌ์ฆ ๋ฑ์ ์์ธก ๋ชจ๋ธ์ ํ์ฉํ์ฌ ์์ธก๊ฐ์ ๊ตฌํ์ฌ ๊ฒฐ์ธก๊ฐ ๋์ฒด(KNN)
- ํ๋ฅ ๋ชจํ ๊ฐ์ผ๋ก ๋์ฒด: ๊ด์ธก๋ ๊ฐ๋ค์ ํ๊ท ๊ณผ ํ์คํธ์ฐจ๋ฅผ ๊ณ์ฐํ์ฌ ํ๋ฅ ๋ชจํ์ ๋ฌด์์ ๊ฒฐ๊ณผ๋ฅผ ํตํด์ ๊ฒฐ์ธก๊ฐ์ ๋์ฒด
- Hot deck: ์ฐ๊ตฌ์ค์ธ ์๋ฃ์์ ํ๋ณธ์ ๋ฐํ์ผ๋ก ๋น์ทํ ๊ท์น์ ์ฐพ์ ๊ฒฐ์ธก์น๋ฅผ ๋์ฒด
- Cold Deck: ์ธ๋ถ ์ถ์ฒ์์ ๋น์ทํ ์ฐ๊ตฌ๋ฅผ ์ฐพ์ ์ฑํฅ์ ์ฐพ๊ณ ๊ฒฐ์ธก์น๋ฅผ ๋์ฒด
- Substitution: ํ์ฌ sample์ ํฌํจ๋์ง ์์ ๋ค๋ฅธ sample์ ๊ฐ์ผ๋ก ๊ฒฐ์ธก์น๋ฅผ ๋์ฒด
- Datawig ํ์ด์ฌ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ํตํด ๋์ฒด
- ๋ค์ค ๋์ฒด(Multiple Imputation)
- Simple Imputation์ ์ฌ๋ฌ๋ฒ ๋ฐ๋ณตํด์ ๊ฒฐ์ธก๊ฐ์ ๊ณ์ฐํ๊ณ ๊ฒฐ์ธก๊ฐ์ ํ๋ณธ์ ๋ง๋ฆ. ๋ง๋ค์ด์ง ํ๋ณธ์ ๋ถํฌ๋ฅผ ํตํด ํ๋ฅ ์ ์ผ๋ก ๊ฒฐ์ธก๊ฐ์ ๋์ฒด
- ๋จ์ ๋์ฒด(Single Imputation)
- ์ญ์
- ๋ณ์ ์ ๊ฑฐ
- ๋ณ์ ์ ๊ฑฐ๋ฅผ ๊ณ ๋ คํ ๋ ์ค์ํ ๊ฒ์ย ๋ณ์์ ์ค์๋์ย ๋ค๋ฅธ ๋ณ์์์ ๊ด๊ณ์ฑ์ด๋ค.ย 1) ์๋์ ์ผ๋ก ์ค์๋๊ฐ ๋ฎ๋ค๊ณ ์๊ฐ๋๊ฑฐ๋ย 2) ํด๋น ๋ณ์์ ์๊ด๊ด๊ณ๊ฐ ๋์, ๊ฐ์ด ์จ์ ํ ๋ณด์กด๋ ๋ค๋ฅธ ๋ณ์๊ฐ ์๋ค๋ฉด ๋ถ์์์ ๊ฒฐ์ธก๊ฐ์ด ํฌํจ๋ ๋ณ์๋ฅผ ์ ์ธํ๋ ๋ฐฉ๋ฒ์ ๊ณ ๋ คํด ๋ณผ ์ ์๋ค. ์ข๋ ์ฌ์ด ๊ธฐ์ค์ย 3) ๋ณ์์ ๊ฒฐ์ธก๊ฐ์ด ์ผ๋ง๋ ํฌํจ๋์๋์ง ์ฌ๋ถ๋ค. ๊ฒฐ์ธก๊ฐ์ด ์ฐจ์งํ๋ ๋น์ค์ด ์ ๋ฐ์ ๋์ด ๊ฐ๋ค๋ฉด ํฌ๊ฒ ๊ณ ๋ฏผํ ํ์์์ด ๋ณ์๋ฅผ ์ญ์ ํ๋ ๊ฒ์ ์ถ์ฒํ๋ค.ย (๋ณ์์ ๊ฒฐ์ธก๊ฐ์ด ๋ง๋ค๋ ์๋ฏธ๋ ๋๊ฐ์ ๊ฒฝ์ฐ ์ ๋๋ก ๊ด๋ฆฌ๋๋ ๋ณ์๊ฐ ์๋๊ฑฐ๋ ์ค์๋๊ฐ ๋ฎ์ ๊ฐ๋ฅ์ฑ์ด ๋๊ธฐ ๋๋ฌธ)
- ๊ฐ์ฒด ์ ๊ฑฐ(Listwise Deletion)
- ํน์ ํ์ ํต์งธ๋ก ์ญ์
- ๊ฐ์ฒด๋ฅผ ์ ๊ฑฐํ๋ ๊ฒฝ์ฐ๋ ๊ธฐ์ค์ด ์กฐ๊ธ ๋ค๋ฅด๋ค. ๊ฐ์ฒด(ํ๋ณธ) ์์ ๋นํดย ๊ฒฐ์ธก์น๋ฅผ ๊ฐ์ง ๊ฐ์ฒด์ ์๋ ๋น์ค์ด ํ์ฐํ ์ ์ ๊ฒฝ์ฐ ์ ๊ฑฐ๋ฅผ ๊ณ ๋ คํด ๋ณผ ์๋ ์๋ค.ย (์ด ๊ธฐ์ค์ ๋ณดํต 10% ๋ฏธ๋ง ์์ค์์ ๋ ผ์๊ฐ ์ด๋ฃจ์ด์ง๊ณ ์์ต๋๋ค.)
- Sample์ ์๊ฐ ์ ๋ค๋ฉด ํ๋ณธ ์ถ์๋ก ์ธํ ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์๋ ์์
- ํ์ ์ ๊ฑฐ(Pairwise Deletion)
- ํน์ ๊ฐ์ ์ญ์
- ๋ณ์ ์ ๊ฑฐ
- ๋์ฒด
- 7 Ways to Handle Missing Values in Machine Learning
- ๊ฒฐ์ธก๊ฐ ๊ฒฐ์ธก์น ์ข ๋ฅ ๋ฐ ๋์ฒด (MCAR MAR MNAR) [๋น ๊ณต๋จ! ํต๊ณ ๊ฐ์ด ๊ณต๋ถํด์] - ๋น ๊ณต๋จ
- ํด๋ฌ์คํฐ๋ง ๋ถ์ - (2) ๊ฒฐ์ธก๊ฐ
- Roles of Imputation Methods for Filling the Missing Values: A Review
๐ก ์์๋ผ์ด์ด(Outlier)๋ ๋ฐ์ดํฐ ๋ถํฌ๋ฅผ ๋ณด์์ ๋ ๋น์ ์์ ์ธ ์์น, ๋ถํฌ๋ฅผ ๊ฐ์ง๊ณ ์๋ ๊ฐ์ ๋ปํ๋ค.
์์๋ผ์ด์ด ํ์ง ๋ฐฉ๋ฒ์ ํฌ๊ฒ ํต๊ณ์ ๊ธฐ๋ฒ, ์๊ฐํ, ๋จธ์ ๋ฌ๋/์๊ณ ๋ฆฌ์ฆ/๋ชจ๋ธ๋ง ๋ฑ์ ๋ถ์๊ธฐ๋ฒ ํ์ฉ์ผ๋ก 3๊ฐ์ง๋ก ๋๋ ์ ์๊ณ ํ์ง ๋ฐฉ๋ฒ์ ๋ฐ๋ผ ์ด์์น ๊ธฐ์ค ๋ํ ๋ค๋ฅด๋ค.์ด์์น๋ฅผ ํ์งํ๋ ๋ฐฉ๋ฒ์๋ ํ์คํธ์ฐจ(ESD), IQR(Interquantile Range), Isolation Forest ๋ฑ์ด ์๋ค.
- ํต๊ณ์ ๊ธฐ๋ฒ
- ESD(Estreme, Studentized Deviation)
- ๋ฐ์ดํฐ๊ฐ ์ ๊ท๋ถํฌ๋ฅผ ๋ฐ๋ฅธ๋ค๊ณ ํ์ ๋ ํ์คํธ์ฐจ๋ฅผ ์ด์ฉํด ์ด์์น๋ฅผ ํ์งํ๋ ๋ฐฉ๋ฒ์ด๋ค.
- ํ๊ท ์์ ์ข์ฐ๋ก
$3\sigma$ ๋ณด๋ค ๋ ๋จ์ด์ง ๋ฒ์๋ฅผ ์ด์์น๋ก ๋ณธ๋ค - Z-score (ํ์คํธ์ฐจ, Standard Score, Sigma, Standard Deviation) ๋ผ๊ณ ๋ ๋ถ๋ฆฐ๋ค.
- ESD(Estreme, Studentized Deviation)
def determine_outlier_thresholds_std(dataframe, col_name):
upper_boundary = dataframe[col_name].mean() + 3 * dataframe[col_name].std()
lower_boundary = dataframe[col_name].mean() - 3 * dataframe[col_name].std()
return lower_boundary, upper_boundary- ๊ธฐํํ๊ท ํ์ฉ
- ๊ธฐํํ๊ท ์์ ์ข์ฐ๋ก
$2.5\sigma$ ๋งํผ ๋ณด๋ค ๋ ๋จ์ด์ง ๋ฒ์๋ฅผ ์ด์์น๋ก ๋ณธ๋ค.
- ๊ธฐํํ๊ท ์์ ์ข์ฐ๋ก
- ์ฌ๋ถ์ ํธ์ฐจ(IQR(Interquartile Range) with Box plots)
- ๋ฐ์คํ๋กฏ์ ํ ๋๋ก ๊ธฐ์ค์ ์ ํ๊ฒ ๋๊ณ (Q1 โ 1.5 * IQR)๋ณด๋ค ์๊ฑฐ๋ย (Q3 + 1.5 * IQR)๋ณด๋ค ํฐ ๋ฐ์ดํฐ๋ ์ด์์น๋ก ์ฒ๋ฆฌํ๋ค.
- ๋ถํฌ๊ฐ ์น์ฐ์น ๊ฒฝ์ฐ์๋ ์ ์๋ํ๋ค.
- IQR ์ Q3(75%) - Q1(25%) ์ฌ์ด์ ์กด์ฌํ๋ ๋ฐ์ดํฐ๋ฅผ ์๋ฏธํ๋ค.
- outlier โฅ Q3 + 1.5*IQR
- outlier โค Q1 - 1.5*IQR
def determine_outlier_thresholds_iqr(dataframe, col_name, th1=0.25, th3=0.75):
quartile1 = dataframe[col_name].quantile(th1)
quartile3 = dataframe[col_name].quantile(th3)
iqr = quartile3 - quartile1
upper_limit = quartile3 + 1.5 * iqr
lower_limit = quartile1 - 1.5 * iqr
return lower_limit, upper_limit- ์๊ฐํ๋ฅผ ํ์ฉํ์ฌ ๋ถํฌ๋ฅผ ๋์ผ๋ก ๋ณด๊ณ ์ด์์น ํ๋ณ
- ํ์คํ ๊ทธ๋จ
- ํ๋ฅ ๋ฐ๋ํจ์
- Box Plot
- ๋จธ์ ๋ฌ๋, ์๊ณ ๋ฆฌ์ฆ ๋ชจ๋ธ๋ง ๋ฑ ๋ถ์๊ธฐ๋ฒ ํ์ฉ
- KNN
- Mahalanobis Distance
- LOF(Local Outlier Factor)
- iForest(Isolation Forest)
- ๋ฐ์ดํฐ์ ์ย ๊ฒฐ์ ํธ๋ฆฌ ํํ๋ก ํํํด ์ ์ ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฆฌํ๊ธฐ ์ํด์๋ ํธ๋ฆฌ์ ๊น์ด๊ฐ ๊น์ด์ง๊ณ ๋ฐ๋๋ก ์ด์์น๋ ํธ๋ฆฌ์ ์๋จ์์ ๋ถ๋ฆฌํ ์ ์๋ค๋ ๊ฐ๋ ์ ์ด์ฉํ๋ค. ์ฆ, ๋ฐ์ดํฐ์์ย ์ด์์น๋ฅผ ๋ถ๋ฆฌํ๋ ๊ฒ์ด ๋ ์ฝ๋ค๋ ๊ฒ์ด๋ค.
- Removing Outliers. Understanding How and What behind the Magic.
- ์ด์๊ฐ ์ด์์น Outlier ํ์ง [๋น ๊ณต๋จ! ํต๊ณ ๊ฐ์ด ๊ณต๋ถํด์] - ๋น ๊ณต๋จ
- ๋ฐ์ดํฐ ์ด์์น(Outlier)์ ๊ธฐ์ค์ ๋ฌด์์ผ๊น?
- ์ด์์น(Outlier) ํ๋จ ๊ธฐ์ค
๐ก ๋ชจ์ง๋จ์ ํฌ๊ธฐ(์ ํ, ๋ฌดํ), Z score, ์ค์ฐจํ๊ณ, ํ๋ณธ๋น์จ ๋ฑ์ ์ด์ฉํ์ฌ ํ๋ณธ ํฌ๊ธฐ ๊ณ์ฐ ๊ฐ๋ฅ
- ์ ์ ํ ํ๋ณธ ํฌ๊ธฐ ๊ณ์ฐ์ ์ํด ํ์ํ ๊ฐ for Statistical Power
- ๋ชฉํํ๋ Power
- p value(threshold for significance)
- effectsize(ํจ๊ณผ ํฌ๊ธฐ)
- ํ๋ณธ ํฌ๊ธฐ ๋ณ์ ๊ณ ๋ คํ๊ธฐ
- ๋ชจ์ง๋จ ํฌ๊ธฐ (N: ๋ชจ์ง๋จ์ ํฌ๊ธฐ, e: ์๊ตฌ์ ๋ฐ๋, P: ๋ชจ์ง๋จ์ ๋น์จ, k: ์ ๋ขฐ์์ค)
- ์ ํ๋ชจ์ง๋จ์ผ ๋ ํ๋ณธ ํฌ๊ธฐ n์
$$n \ge \dfrac {N}{(\dfrac e k)^2 \dfrac {N-1}{P(1-P)}+1}$$ - ๋ฌดํ๋ชจ์ง๋จ์ผ ๋ ํ๋ณธ ํฌ๊ธฐ n์
$$n \ge \dfrac {1}{(\dfrac e k)^2 \dfrac {1}{P(1-P)}}$$ $$n = Z^2 \dfrac {\sigma^2}{d^2}, (Z:์ ๋ขฐ์์ค,\ \sigma: ํ์คํธ์ฐจ,\ d:ํ์ฉ์ค์ฐจ)$$
- ์ ํ๋ชจ์ง๋จ์ผ ๋ ํ๋ณธ ํฌ๊ธฐ n์
- ์ค์ฐจ ๋ฒ์
- ์ ๋ขฐ๋
- ํ์คํธ์ฐจ
- ๋ชจ์ง๋จ ํฌ๊ธฐ (N: ๋ชจ์ง๋จ์ ํฌ๊ธฐ, e: ์๊ตฌ์ ๋ฐ๋, P: ๋ชจ์ง๋จ์ ๋น์จ, k: ์ ๋ขฐ์์ค)
- ํ๋ณธ ํฌ๊ธฐ ๊ณ์ฐํ๊ธฐ
- Z score ์ฐพ๊ธฐ
- ํ๋ณธ ํฌ๊ธฐ ์ ์ฌ์ฉํ๊ธฐ
- Power Analysis, Clearly Explained!!!
- ์ฌ๋ฐ๋ฅธ ํ๋ณธ ํฌ๊ธฐ๋ฅผ ์ค์ ํ๋ ๋ฐฉ๋ฒ
- [R] ์ถ์ (estimation) + (ํ๋ณธํฌ๊ธฐ ๊ฒฐ์ )
- ๋ชจํ๊ท ์ ์ ๋ขฐ๊ตฌ๊ฐ ํ๋ณธํฌ๊ธฐ์ ๊ฒฐ์
- ์ํ ํฌ๊ธฐ ๊ณ์ฐ๊ธฐ
๐ก ๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ ์ฆ๊ฐ ์ํค๊ฑฐ๋ ์์ ์ํค๋ ๋ฑ์ ๋ชจ๋ธ ๋ณ๊ฒฝ, ์ค๋ฅํ๊ฐ์ ์ป์ ์ง์์ ๊ธฐ๋ฐ์ผ๋ก ์ ๋ ฅ ํน์ฑ ์์ , ์ ๊ทํ ์ถ์ ๋ฐ ์ ๊ฑฐ, ํ์ต ๋ฐ์ดํฐ ์ถ๊ฐ ๋ฑ์ ํตํด Bias๋ฅผ ํต์ ํ ์ ์๋ค.
- Bias ์ข ๋ฅ ๋ฐ ํต์ ๋ฐฉ๋ฒ
- ๋ฐ์ดํฐ ์์ง ๊ณผ์ ์์ ๋ฐ์ํ bias
: ๋ฐ์ดํฐ ์์ง ๊ณผ์ ์์ ํด๋น ๋๋ฉ์ธ ์ง์์ ๊ฐ์ง๊ณ ์ ํฉํ feature๋ฅผ ์์งํด์ผ ํจ - ์ ์ฒ๋ฆฌ ๊ณผ์ ์์ ๋ฐ์ํ bias
: ๋ฐ์ดํฐ ๋ณ ์ ํฉํ ์ ์ฒ๋ฆฌ ๊ณผ์ ์ ์งํํด์ผ ํจ(Data Cleaning, ๋น์๋ณํ) - Feature Engineering bias
: ๋ฐ์ดํฐ ์ ๊ทํ๋ฅผ ํตํด feature๊ฐ scale์ด ์กฐ์ ๋์ด์ผ ํจ - Data selection bias
: train/test ๋ฐ์ดํฐ ์ ๋ถํ ๊ณผ์ ์์ ์ ์ ํ๊ฒ ๋๋์ด์ผ ํจ - Model Training bias
: ๋ชจ๋ธ ํน์ฑ์ ๊ณ ๋ คํ์ฌ ๋ฐ์ดํฐ ์ ๊ณผ ๊ถํฉ์ด ๋ง๋ ๋ชจ๋ธ์ ์ฌ์ฉํด์ผ ํจ - Model Validation bias
: ๋ค์ํ metric์ ๊ณ ๋ คํด์ ์ฑ๋ฅ์ ํ๊ฐํด์ผ ํจ(์ ํ๋ ๋ง์ผ๋ก๋ ๋ฌธ์ ๊ฐ ์์ ์ ์์)
-
Bias์ Variance์ ๊ด๊ณ
- Low Bias & Low Varianceย
: ์์ธก๊ฐ๋ค์ด ์ ๋ต ๊ทผ๋ฐฉ์ ๋ถํฌ๋์ด ์๊ณ (bias๊ฐ ๋ฎ์) ์์ธก๊ฐ๋ค์ด ์๋ก ๋ชฐ๋ ค ์์ต๋๋ค. (variance๊ฐ ๋ฎ์) - Low Bias & High Variance
: ์์ธก๊ฐ๋ค์ด ์ ๋ต ๊ทผ๋ฐฉ์ ๋ถํฌ๋์ด ์์ผ๋ (bias๊ฐ ๋ฎ์) ์์ธก๊ฐ๋ค์ด ์๋ก ํฉ์ด์ ธ ์์ต๋๋ค. (variance๊ฐ ๋์) - High Bias & Low Variance
: ์์ธก๊ฐ๋ค์ด ์ ๋ต์์ ๋จ์ด์ ธ ์๊ณ (bias๊ฐ ๋์) ์์ธก๊ฐ๋ค์ด ์๋ก ๋ชฐ๋ ค ์์ต๋๋ค. (variance๊ฐ ๋ฎ์) - High Bias & High Varianceย
: ์์ธก๊ฐ๋ค์ด ์ ๋ต์์ ๋จ์ด์ ธ ์๊ณ (bias๊ฐ ๋์) ์์ธก๊ฐ๋ค์ด ์๋ก ํฉ์ด์ ธ ์์ต๋๋ค. (variance๊ฐ ๋์)
- Low Bias & Low Varianceย
- How To Reduce Bias in Machine Learning
- [MLY] avoidable bias๋ฅผ ์ค์ด๋ ๋ฐฉ๋ฒ๋ค
- ๋จธ์ ๋ฌ๋์์์ Bias์ Variance - gaussian37
- ๋จธ์ ๋ฌ๋์์ ํธํฅ(Bias)์ ์ ๊ฑฐํ๋ 6๊ฐ์ง ๋ฐฉ๋ฒ
๐ก ๋ฐ์ดํฐ ๋ถ์์์ log ํจ์๋ฅผ ์ฌ์ฉํ๋ฉด ๋ฐ์ดํฐ์ ์ ๊ท์ฑ์ด ๋์์ง๊ณ ํ๊ท ๋ถ์์์ ์ ํํ ๊ฐ์ ์ป์ ์ ์๊ธฐ ๋๋ฌธ์ ์ ์ฉํ๋ค. ๋ฐ์ดํฐ ๊ฐ ํธ์ฐจ๋ฅผ ์ค์ฌ, ์๋(skewness, ๋ฐ์ดํฐ๊ฐ ํ์ชฝ์ผ๋ก ์น์ฐ์น ์ ๋)์ ์ฒจ๋(kurtosis, ๋ถํฌ๊ฐ ์ผ๋ง๋ ๋พฐ์กฑํ์ง๋ฅผ ๋ํ๋ด๋ ์ ๋)๋ฅผ ์ค์ผ ์ ์๊ธฐ ๋๋ฌธ์ ์ ๊ท์ฑ์ด ๋์์ง๋ค.
์๋ฅผ ๋ค์ด ์ฐ๋ น ๊ฐ์ ๊ฒฝ์ฐ ์ซ์์ ๋ฒ์๊ฐ ์ฝ 0์ธ์์ 120์ธ ์ดํ์ด์ง๋ง ์ฌ์ฐ ๋ณด์ ์ก์ ๊ฒฝ์ฐ์๋ 0์๋ถํฐ ๋ช ์กฐ์ ์ด๋ฅด๊ธฐ๊น์ง ๋ฒ์๊ฐ ๋งค์ฐ ๋๋ค. ์ด๋ฐ ๊ฒฝ์ฐ ๋ค์๊ณผ ๊ฐ์ ์ด์ ๋ก ๋ก๊ทธํจ์๋ฅผ ์ฌ์ฉํ๋ค.
- ๋จ์์๋ฅผ ์๊ฒ ๋ง๋ค์ด ๋ถ์์ ์ ํํ ๊ฐ์ ์ป๊ธฐ ์ํด
- ๋ ๋ฆฝ๋ณ์์ ์ข ์๋ณ์์ ๋ณํ๊ด๊ณ์์ ์ ๋๋์ด ์๋ ๋น์จ์ ๋ณด๊ธฐ ์ํด
- ๋น์ ํ๊ด๊ณ๋ฅผ ์ ํ์ผ๋ก ๋ง๋ค๊ธฐ ์ํด
์๋ณธ ํจ์์ ๋ํจ์
๋ก๊ทธ๋ฅผ ์ทจํ ๋ํจ์
- Why Logarithms Are So Important In Machine Learning
- ๋ฐ์ดํฐ ๋ถ์ ์ ์์ ๋ก๊ทธ๋ฅผ ์ทจํ๋ ์ด์
- ๋ก๊ทธ๋ ๋ฌด์์ธ๊ฐ, ์ ํต๊ณ์์ ๋ก๊ทธ๋ฅผ ์ฌ์ฉํ๋๊ฐ? (ํ๊ท๋ถ์์ ์์ฐ๋ก๊ทธ ํด์)
- ๋ก๊ทธํจ์๋ฅผ ์ทจํ๋ ์ด์
๋ฒ ๋ฅด๋์ด ๋ถํฌ / ์ดํญ ๋ถํฌ / ์นดํ ๊ณ ๋ฆฌ ๋ถํฌ / ๋คํญ ๋ถํฌ / ๊ฐ์ฐ์์ ์ ๊ท ๋ถํฌ / t ๋ถํฌ / ์นด์ด์ ๊ณฑ ๋ถํฌ / F ๋ถํฌ / ๋ฒ ํ ๋ถํฌ / ๊ฐ๋ง ๋ถํฌ์ ๋ํด ์ค๋ช ํด์ฃผ์ธ์.
-
๋ฒ ๋ฅด๋์ด ๋ถํฌ
์ํ ๊ฒฐ๊ณผ๋ฅผ 0, 1๋ก ํํํ ์ ์๋ ํ๋ฅ ๋ณ์์ ๋ํ ๋ถํฌ๋ฅผ ์๋ฏธํ๋ค.
-
์ดํญ ๋ถํฌ
์ฑ๊ณตํ๋ฅ ์ด ฮผ์ธ ๋ฒ ๋ฅด๋์ด ์ํ์ N ๋ฒ ๋ฐ๋ณตํ๋ ๊ณผ์ ์์ N๋ฒ ์ค ์ฑ๊ณตํ๋ ํ์๋ฅผ X๋ผ๊ณ ํ๋ค๋ฉด ํ๋ฅ ๋ณ์ X์ ๋ํ ๋ถํฌ๋ฅผ ์๋ฏธํ๋ค.
-
์นดํ ๊ณ ๋ฆฌ ๋ถํฌ
๋ฒ ๋ฅด๋์ด ๋ถํฌ์ ํ์ฅํ์ผ๋ก 1๋ถํฐ K๊น์ง์ K ๊ฐ์ ์ ์ ๊ฐ ์ค ํ๋๊ฐ ๋์ค๋ ํ๋ฅ ๋ณ์์ ๋ถํฌ๋ก ์ด๋ฌํ ํ๋ฅ ๋ณ์๋ 1๊ณผ 0์ผ๋ก ์ด๋ฃจ์ด์ง ๋ค์ฐจ์ ๋ฒกํฐ๋ก ๋ณํํ์ฌ ์ฌ์ฉํ๊ณ ์ด๋ฅผ ์-ํซ ์ธ์ฝ๋ฉ์ด๋ผ๊ณ ํ๋ค.
-
๋คํญ ๋ถํฌ
์ฌ๋ฌ ๊ฐ์ ๊ฐ์ ๊ฐ์ง ์ ์๋ ๋ ๋ฆฝ ํ๋ฅ ๋ณ์(์นดํ ๊ณ ๋ฆฌ ํ๋ฅ ๋ณ์)๋ค์ ๋ํ ํ๋ฅ ๋ถํฌ๋ฅผ ๋งํ๋ค. ์ฌ๋ฌ ๋ฒ์ ๋ ๋ฆฝ์ํ์์ ๊ฐ๊ฐ์ ๊ฐ์ด ํน์ ํ์๋งํผ ๋ํ๋ ํ๋ฅ ์ ์๋ฏธํ๋ค. ์ฆ, ๋คํญ๋ถํฌ์์ n = 1์ผ ๋๊ฐ ์นดํ ๊ณ ๋ฆฌ ๋ถํฌ์ด๋ค.
-
๊ฐ์ฐ์์ ์ ๊ท ๋ถํฌ
์ ๊ท๋ถํฌ(normal distribution) ํน์ ๊ฐ์ฐ์์ ๋ถํฌ(Gaussian distribution)๋ ์ฐ์ํ๋ฅ ๋ถํฌ์ ํ๋์ด๋ค. ํ๊ท ๊ณผ ๋ถ์ฐ์ผ๋ก ํ์์ด ๊ฒฐ์ ๋๋ฉฐ, ์ฃผ์ด์ง ํ๊ท ๊ณผ ๋ถ์ฐ์ผ๋ก ์ํธ๋กํผ๋ฅผ ์ต๋ํํ๋ ๋ถํฌ๋ฅผ ์๋ฏธํ๋ค. ์ค์ฌ๊ทนํ์ ๋ฆฌ์ ์ํ์ฌ ๋ ๋ฆฝ์ ์ธ ํ๋ฅ ๋ณ์๋ค์ ํ๊ท ์ ์ ๊ท๋ถํฌ์ ๊ฐ๊น์์ง๋ ์ฑ์ง์ด ์๊ธฐ ๋๋ฌธ์ ์์ง๋ ์๋ฃ์ ๋ถํฌ๋ฅผ ๊ทผ์ฌํ๋๋ฐ์ ์์ฃผ ์ฌ์ฉ๋๋ค. ํนํ ํ๊ท ์ด 0์ด๊ณ ํ์คํธ์ฐจ๊ฐ 1์ธ ์ ๊ท๋ถํฌ๋ ํ์ค์ ๊ท๋ถํฌ(standard normal distribution)์ด๋ผ๊ณ ํ๋ค.
-
t ๋ถํฌ
๋ชจ์ง๋จ์ ํ์คํธ์ฐจ๋ฅผ ์ ์ ์์ ๋ ์ ๊ท๋ถํฌ์์ ์ป์ N๊ฐ์ ํ๋ณธ์ผ๋ก ๊ณ์ฐํ ํ๋ณธํ๊ท ์ ํ๋ณธํ์คํธ์ฐจ๋ก ์ ๊ทํํ ๊ฐ์ ๋ถํฌ๋ฅผ ์๋ฏธํ๋ค. ํ๋ณธ ํ๊ท ์ ์ด์ฉํ์ฌ ์ ๊ท๋ถํฌ์ ํ๊ท ์ ํด์ํ ๋์ ๊ฐ์ค๊ฒ์ (test)์ ํ๊ท ๋ถ์์ ๋ง์ด ์ฌ์ฉ๋๋ค.
-
์นด์ด์ ๊ณฑ ๋ถํฌ
์นด์ด์ ๊ณฑ๋ถํฌ(chi-squared distribution)๋ t ๋ถํฌ์์ ์ฌ์ฉํ p๊ฐ์ ์๋ก ๋ ๋ฆฝ์ ์ธ ํ์ค์ ๊ท ํ๋ฅ ๋ณ์๋ฅผ ๊ฐ๊ฐ ์ ๊ณฑํ ๋ค์ ํฉํด์ ์ป์ด์ง๋ ๋ถํฌ์ด๋ค. ์ด ๋ p๋ฅผ ์์ ๋๋ผ๊ณ ํ๋ฉฐ, ์นด์ด์ ๊ณฑ๋ถํฌ์ ๋งค๊ฐ๋ณ์๊ฐ ๋๋ค. ์นด์ด์ ๊ณฑ ๋ถํฌ๋ ์ ๋ขฐ๊ตฌ๊ฐ์ด๋ ๊ฐ์ค๊ฒ์ ๋ฑ์ ๋ชจ๋ธ์์ ์์ฃผ ๋ฑ์ฅํ๋ค.
-
F ๋ถํฌ
F๋ถํฌ๋ ์ ๊ท๋ถํฌ๋ฅผ ์ด๋ฃจ๋ ๋ชจ์ง๋จ์์ ๋ ๋ฆฝ์ ์ผ๋ก ์ถ์ถํ ํ๋ณธ๋ค์ ๋ถ์ฐ๋น์จ์ด ๋ํ๋ด๋ ์ฐ์ ํ๋ฅ ๋ถํฌ์ด๋ค. ๋ค์ ๋งํ๋ฉด ์นด์ด์ ๊ณฑ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋ ๋ ๋ฆฝ์ ์ธ ๋ ๊ฐ์ ํ๋ฅ ๋ณ์์ ํ๋ณธ์ ๊ตฌํ ๋ค ๊ฐ๊ฐ ํ๋ณธ์ ์ ๋งํผ ๋๋ ๋ค ๋น์จ์ ๊ตฌํ๋ฉด F ๋ถํฌ๊ฐ ๋๋ค. 2๊ฐ ์ด์์ ํ๋ณธ ํ๊ท ๋ค์ด ๋์ผํ ๋ชจํ๊ท ์ ๊ฐ์ง ์ง๋จ์์ ์ถ์ถ๋์๋์ง ์๋๋ฉด ์๋ก ๋ค๋ฅธ ๋ชจ์ง๋จ์์ ์ถ์ถ๋๋ ๊ฒ์ธ์ง๋ฅผ ํ๋จํ๊ธฐ ์ํ์ฌ ์ฌ์ฉ๋๋ค.
-
๋ฒ ํ ๋ถํฌ
0๋ถํฐ 1๊น์ง์ ๊ฐ์ ๊ฐ์ง ์ ์๋ ๋ฒ ๋ฅด๋์ด๋ถํฌ์ ๋ชจ์ ฮผ์ ๊ฐ์ ๋ฒ ์ด์ง์ ์ถ์ ํ ๊ฒฐ๊ณผ๋ฅผ ํํํ ๊ฒ์ด๋ค.
๋ฒ ํํจ์ - ์ดํญ๊ณ์๋ฅผ ์ค์ ๋ฒ์๊น์ง ํ์ฅํ ๊ฒ
-
๊ฐ๋ง๋ถํฌ
๋ฒ ํ๋ถํฌ๊ฐ 0๋ถํฐ 1 ์ฌ์๊ฐ์ ๊ฐ์ง๋ ๋ชจ์๋ฅผ ๋ฒ ์ด์ง์ ๋ฐฉ๋ฒ์ผ๋ก ์ถ์ ํ๋ ๋ฐ ์ฌ์ฉ๋๋ ๊ฒ๊ณผ ๋ฌ๋ฆฌ ๊ฐ๋ง๋ถํฌ๋ 0๋ถํฐ ๋ฌดํ๋์ ๊ฐ์ ๊ฐ์ง๋ ์์ ๊ฐ์ ์ถ์ ํ๋ ๋ฐ ์ฌ์ฉ๋๋ ๋ถํฌ๋ฅผ ์๋ฏธํ๋ค.
๊ฐ๋งํจ์ - ํฉํ ๋ฆฌ์ผ ํจ์๋ฅผ ๋ณต์์๊น์ง ํ์ฅํด์ ๋ง๋ ํจ์
- 8์ฅ ์ฌ์ดํ์ด๋ก ๊ณต๋ถํ๋ ํ๋ฅ ๋ถํฌ - ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค ์ค์ฟจ
- ๋ก์ค์นด์ธ ์ AI ๋จธ์ ๋ฌ๋ - statistics
- 1st ed., Truth in Engineering
์ถ์ฅ์ ์ํด ๋นํ๊ธฐ๋ฅผ ํ๋ ค๊ณ ํฉ๋๋ค. ๋น์ ์ ์ฐ์ฐ์ ๊ฐ์ ธ๊ฐ์ผ ํ๋์ง ์๊ณ ์ถ์ด ์ถ์ฅ์ง์ ์ฌ๋ ์น๊ตฌ 3๋ช ์๊ฒ ๋ฌด์์๋ก ์ ํ๋ฅผ ํ๊ณ ๋น๊ฐ ์ค๋ ๊ฒฝ์ฐ๋ฅผ ๋ ๋ฆฝ์ ์ผ๋ก ์ง๋ฌธํด์ฃผ์ธ์. ๊ฐ ์น๊ตฌ๋ 2/3๋ก ์ง์ค์ ๋งํ๊ณ 1/3์ผ๋ก ๊ฑฐ์ง์ ๋งํฉ๋๋ค. 3๋ช ์ ์น๊ตฌ๊ฐ ๋ชจ๋ โ๊ทธ๋ ์ต๋๋ค. ๋น๊ฐ ๋ด๋ฆฌ๊ณ ์์ต๋๋คโ๋ผ๊ณ ๋งํ์ต๋๋ค. ์ค์ ๋ก ๋น๊ฐ ๋ด๋ฆด ํ๋ฅ ์ ์ผ๋ง์ ๋๊น?
๐ก 3๋ช ์ ์น๊ตฌ๊ฐ ๋ชจ๋ โ๊ทธ๋ ์ต๋๋ค. ๋น๊ฐ ๋ด๋ฆฌ๊ณ ์์ต๋๋คโ๋ผ๊ณ ๋งํ์ ๋, ๋น๊ฐ ๋ด๋ฆด ํ๋ฅ ์ p ๋ผ๊ณ ํ๋ค๋ฉด ์ค์ ๋ก ๋น๊ฐ ๋ด๋ฆด ํ๋ฅ ์
$$P(rain|all\ yes) = {p \cdot {8 \over 27} \over {p\cdot{8 \over 27}} + (1-p)\cdot {1 \over 27}}$$
๋ชจ๋ ์น๊ตฌ๋ค์ด ๋น๊ฐ ์จ๋ค๊ณ ๋๋ต ํ์ผ๋ฏ๋ก
๋ชจ๋ ๊ทธ๋ ์ต๋๋ค ๋ผ๊ณ ๋๋ตํ๋ ํ๋ฅ = ๋ชจ๋ ์ฌ์ค๋๋ก ์ด์ผ๊ธฐํ ํ๋ฅ (๋น๊ฐ ์ฌ ๋) + ๋ชจ๋ ๊ฑฐ์ง์ผ๋ก ์ด์ผ๊ธฐํ ํ๋ฅ (๋น๊ฐ ์ ์ฌ ๋)
๋น๊ฐ ์ฌ ํ๋ฅ ์ p ๋ผ๊ณ ํ๊ณ , ๋น๊ฐ ์ค์ ๋ก ์์ ๋ ์น๊ตฌ๋ค์ด ๋ชจ๋ ๊ทธ๋ ์ต๋๋ค ๋ผ๊ณ ํ ํ๋ฅ ์
๋น๊ฐ ์ค์ ๋ก ์์์ ๋ ๋ชจ๋ ๊ทธ๋ ์ต๋๋ค ๋ผ๊ณ ํ ํ๋ฅ ์
๋น๊ฐ ์ฌ ํ๋ฅ ์ด p ๊ณ ์น๊ตฌ๋ค์ด ๋ชจ๋ ๊ทธ๋ ์ต๋๋ค๋ผ๊ณ ํ์ ๋ ๋น๊ฐ ์ค์ ๋ก ์์ ํ๋ฅ ์


















