Skip to content

Latest commit

ย 

History

History
1076 lines (739 loc) ยท 63.7 KB

File metadata and controls

1076 lines (739 loc) ยท 63.7 KB

Problem & Answer

๊ณ ์œ ๊ฐ’(eigen value)์™€ ๊ณ ์œ ๋ฒกํ„ฐ(eigen vector)์ด ๋ฌด์—‡์ด๊ณ  ์™œ ์ค‘์š”ํ•œ์ง€ ์„ค๋ช…ํ•ด์ฃผ์„ธ์š”.

๐Ÿ’ก $n \times n$ ํ–‰๋ ฌ $A$๋ฅผ ์„ ํ˜•๋ณ€ํ™˜์œผ๋กœ ๋ดค์„ ๋•Œ, ์„ ํ˜•๋ณ€ํ™˜ $A$์— ์˜ํ•œ ๋ณ€ํ™˜ ๊ฒฐ๊ณผ๊ฐ€ ์ž๊ธฐ ์ž์‹ ์˜ ์ƒ์ˆ˜๋ฐฐ๊ฐ€ ๋˜๋Š” 0์ด ์•„๋‹Œ ๋ฒกํ„ฐ๋ฅผ ๊ณ ์œ ๋ฒกํ„ฐ๋ผ๊ณ  ํ•˜๊ณ  ์ด ์ƒ์ˆ˜๋ฐฐ ๊ฐ’์„ ๊ณ ์œ ๊ฐ’์ด๋ผ ํ•œ๋‹ค.

  • ์„ ํ˜•๋ณ€ํ™˜(Linear Transformation): ์„ ํ˜• ๊ฒฐํ•ฉ์„ ๋ณด์กดํ•˜๋Š” ๋‘ ๋ฒกํ„ฐ ๊ณต๊ฐ„ ์‚ฌ์ด์˜ ํ•จ์ˆ˜
    $T(a+b) = T(a) + T(b), T(ca) = cT(a)$๋ฅผ ๋งŒ์กฑํ•˜๋Š” ๋ณ€ํ™˜.
  • ์•„๋ž˜์™€ ๊ฐ™์€ ์‹์„ ๋งŒ์กฑํ•˜๋Š” ์—ด๋ฒกํ„ฐ $v$๋ฅผ eigen vector, ์ƒ์ˆ˜ $\lambda$๋ฅผ eigen value๋ผ ํ•œ๋‹ค.

$$ Av = \lambda v $$

  • eigen vector, eigen value๋Š” ์ž„์˜์˜ ๋ฒกํ„ฐ๋ฅผ ์–ด๋А ๋ฐฉํ–ฅ์œผ๋กœ ๋ณ€ํ™”์‹œ์ผฐ๋Š”์ง€, ๋ณ€ํ™˜ ๊ณผ์ •์—์„œ ๋ณ€ํ™” ์—†์ด ์œ ์ง€ ๋˜๋Š” ๋ถ€๋ถ„์€ ์–ด๋А ๋ถ€๋ถ„์ธ์ง€์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ๋‹ด๊ณ  ์žˆ๋‹ค.
  • ์–ด๋–ค ๋ฌผ์ฒด๋‚˜ ์˜์ƒ ๋“ฑ์€ ์ˆ˜๋งŽ์€ ๋ฒกํ„ฐ์˜ ๋ญ‰์น˜๋กœ ๋ณผ ์ˆ˜ ์žˆ๋Š”๋ฐ eigen vector์™€ value๋ฅผ ํ™œ์šฉํ•ด ๋ฌผ์ฒด๋‚˜ ์˜์ƒ์ด ์–ด๋–ค ์‹์œผ๋กœ ๋ณ€ํ™”ํ•˜๋Š”์ง€์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋„์™€์ค€๋‹ค.
  • ๋ฐ์ดํ„ฐ์˜ ํŠน์ง•์„ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋„์™€์ฃผ๋Š” SVD(ํŠน์ด๊ฐ’๋ถ„ํ•ด), Pseudo-Inverse, ์„ ํ˜•์—ฐ๋ฆฝ๋ฐฉ์ •์‹์˜ ํ’€์ด, PCA(์ฃผ์„ฑ๋ถ„๋ถ„์„)์— ์‚ฌ์šฉํ•œ๋‹ค.

data image

๊ฐ ๋ฐ์ดํ„ฐ์˜ Feature ๊ฐ„์˜ ์œ ์‚ฌ๋„๋Š” ๋ชจ๋ธ ํ•™์Šต ๊ฒฐ๊ณผ์— ์˜ํ–ฅ์„ ๋ผ์น˜๊ธฐ ๋•Œ๋ฌธ์— ๊ณ ์œ ๊ฐ’๊ณผ ๊ณ ์œ ๋ฒกํ„ฐ๋ฅผ ๊ตฌํ•ด์„œ ์™„์ „ ๋…๋ฆฝ ๊ด€๊ณ„์ธ feature๋ฅผ ์ƒ์„ฑ ํ˜น์€ ์ถ”์ถœํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•˜๋‹ค.

Reference


์ƒ˜ํ”Œ๋ง(Sampling)๊ณผ ๋ฆฌ์ƒ˜ํ”Œ๋ง(Resampling)์ด ๋ฌด์—‡์ด๊ณ  ๋ฆฌ์ƒ˜ํ”Œ๋ง์˜ ์žฅ์ ์„ ๋งํ•ด์ฃผ์„ธ์š”.

๐Ÿ’ก ์ƒ˜ํ”Œ๋ง์€ ๋ชจ์ง‘๋‹จ์—์„œ ์ผ๋ถ€๋งŒ์„ ๋ฝ‘์•„๋‚ด์„œ ๋ชจ์ง‘๋‹จ ์ „์ฒด์˜ ๊ฒฝํ–ฅ์„ฑ์„ ์‚ดํŽด๋ณด๊ณ  ์‹ถ์–ด ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ ํ‘œ๋ณธ์ถ”์ถœ์ด๋ผ๊ณ  ํ•œ๋‹ค.

  • Sampling ๋ฐฉ์‹
    • Probability Sampling
      • Simple Random Sampling
      • Cluster Sampling(๊ตฐ์ง‘ ํ‘œ์ง‘)
      • Stratified Sampling(์ธตํ™” ํ‘œ์ง‘)
      • Systematic Sampling(๊ณ„ํ†ต ํ‘œ์ง‘)
    • Non-Probability Sampling
      • Convenience Sampling(ํŽธ์˜ ํ‘œ๋ณธ ์ถ”์ถœ)
      • Judgmental/Purposive Sampling(ํŒ๋‹จ ํ‘œ๋ณธ)
      • Snowball/Referral Sampling(๋ˆˆ๋ฉ์ด ํ‘œ์ง‘)
      • Quota Sampling( ํ• ๋‹น๋Ÿ‰ ์ƒ˜ํ”Œ๋ง)
  • Sampling ์žฅ์ 
    • ์‹œ๊ฐ„๊ณผ ๋น„์šฉ์„ ์ค„์ž„
    • ๋ฐ์ดํ„ฐ๊ฐ€ ์ •ํ™•์„ฑ
    • ๋” ๋งŽ์€ ๋ชจ์ง‘๋‹จ์— ๋Œ€ํ•œ ์˜ˆ์ธก ๊ฐ€๋Šฅ
    • ๋” ์ ์€ ์ž์›์œผ๋กœ ์ง„ํ–‰ ๊ฐ€๋Šฅ

ํ•˜์ง€๋งŒ ๋งค์šฐ ์ •๊ตํ•œ ์ถ”์ถœ์ด ์ด๋ฃจ์–ด์ ธ๋„ ๋ชจ์ง‘๋‹จ๊ณผ ์ •ํ™•ํ•˜๊ฒŒ ์ผ์น˜ํ•  ์ˆ˜๋Š” ์—†์œผ๋ฏ€๋กœ ์ด๋ฅผ ๋ณด์™„ํ•˜๊ธฐ ์œ„ํ•ด ์ƒ˜ํ”Œ๋ง๋œ ๋ฐ์ดํ„ฐ์—์„œ ๋ถ€๋ถ„์ง‘ํ•ฉ์„ ๋ฝ‘์•„ ํ†ต๊ณ„๋Ÿ‰์˜ ๋ณ€๋™์„ฑ์„ ํ™•์ธํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•˜๋Š”๋ฐ ์ด๋ฅผ ๋ฆฌ์ƒ˜ํ”Œ๋ง์ด๋ผ๊ณ  ํ•œ๋‹ค.

  • ๋Œ€ํ‘œ์ ์ธ ๋ฆฌ์ƒ˜ํ”Œ๋ง ๊ธฐ๋ฒ•์œผ๋กœ๋Š” k-fold ๊ต์ฐจ๊ฒ€์ฆ, bootstrapping ๊ธฐ๋ฒ•์ด ์กด์žฌ
  • k-fold: k-1๊ฐœ์˜ ๋ถ€๋ถ„์ง‘ํ•ฉ๋“ค์„ ํ›ˆ๋ จ ์„ธํŠธ๋กœ ์‚ฌ์šฉํ•˜๊ณ  ๋‚˜๋จธ์ง€ ํ•˜๋‚˜์˜ ๋ถ€๋ถ„์ง‘ํ•ฉ์„ ํ…Œ์ŠคํŠธ ์„ธํŠธ๋กœ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์„ ๋งํ•จ
    • k๋ฒˆ์˜ ํ›ˆ๋ จ๊ณผ ํ…Œ์ŠคํŠธ๋ฅผ ๊ฑฐ์ณ ๊ฒฐ๊ณผ์˜ ํ‰๊ท ์„ ๊ตฌํ•  ์ˆ˜ ์žˆ์Œ
  • bootstrapping
    1. ํ‘œ๋ณธ ์ค‘ m๊ฐœ๋ฅผ ๋ฝ‘์•„ ๊ธฐ๋กํ•˜๊ณ  ๋‹ค์‹œ ์ œ์ž๋ฆฌ์— ๋‘”๋‹ค.
    2. ์ด๋ฅผ n๋ฒˆ ๋ฐ˜๋ณตํ•œ๋‹ค.
    3. n๋ฒˆ ์žฌํ‘œ๋ณธ์ถ”์ถœํ•œ ๊ฐ’์˜ ํ‰๊ท ์„ ๊ตฌํ•œ๋‹ค.
    4. 1~3๋‹จ๊ณ„๋ฅผ R๋ฒˆ ๋ฐ˜๋ณตํ•œ๋‹ค.(R: ๋ถ€ํŠธ์ŠคํŠธ๋žฉ ๋ฐ˜๋ณต ํšŸ์ˆ˜)
    5. ํ‰๊ท ์— ๋Œ€ํ•œ ๊ฒฐ๊ณผ R๊ฐœ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์‹ ๋ขฐ๊ตฌ๊ฐ„์„ ๊ตฌํ•œ๋‹ค.
  • ํ‘œ๋ณธ์„ ์ถ”์ถœํ•˜๋ฉด์„œ ์›๋ž˜์˜ ๋ฐ์ดํ„ฐ์…‹์„ ๋ณต์›ํ•˜๊ธฐ์— ๋ชจ์ง‘๋‹จ์˜ ๋ถ„ํฌ์— ์–ด๋–ค ๊ฐ€์ •๋„ ํ•„์š” ์—†์ด ํ‘œ๋ณธ๋งŒ์œผ๋กœ ์ถ”๋ก ์ด ๊ฐ€๋Šฅ

Reference


ํ™•๋ฅ  ๋ชจํ˜•๊ณผ ํ™•๋ฅ  ๋ณ€์ˆ˜๋Š” ๋ฌด์—‡์ธ๊ฐ€์š”?

๐Ÿ’ก ํ™•๋ฅ  ๋ณ€์ˆ˜๋ž€ ํ™•๋ฅ ๋กœ ํ‘œํ˜„ํ•˜๊ธฐ ์œ„ํ•œ event๋ฅผ ์ •์˜ํ•˜๋Š” ๊ฒƒ์œผ๋กœ Sample space์—์„œ ํ™•๋ฅ  ๋ณ€์ˆ˜๊ฐ€ ์ทจํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ’์— ๋”ฐ๋ผ ์„ธ ๊ฐ€์ง€๋กœ ๋‚˜๋‰œ๋‹ค.

  • ์ด์‚ฐํ™•๋ฅ  ๋ณ€์ˆ˜: ์ทจํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ’์ด ์ •์ˆ˜์ธ ๊ฒฝ์šฐ
  • ์—ฐ์†ํ™•๋ฅ  ๋ณ€์ˆ˜: ์ทจํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ’์ด ์‹ค์ˆ˜์ธ ๊ฒฝ์šฐ
  • ํ˜ผํ•ฉ๋žœ๋ค ๋ณ€์ˆ˜: ์œ„์˜ ๋‘ ๊ฐ€์ง€ ๊ฒฝ์šฐ๊ฐ€ ์„ž์ธ ๊ฒฝ์šฐ

ํ™•๋ฅ  ๋ถ„ํฌ๋ž€ ํ™•๋ฅ ๋ณ€์ˆ˜์˜ ๋ชจ๋“  ๊ฐ’๊ณผ ๊ทธ์— ๋Œ€์‘ํ•˜๋Š” ํ™•๋ฅ ๋“ค์ด ์–ด๋–ป๊ฒŒ ๋ถ„ํฌํ•˜๊ณ  ์žˆ๋Š”์ง€๋ฅผ ๋งํ•œ๋‹ค.

์ด๋Ÿฐ ๋ณ€์ˆ˜ ์„ฑ๊ฒฉ์— ๋”ฐ๋ผ ๊ฐ๊ฐ์ด ๊ฐ€์ง€๋Š” ํ™•๋ฅ  ํ•จ์ˆ˜์˜ ์ด๋ฆ„๋„ ๋‹ฌ๋ผ์ง€๋Š”๋ฐ, ์ด์‚ฐํ˜•์€ ํ™•๋ฅ  ์งˆ๋Ÿ‰ ํ•จ์ˆ˜๋ผ๊ณ  ํ•˜๊ณ , ์—ฐ์†ํ˜•์€ ํ™•๋ฅ  ๋ฐ€๋„ ํ•จ์ˆ˜๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค. ํ™•๋ฅ ํ•จ์ˆ˜๋Š” ํ•ด๋‹น ํ™•๋ฅ  ๋ณ€์ˆ˜๊ฐ€ ๊ฐ€์ง„ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค.

  • ํ™•๋ฅ  ํ•จ์ˆ˜: ํ™•๋ฅ  ๋ณ€์ˆ˜๋ฅผ 0๊ณผ 1 ์‚ฌ์ด์˜ ํ™•๋ฅ ๋กœ mappingํ•˜๋Š” ๊ฒƒ
    • ์ผ๋ฐ˜์ ์œผ๋กœ ์ˆ˜ํ•™์—์„œ ๋‹ค๋ฃจ๋Š” ๋ฏธ์ง€์ˆ˜๋ผ ์ƒ๊ฐํ•˜๋ฉด ๋จ
    • $P(X=event) = probability$

ํ‘œ๋ณธ ๊ณต๊ฐ„๊ณผ ํ™•๋ฅ ์˜ ๊ด€๊ณ„

๐Ÿ’ก ํ™•๋ฅ  ๋ชจํ˜•์ด๋ž€ ํ™•๋ฅ  ๋ณ€์ˆ˜๋ฅผ ์ด์šฉํ•˜์—ฌ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ๋ฅผ ์ˆ˜ํ•™์ ์œผ๋กœ ์ •์˜ํ•˜๋Š” ๊ฒƒ์„ ๋งํ•œ๋‹ค.

  • ํ•จ์ˆ˜์— ์“ฐ์ธ ๊ณ„์ˆ˜๋“ค์„ ๋ชจ์ˆ˜(parameter)๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค.
  • ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ์•ˆ๋‹ค. โ†’ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ํ™•๋ฅ  ๋ถ„ํฌ ํ•จ์ˆ˜๋ฅผ ์•ˆ๋‹ค. โ†’ ํ•จ์ˆ˜์‹์„ ๊ตฌ์„ฑํ•˜๋Š” ๋ชจ์ˆ˜๋ฅผ ์•ˆ๋‹ค.
    • ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ์•Œ๋ฉด ํ™•๋ฅ  ๋ณ€์ˆ˜์˜ ๋ชจ๋“  ๊ฐ’๊ณผ ๊ทธ์— ๋Œ€์‘ํ•˜๋Š” ํ™•๋ฅ ๋“ค์„ ์•ˆ๋‹ค.
    • ๋ชจ์ˆ˜ ์ถ”์ •์ด ์ค‘์š”ํ•œ ์ด์œ 

Reference


๋ˆ„์  ๋ถ„ํฌ ํ•จ์ˆ˜์™€ ํ™•๋ฅ  ๋ฐ€๋„ ํ•จ์ˆ˜๋Š” ๋ฌด์—‡์ธ๊ฐ€์š”? ์ˆ˜์‹๊ณผ ํ•จ๊ป˜ ํ‘œํ˜„ํ•ด์ฃผ์„ธ์š”.

๐Ÿ’ก ๋ˆ„์ ๋ถ„ํฌํ•จ์ˆ˜๋ž€ ํ™•๋ฅ ๋ก ์—์„œ ์ฃผ์–ด์ง„ ํ™•๋ฅ  ๋ถ„ํฌ๊ฐ€ ํŠน์ • ๊ฐ’๋ณด๋‹ค ์ž‘๊ฑฐ๋‚˜ ๊ฐ™์€ ํ™•๋ฅ ์„ ๋‚˜ํƒ€๋‚ด๋Š” ํ•จ์ˆ˜

ํ™•๋ฅ ์€ ์‚ฌ๊ฑด(event)์ด๋ผ๋Š” ํ‘œ๋ณธ์˜ ์ง‘ํ•ฉ์— ๋Œ€ํ•ด ํ• ๋‹น๋œ ์ˆซ์ž์ด๊ณ  ์–ด๋–ค ์‚ฌ๊ฑด์— ์–ด๋А ์ •๋„์˜ ํ™•๋ฅ ์ด ํ• ๋‹น๋˜์—ˆ๋Š”์ง€ ๋ฌ˜์‚ฌํ•œ ๊ฒƒ์„ ํ™•๋ฅ  ๋ถ„ํฌ๋ผํ•œ๋‹ค. ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ๋ฌ˜์‚ฌํ•  ๋•Œ, ๋ชจ๋“  ์‚ฌ๊ฑด๋“ค์„ ํ•˜๋‚˜์”ฉ ์ œ์‹œํ•˜๋Š” ๊ฒƒ์€ ์–ด๋ ค์šฐ๋ฏ€๋กœ ํ™•๋ฅ  ๋ณ€์ˆ˜๋ฅผ ์ด์šฉํ•œ๋‹ค๋ฉด ๋ฌ˜์‚ฌ ์ž‘์—…์ด ๊ฐ„ํŽธํ•ด์ง„๋‹ค. ์‚ฌ๊ฑด(event)์ด ๊ตฌ๊ฐ„(interval)์ด ๋˜๊ณ  ์ด ๊ตฌ๊ฐ„์„ ์ง€์ •ํ•˜๋Š”๋ฐ ์‹œ์ž‘์ ๊ณผ ๋์ ์ด๋ผ๋Š” ๋‘๊ฐœ์˜ ์ˆซ์ž๋งŒ ์žˆ์œผ๋ฉด ๋˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ํ•˜์ง€๋งŒ ์ด๋ฅผ ์ •์˜ํ•  ๋•Œ, ์ˆซ์ž ํ•˜๋‚˜๋งŒ์œผ๋กœ ์ •์˜๊ฐ€ ๊ฐ€๋Šฅํ•˜๋„๋ก ์‹œ์ž‘์ ์„ ์Œ์ˆ˜ ๋ฌดํ•œ๋Œ€๋กœ ํ†ต์ผํ•˜์—ฌ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ์„œ์ˆ ํ•  ์ˆ˜ ์žˆ๊ณ , ์ด๋ฅผ ๋ˆ„์  ํ™•๋ฅ  ๋ถ„ํฌ(CDF)๋ผ๊ณ  ํ•œ๋‹ค.

$$ F(a) = P (X \le a) = \begin{cases} \sum_{x \le a} p(x) &\text{if } ์ด์‚ฐํ˜• \\ \int_{-\infty}^a p(x)dx &\text{if } ์—ฐ์†ํ˜• \end{cases} $$

๋ˆ„์  ๋ถ„ํฌ ํ•จ์ˆ˜๋Š” ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ํ•จ์ˆ˜๋ผ๋Š” ํŽธ๋ฆฌํ•œ ์ƒํƒœ๋กœ ๋ฐ”๊พธ์–ด ์ฃผ์—ˆ๊ณ , ํ™•๋ฅ ์ด ์–ด๋А ์‚ฌ๊ฑด์— ์–ด๋А ์ •๋„ ๋ถ„ํฌ๋˜์–ด ์žˆ๋Š”์ง€ ์ˆ˜ํ•™์ ์œผ๋กœ ๋ช…ํ™•ํ•˜๊ฒŒ ํ‘œํ˜„ํ•ด ์ค€๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋ˆ„์  ๋ถ„ํฌ ํ•จ์ˆ˜๋Š” ๋ถ„ํฌ์˜ ํ˜•์ƒ์„ ์ง๊ด€์ ์œผ๋กœ ์ดํ•ดํ•˜๊ธฐ ์–ด๋ ต๋‹ค๋Š” ๋‹จ์ ์ด ์žˆ๊ณ , ์ด๋ฅผ ์•Œ๊ธฐ ์œ„ํ•ด์„œ ํ™•๋ฅ  ๋ณ€์ˆ˜๊ฐ€ ๋‚˜์˜ฌ ์ˆ˜ ์žˆ๋Š” ์ „์ฒด ๊ตฌ๊ฐ„์„ ์•„์ฃผ ์ž‘์€ ํญ์„ ๊ฐ€์ง€๋Š” ๊ตฌ๊ฐ„๋“ค๋กœ ๋‚˜๋ˆˆ ๋‹ค์Œ ๊ฐ ๊ตฌ๊ฐ„์˜ ํ™•๋ฅ ์„ ์‚ดํŽด๋ณด๋Š” ๊ฒƒ์ด ํŽธ๋ฆฌํ•˜๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด ๊ณผ์ •์—์„œ ๊ตฌ๊ฐ„์˜ ํญ์„ ์–ด๋А ์ •๋„๋กœ ์ •์˜ํ•ด์•ผ ํ•˜๋Š”์ง€์— ๋Œ€ํ•œ ์ถ”๊ฐ€์ ์ธ ์•ฝ์†์ด ํ•„์š”ํ•˜๊ณ  ์ด๋Ÿฌํ•œ ๋‹จ์ ์„ ๋ณด์™„ํ•˜๊ธฐ ์œ„ํ•ด ์ƒ๋Œ€์ ์ธ ํ™•๋ฅ  ๋ถ„ํฌ ํ˜•ํƒœ๋งŒ์„ ๋ณด๋„๋ก ๋งŒ๋“ค์–ด์ง„ ๊ฒƒ์ด ํ™•๋ฅ  ๋ฐ€๋„ ํ•จ์ˆ˜์ด๋‹ค. ๋ˆ„์  ํ™•๋ฅ  ๋ถ„ํฌ ๊ทธ๋ž˜ํ”„ x์ถ•์˜ ์˜ค๋ฅธ์ชฝ์œผ๋กœ ์ด๋™ํ•˜๋ฉด์„œ ํฌ๊ธฐ์˜ ๋ณ€ํ™”๋ฅผ ์‚ดํŽด๋ณด๋ฉด ํŠน์ •ํ•œ ๊ตฌ๊ฐ„์—์„œ ํ™•๋ฅ ์ด ๋ฐฐ์ •๋˜์ง€ ์•Š๋Š”๋‹ค๋ฉด ๊ธฐ์šธ๊ธฐ๊ฐ€ 0์ด๊ณ  ๋ฐฐ์ •๋œ๋‹ค๋ฉด ๊ธฐ์šธ๊ธฐ๊ฐ€ 0์ด ์•„๋‹ ๊ฒƒ์ด๋‹ค. ๋”ฐ๋ผ์„œ ๊ธฐ์šธ๊ธฐ์˜ ํฌ๊ธฐ๋ฅผ ๋ณด๋ฉด ๊ฐ ์œ„์น˜์— ๋ฐฐ์ •๋œ ํ™•๋ฅ ์˜ ์ƒ๋Œ€์ ์ธ ํฌ๊ธฐ๋ฅผ ์•Œ ์ˆ˜ ์žˆ๊ณ , ๊ธฐ์šธ๊ธฐ์˜ ํฌ๊ธฐ๋ฅผ ๊ตฌํ•˜๋Š” ์ˆ˜ํ•™์  ์—ฐ์‚ฐ์ด ๋ฏธ๋ถ„์ด๋ฏ€๋กœ ํ™•๋ฅ  ๋ฐ€๋„ ํ•จ์ˆ˜๋Š” ๋ˆ„์  ๋ถ„ํฌ ํ•จ์ˆ˜์˜ ๋ฏธ๋ถ„์œผ๋กœ ์ •์˜ํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ์ด์œ ๋กœ ํ™•๋ฅ ๋ฐ€๋„ํ•จ์ˆ˜์™€ ๋ˆ„์ ๋ถ„ํฌํ•จ์ˆ˜๋Š” ๋ฏธ์ ๋ถ„์˜ ๊ด€๊ณ„๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค.(๋ฐ์ดํ„ฐ๊ฐ€ ์—ฐ์†ํ˜•์ผ๋•Œ๋งŒ ํ•ด๋‹น)

$$ \int_{-\infty}^{\infty} f(x)dx = 1 $$

$$ P(a\le X \le b) = \int_a^b f(x)dx $$

ํ™•๋ฅ  ๋ฐ€๋„ ํ•จ์ˆ˜๋Š” ํ™•๋ฅ  ๋ณ€์ˆ˜ X๊ฐ€ ์–ด๋–ค ๊ฐ’ x๋ฅผ ๊ฐ€์งˆ ํ™•๋ฅ ์„ ๋‚˜ํƒ€๋‚ด๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, x ๊ทผ์ฒ˜์—์„œ์˜ ํ™•๋ฅ  ๋ฐ€๋„๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ๊ฒƒ์ด๋‹ค. ์ด๋•Œ, ํ™•๋ฅ  ๋ฐ€๋„ ํ•จ์ˆ˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํŠน์„ฑ์„ ๊ฐ€์ง„๋‹ค.

  1. f(x)๋Š” ํ•ญ์ƒ 0๋ณด๋‹ค ํฌ๊ฑฐ๋‚˜ ๊ฐ™๋‹ค.
  2. X์˜ ๊ฐ’์ด ํŠน์ •ํ•œ ๊ตฌ๊ฐ„ a์™€ b ์‚ฌ์ด์— ์žˆ์„ ํ™•๋ฅ ์€ ํ™•๋ฅ  ๋ฐ€๋„ ํ•จ์ˆ˜ f(x)์™€ a, b ์‚ฌ์ด์˜ ๋ฉด์ ์„ ๊ตฌํ•˜์—ฌ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋‹ค.
  3. ํ™•๋ฅ  ๋ฐ€๋„ ํ•จ์ˆ˜์˜ ์ „์ฒด ๋ฉด์ ์€ 1์ด๋‹ค.

ํ™•๋ฅ  ๋ฐ€๋„ ํ•จ์ˆ˜๋Š” ๊ฐ ํ™•๋ฅ  ๋ณ€์ˆ˜์˜ ๋ถ„ํฌ๋งˆ๋‹ค ๋‹ค๋ฅด๊ฒŒ ์ •์˜๋œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ •๊ทœ ๋ถ„ํฌ์˜ ํ™•๋ฅ  ๋ฐ€๋„ ํ•จ์ˆ˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

$$ f(x) = {1 \over \sqrt{2\pi\sigma^2}}e^{-(x-\mu)^2 \over 2\sigma^2} $$

์—ฌ๊ธฐ์„œ $\mu$๋Š” ํ‰๊ท ๊ฐ’์ด๋ฉฐ, $\sigma$๋Š” ํ‘œ์ค€ ํŽธ์ฐจ์ด๋‹ค. ์ด ํ•จ์ˆ˜๋Š” ์ข… ๋ชจ์–‘์œผ๋กœ, ํ‰๊ท ๊ฐ’์„ ์ค‘์‹ฌ์œผ๋กœ ์ขŒ์šฐ๋กœ ๋Œ€์นญ์ด๋ฉฐ, ํ‘œ์ค€ ํŽธ์ฐจ๊ฐ€ ์ž‘์„์ˆ˜๋ก ๊ณก์„ ์ด ์ข์•„์ง„๋‹ค.

Reference


์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ์€ ๋ฌด์—‡์ธ๊ฐ€์š”?

๐Ÿ’ก Conditional Probability(์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ์ด๋ž€?)

์ฃผ์–ด์ง„ ์‚ฌ๊ฑด์ด ๋ฐœ์ƒํ–ˆ์„ ๋•Œ, ๋‹ค๋ฅธ ํ•œ ์‚ฌ๊ฑด์ด ์ผ์–ด๋‚  ํ™•๋ฅ $P(B|A)$์™€ ๊ฐ™์ด ํ‘œํ˜„ํ•˜๋ฉฐ ์‚ฌ๊ฑด$A$์— ๋Œ€ํ•œ ์‚ฌ๊ฑด$B$์˜ ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ์ด๋ผ ํ•œ๋‹ค.

$$ P(B|A)={P(A \cap B) \over P(A)} $$

$$ P(A \cap B) = P(B|A)P(A) $$

์ด๋ฅผ ํ™œ์šฉํ•ด ์•„๋ž˜์™€ ๊ฐ™์ด ๋ฒ ์ด์ฆˆ ์ •๋ฆฌ๋ฅผ ์œ ๋„ํ•  ์ˆ˜ ์žˆ๋‹ค.

  • $D$: ์ƒˆ๋กœ ๊ด€์ฐฐ๋˜๋Š” ๋ฐ์ดํ„ฐ
  • $\theta$: ๋ชจ๋ธ์—์„œ ๊ณ„์‚ฐํ•˜๊ณ  ์‹ถ์–ดํ•˜๋Š” ๋ชจ์ˆ˜ (๊ฐ€์„ค)
  • ์‚ฌํ›„ํ™•๋ฅ (Posterior): ๋ฐ์ดํ„ฐ๋ฅผ ๊ด€์ฐฐํ–ˆ์„ ๋•Œ, ์ด ๊ฐ€์„ค์ด ์„ฑ๋ฆฝํ•  ํ™•๋ฅ  (๋ฐ์ดํ„ฐ ๊ด€์ฐฐ ์ดํ›„ ์ธก์ •ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์‚ฌํ›„ํ™•๋ฅ )
  • ์‚ฌ์ „ํ™•๋ฅ (Prior): ๊ฐ€์„ค์— ๋Œ€ํ•ด ์‚ฌ์ „์— ์„ธ์šด ํ™•๋ฅ  (๋ฐ์ดํ„ฐ ๊ด€์ธก ์ดํ›„ ์‚ฌํ›„ํ™•๋ฅ ์ด ์‚ฌ์ „ํ™•๋ฅ ์ด ๋œ๋‹ค.)
  • ๊ฐ€๋Šฅ๋„(Likelihood): ํ˜„์žฌ ์ฃผ์–ด์ง„ ๋ชจ์ˆ˜ (๊ฐ€์ •) ์—์„œ ์ด ๋ฐ์ดํ„ฐ๊ฐ€ ๊ด€์ฐฐ๋  ๊ฐ€๋Šฅ์„ฑ
  • ์ฆ๊ฑฐ(Evidence): ๋ฐ์ดํ„ฐ ์ „์ฒด์˜ ๋ถ„ํฌ

Reference


๊ณต๋ถ„์‚ฐ๊ณผ ์ƒ๊ด€๊ณ„์ˆ˜๋Š” ๋ฌด์—‡์ผ๊นŒ์š”? ์ˆ˜์‹๊ณผ ํ•จ๊ป˜ ํ‘œํ˜„ํ•ด์ฃผ์„ธ์š”.

๐Ÿ’ก ๊ณต๋ถ„์‚ฐ(Convariance)

ํ™•๋ฅ ๋ณ€์ˆ˜์˜ ๊ธฐ๋Œ“๊ฐ’๊ณผ ๋ถ„์‚ฐ์ด ํ™•๋ฅ ๋ถ„ํฌ์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ์ฃผ๋“ฏ์ด ๋‘ ํ™•๋ฅ ๋ณ€์ˆ˜ X, Y ์‚ฌ์ด์—์„œ ์ •์˜๋œ ๊ณต๋ถ„์‚ฐ์€ ๋‘ ํ™•๋ฅ ๋ณ€์ˆ˜์˜ ์„ ํ˜•๊ด€๊ณ„์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ์•Œ๋ ค ์ค€๋‹ค.

๐Ÿ’ก ์ƒ๊ด€๊ณ„์ˆ˜(Correlation Coefficient)

๊ณต๋ถ„์‚ฐ์˜ ํฌ๊ธฐ๋Š” ๋‘ ๋ณ€์ˆ˜์˜ ์ธก์ • ๋‹จ์œ„์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง€๋ฏ€๋กœ ์˜๋ฏธ๋ฅผ ๋ถ€์—ฌํ•˜๊ธฐ์— ์ ์ ˆํ•˜์ง€ ์•Š๋‹ค. ๊ณต๋ถ„์‚ฐ์„ ๊ฐ ๋ณ€์ˆ˜์˜ ํ‘œ์ค€ํŽธ์ฐจ๋กœ ๋‚˜๋ˆ„๋ฉด ์–ด๋–ค ๋‹จ์œ„๋ฅผ ์‚ฌ์šฉํ•˜๋“  ๊ฐ™์€ ๊ฐ’์„ ์–ป๊ฒŒ ๋˜๋Š”๋ฐ, ์ด ๊ฐ’์„ ์ƒ๊ด€๊ณ„์ˆ˜๋ผ๊ณ  ํ•œ๋‹ค.

๊ณต๋ถ„์‚ฐ

๋‘ ํ™•๋ฅ ๋ณ€์ˆ˜ X, Y์˜ ๊ธฐ๋Œ€๊ฐ’์„ ๊ฐ๊ฐ $\mu x = E(X), \mu y = E(Y)$๋ผ๊ณ  ํ•˜๋ฉด ๊ณต๋ถ„์‚ฐ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด $X$์˜ ํŽธ์ฐจ์™€ $Y$์˜ ํŽธ์ฐจ์˜ ๊ณฑ์œผ๋กœ ์ •์˜๋œ๋‹ค.

  • ๊ธฐ๋ณธ ์ •์˜

$$ Cov(X,Y) = \sigma_{xy} = E[(X-\mu x)(Y-\mu y)] $$

  • ์ด์‚ฐ ํ™•๋ฅ ์ธ ๊ฒฝ์šฐ

$$ Cov(X,Y) = \sum_{(x,y)\in S} \sum (X - \mu x)(Y - \mu y)f(x,y) $$

  • ์—ฐ์† ํ™•๋ฅ ์ธ ๊ฒฝ์šฐ

$$ Cov(X,Y) = \int_{S_2}\int_{S_1} (X - \mu x)(Y - \mu y)f(x,y)dxdy $$

๊ธฐ๋Œ€๊ฐ’์˜ ์„ฑ์งˆ์„ ์ด์šฉํ•˜์—ฌ ์ •๋ฆฌํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์ด ํ‘œํ˜„๋œ๋‹ค.

$$ Cov(X,Y) = E(XY) - E(X)E(Y) $$

๊ณต๋ถ„์‚ฐ์˜ ๊ธฐ๋ณธ ์„ฑ์งˆ

  • ์ƒ์ˆ˜ a์— ๋Œ€ํ•˜์—ฌ $Cov(X, a) = 0$
  • $Cov(X, Y) = Cov(Y,X)$
  • $Cov(X,X) = V(X) \ge 0$
  • $Cov(X_1+X_2,\ Y)=Cov(X_1,Y)+Cov(X_2,Y)$
  • $Cov(aX,Y)=aCov(X,Y)$

๊ทธ๋ž˜ํ”„ ์ƒ์—์„œ์˜ ๊ณต๋ถ„์‚ฐ

  • $Cov(X,Y) > 0$ : X๊ฐ€ ์ฆ๊ฐ€ํ•  ๋•Œ, Y๋„ ์ฆ๊ฐ€ํ•œ๋‹ค.
  • $Cov(X,Y) < 0$ : ๊ฐ€ ์ฆ๊ฐ€ํ•  ๋•Œ, Y๋Š” ๊ฐ์†Œํ•œ๋‹ค.
  • $Cov(X,Y) = 0$ : ์•„๋ฌด๋Ÿฐ ์„ ํ˜•๊ด€๊ณ„๊ฐ€ ์—†๋‹ค.

์ƒ๊ด€์—†์Œ๊ณผ ๋…๋ฆฝ์„ฑ

๋‘ ํ™•๋ฅ ๋ณ€์ˆ˜ X, Y๊ฐ€ ๋…๋ฆฝ์ด๋ฉด $E(XY) = E(X)E(Y)$์ด๋ฏ€๋กœ ๊ณต๋ถ„์‚ฐ์€ 0์ด ๋œ๋‹ค. ์ฆ‰ X์™€ Y๋Š” ์ƒ๊ด€์—†๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์—ญ์€ ์ผ๋ฐ˜์ ์œผ๋กœ ์ฐธ์ด ์•„๋‹ˆ๋‹ค.

์ƒ๊ด€๊ณ„์ˆ˜

๋‘ ํ™•๋ฅ  ๋ณ€์ˆ˜ X, Y์˜ ์ƒ๊ด€๊ณ„์ˆ˜๋Š” $\rho x,y$ ๋˜๋Š” $Corr(X,Y)$๋กœ ๋‚˜ํƒ€๋‚ด๋ฉฐ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •์˜ํ•œ๋‹ค

$$ \rho_{x,y} = Corr(X,Y) = {Cov(X,Y)\over \sqrt {V(X)V(Y)}} ,-1\le \rho \le 1 $$

  • ์ƒ๊ด€๊ณ„์ˆ˜์˜ ์„ฑ์งˆ
    • ์ƒ๊ด€๊ณ„์ˆ˜์˜ ์ ˆ๋Œ€๊ฐ’์€ 1์„ ๋„˜์„ ์ˆ˜ ์—†๋‹ค.
    • ํ™•๋ฅ ๋ณ€์ˆ˜ X, Y๊ฐ€ ๋…๋ฆฝ์ด๋ผ๋ฉด ์ƒ๊ด€๊ณ„์ˆ˜๋Š” 0์ด๋‹ค.
    • X, Y๊ฐ€ ์„ ํ˜•๊ด€๊ณ„์ธ Y = aX + b์˜ ๊ด€๊ณ„์ผ ๋•Œ a๊ฐ€ ์–‘์ˆ˜๋ฉด ์ƒ๊ด€๊ณ„์ˆ˜๋Š” 1 a๊ฐ€ ์Œ์ˆ˜๋ฉด -1์ด๋‹ค.

Reference


์‹ ๋ขฐ ๊ตฌ๊ฐ„์˜ ์ •์˜๋Š” ๋ฌด์—‡์ธ๊ฐ€์š”?

๐Ÿ’ก ๋ชจ์ง‘๋‹จ์—์„œ ํ‘œ๋ณธ์„ ์ถ”์ถœํ•˜์—ฌ ํ‘œ๋ณธํ‰๊ท ์„ ๊ณ„์‚ฐํ–ˆ์„ ๋•Œ ์ •ํ•ด์ง„ ํ™•์‹ ์˜ ์ •๋„๋ฅผ ๊ฐ€์ง€๊ณ  ๋ฏธ์ง€์˜ ๋ชจ์ˆ˜๊ฐ€ ์†ํ•  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋˜๋Š” ๊ตฌ๊ฐ„์„ ์‹ ๋ขฐ๊ตฌ๊ฐ„(confidence Interval)์ด๋ผ ํ•œ๋‹ค.

์ด๋•Œ ์ถ”์ •ํ•œ ๊ตฌ๊ฐ„ ์•ˆ์— ์‹ค์ œ๋กœ ๋ชจ์ˆ˜๊ฐ€ ๋“ค์–ด์žˆ์„ ํ™•์‹ ์˜ ์ •๋„๋ฅผ ์‹ ๋ขฐ์ˆ˜์ค€(์‹ ๋ขฐ๋„, confidence level) ๋˜๋Š” ์‹ ๋ขฐ๊ณ„์ˆ˜ (confidence coefficient)๋ผ ํ•œ๋‹ค. ๋ณดํ†ต ์‹ ๋ขฐ์ˆ˜์ค€์€ ๋ฐฑ๋ถ„์œจ๋กœ ๋‚˜ํƒ€๋‚ด๋ฉฐ, ์‹ ๋ขฐ๊ณ„์ˆ˜๋Š” 0๋ถ€ํ„ฐ 1 ์‚ฌ์ด์˜ ๊ฐ’์œผ๋กœ ๋‚˜ํƒ€๋‚ธ๋‹ค.

1m ๋ฌผ์ฒด์˜ ๊ธธ์ด๋ฅผ ์ถ”์ •ํ•  ๋•Œ ๊ธธ์ด๋Š” ์œ ํ•œํ•˜๋‹ค๊ณ  ๋งํ•œ๋‹ค๋ฉด ์‹ ๋ขฐ์ˆ˜์ค€ 100%๊ฐ€ ๋  ์ˆ˜ ์žˆ์ง€๋งŒ ์ด๊ฒƒ์€ ๋ฌด์˜๋ฏธํ•œ ์ถ”์ •์ด๋ฏ€๋กœ ์ ์ ˆํ•œ ์‹ ๋ขฐ์ˆ˜์ค€์˜ ์‹ ๋ขฐ๊ตฌ๊ฐ„์„ ์ถ”์ •ํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•˜๋‹ค.

๊ด€์ธก ํšŸ์ˆ˜๊ฐ€ n์ด๊ณ  ๊ด€์ธก ๊ฒฐ๊ณผ์˜ ํ‰๊ท ์ด M์ด๋ผ๋ฉด, n๋ฒˆ์”ฉ ๊ด€์ธกํ•  ๋•Œ๋งˆ๋‹ค ์–ป์–ด์ง€๋Š” ํ‰๊ท ๊ฐ’ M๋“ค์˜ ๊ฐ’์€ ๋‹น์—ฐํžˆ ์ฐธ๊ฐ’์— ๋งค์šฐ ๊ฐ€๊นŒ์›Œ์ง„๋‹ค. ๋”์šฑ ๊ฐ€๊นŒ์›Œ์ง„๋‹ค๋Š” ๊ฒƒ์€ M๋“ค์˜ ํ‘œ์ค€ํŽธ์ฐจ๊ฐ€ ์ž‘๋‹ค๋Š” ๋œป์ด ๋˜๋Š”๋ฐ, ๊ด€์ธก ๊ฒฐ๊ณผ ํ•˜๋‚˜ํ•˜๋‚˜๊ฐ€ ํ‘œ์ค€ํŽธ์ฐจ ฯƒ์ธ ์ •๊ทœ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅธ๋‹ค๋ฉด, n๋ฒˆ ๊ด€์ธกํ•˜์—ฌ ์–ป์–ด์ง€๋Š” M์˜ ํ‘œ์ค€ํŽธ์ฐจ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋œ๋‹ค.

$$ N๋ฒˆ\ ๊ด€์ธกํ•˜์—ฌ \ ์–ป์–ด์ง€๋Š”\ M์˜\ ํ‘œ์ค€ํŽธ์ฐจ\ =\ \sigma / \sqrt{n} $$

ํ‘œ๋ณธ ํ‰๊ท ์˜ ํ‰๊ท ์€ ๋ชจํ‰๊ท ๊ณผ ๊ฐ™์œผ๋ฏ€๋กœ ์ฐธ๊ฐ’์ด m๋ฏธํ„ฐ๋ผ๋ฉด ์ค‘์‹ฌ๊ทนํ•œ์ •๋ฆฌ์—์˜ํ•ด ๊ด€์ธก ๊ฒฐ๊ณผ์˜ ํ‰๊ท  M์€ ํ‰๊ท ์ด m์ด๊ณ  ํ‘œ์ค€ํŽธ์ฐจ๊ฐ€ $\sigma/\sqrt{n}$์ธ ์ •๊ทœ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅด๊ฒŒ ๋˜๊ณ  ์ •๊ทœ๋ถ„ํฌ ๊ทธ๋ž˜ํ”„๋ฅผ ํ†ตํ•ด ๋‹ค์Œ์˜ ์‚ฌ์‹ค์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.

$$ m-\sigma/\sqrt {n}< M < m+\sigma/\sqrt {n}\ ์ผ\ ํ™•๋ฅ ์ด\ ์•ฝ\ \ 68 \% ์ด๋‹ค. $$

์œ„ ์‹์„ m์„ ๊ธฐ์ค€์œผ๋กœ ์ดํ•ญ ์ •๋ฆฌํ•˜๋ฉด ์•„๋ž˜์™€ ๊ฐ™๋‹ค

$$ M-\sigma/\sqrt{n}< m < M+\sigma/\sqrt{n}\ ์ผ\ ํ™•๋ฅ ์ด\ ์•ฝ\ \ 68 \% ์ด๋‹ค. $$

์ด๋ฅผ ํ†ตํ•ด ์ฐธ๊ฐ’ m์ด ๊ด€์ธก์œผ๋กœ๋ถ€ํ„ฐ ๊ตฌํ•œ ํ‰๊ท ๊ฐ’ M ๊ทผ์ฒ˜์— ์žˆ์„ ํ™•๋ฅ ์„ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋œ๋‹ค.

ํ™•๋ฅ  68%๋ฅผ ์‹ ๋ขฐ์ˆ˜์ค€, ์‹ ๋ขฐ๋„๋ผ ํ•˜๋ฉฐ 100%์—์„œ ์‹ ๋ขฐ์ˆ˜์ค€์„ ๋บ€ 32%๋ฅผ ์œ ์˜์ˆ˜์ค€์ด๋ผ๊ณ  ํ•œ๋‹ค.

์ด๋Š” ํ‘œ๋ณธ์„ 100๋ฒˆ ์ถ”์ถœํ–ˆ์„ ๋•Œ 100๊ฐœ์˜ ์‹ ๋ขฐ๊ตฌ๊ฐ„ ์ค‘์— 95๊ฐœ ์ •๋„๊ฐ€ ๋ชจ์ˆ˜์˜ ์ฐธ๊ฐ’์„ ํฌํ•จํ•˜๊ณ  5๊ฐœ ์ •๋„๋Š” ๋ชจ์ˆ˜์˜ ์ฐธ๊ฐ’์„ ํฌํ•จํ•˜์ง€ ์•Š๋Š”๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค.

์‹ ๋ขฐ ๊ตฌ๊ฐ„์˜ ํŠน์„ฑ

  • ์‹ ๋ขฐ ๊ตฌ๊ฐ„์ด ์ข์„์ˆ˜๋ก ๋ชจ์ง‘๋‹จ ํ‰๊ท  ์ถ”์ •์น˜๊ฐ€ ์ •ํ™•ํ•ด์ง„๋‹ค.
  • ์ผ๋ฐ˜์ ์œผ๋กœ ํ‘œ๋ณธ ํฌ๊ธฐ๊ฐ€ ํด์ˆ˜๋ก, ์‹ ๋ขฐ ๊ตฌ๊ฐ„์ด ์ข์•„์ง„๋‹ค.

์ค‘์‹ฌ๊ทนํ•œ์ •๋ฆฌ

  • ๋ชจ์ง‘๋‹จ์—์„œ ํ‘œ๋ณธ ํ‰๊ท ์„ ๋์—†์ด ๊ตฌํ•  ์ˆ˜๋ก ํ‘œ๋ณธ ํ‰๊ท ์˜ ๋ถ„ํฌ๋Š” ์ •๊ทœ ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅด๊ฒŒ ๋จ

Reference


P-value๋ฅผ ๋ชจ๋ฅด๋Š” ์‚ฌ๋žŒ์—๊ฒŒ ์„ค๋ช…ํ•œ๋‹ค๋ฉด ์–ด๋–ป๊ฒŒ ์„ค๋ช…ํ•˜์‹ค ๊ฑด๊ฐ€์š”?

๐Ÿ’ก p-value๋ž€ ์–ป์€ ๊ฒ€์ • ํ†ต๊ณ„๋Ÿ‰(ex, t-value)๋ณด๋‹ค ํฌ๊ฑฐ๋‚˜ ๊ฐ™์€ ๊ฐ’์„ ์–ป์„ ์ˆ˜ ์žˆ๋Š” ํ™•๋ฅ  ์ด๋•Œ, ๊ฒ€์ • ํ†ต๊ณ„๋Ÿ‰์˜ ๋Œ€๋ถ€๋ถ„์ด ๊ท€๋ฌด๊ฐ€์„ค์„ ๊ฐ€์ •ํ•˜๊ณ  ์–ป๊ฒŒ ๋˜๋Š” ๊ฐ’

โ€œ๋ชจํ‰๊ท ์ด 100์ด๋‹คโ€๋ผ๋Š” ๊ท€๋ฌด๊ฐ€์„ค์ด ์ฐธ์ด๋ผ๋Š” ๊ฐ€์ • ํ•˜์—์„œ, 100๊ฐœ์˜ ๋ฐ์ดํ„ฐ๋ฅผ sampling ํ•  ๋•Œ ์ด๋ก ์ ์œผ๋กœ ๋‚˜์˜ฌ ์ˆ˜ ์žˆ๋Š” ํ‰๊ท ์˜ ๋ถ„ํฌ์—์„œ, ์ง€๊ธˆ ๋‚ด๊ฐ€ ๊ฐ–๊ณ  ์žˆ๋Š” ํ‘œ๋ณธ ํ‰๊ท ์˜ ๊ฐ’์ธ 95๋ณด๋‹ค ํฐ ๊ฐ’์ด ๋‚˜์˜ฌ ์ˆ˜ ์žˆ๋Š” ํ™•๋ฅ ์„ ๋งํ•œ๋‹ค.

์œ„์˜ ์˜ˆ์‹œ์—์„œ ๊ทธ๋Ÿด ํ™•๋ฅ ์ด ๋งค์šฐ ๋‚ฎ๋‹ค๋ฉด ๊ท€๋ฌด๊ฐ€์„ค์„ ๊ธฐ๊ฐํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋œ๋‹ค.

์šฐ์—ฐํžˆ ๋ฐœ์ƒํ•  ๊ฐ€๋Šฅ์„ฑ์ด ๋งค์šฐ ํฌ๋ฐ•ํ•œ ์‚ฌ๊ฑด์ด ์‹ค์ œ๋กœ ๋ฐœ์ƒํ–ˆ์„ ๊ฒฝ์šฐ, ๊ทธ๊ฒƒ์„ ์šฐ์—ฐ์ด ์•„๋‹ˆ๋ผ๊ณ  ์ƒ๊ฐํ•˜๋Š” ๊ฒฝํ–ฅ์ด ์žˆ๊ณ , p-value ์—ญ์‹œ ๊ทธ์™€ ๊ฐ™์€ ๊ฒฝํ–ฅ์„ ๋”ฐ๋ฅธ ๊ฒƒ์ด๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

์ผ๋ฐ˜์ ์œผ๋กœ P-value๊ฐ€ 5% ๋ณด๋‹ค ์ž‘์œผ๋ฉด ๊ท€๋ฌด๊ฐ€์„ค์„ ๊ธฐ๊ฐํ•œ๋‹ค. ํ•˜์ง€๋งŒ ์ด 5% ๊ธฐ์ค€์€ ์ „ํ†ต์ ์œผ๋กœ ์‚ฌ์šฉํ•˜๋Š” ์ˆ˜์น˜์ด๊ธฐ ๋•Œ๋ฌธ์— ์‹คํ—˜์ž๊ฐ€ ์กฐ์ • ๊ฐ€๋Šฅํ•˜๋‹ค.

์ผ๋ฐ˜์ ์œผ๋กœ p-value๊ฐ€ ๋„ˆ๋ฌด ๋‚ฎ์œผ๋ฉด, ๊ทธ๋ ‡๊ฒŒ ๋‚ฎ์€ ํ™•๋ฅ ์˜ ์‚ฌ๊ฑด์ด ์‹ค์ œ๋กœ ์ผ์–ด๋‚ฌ๋‹ค๊ณ  ์ƒ๊ฐํ•˜๊ธฐ ๋ณด๋‹ค๋Š” ๊ท€๋ฌด๊ฐ€์„ค์ด ํ‹€๋ ธ๋‹ค๊ณ  ์ƒ๊ฐํ•˜๊ฒŒ ๋œ๋‹ค. ๊ทธ๋ž˜์„œ ๊ท€๋ฌด๊ฐ€์„ค์„ ๊ธฐ๊ฐํ•˜๊ณ  ๋Œ€๋ฆฝ๊ฐ€์„ค์„ ์ฑ„ํƒํ•˜๊ฒŒ ๋˜๋Š”๋ฐ p-value๋Š” ๊ฒ€์ • ํ†ต๊ณ„๋Ÿ‰์ด ์••์ถ•์ ์œผ๋กœ ๋‹ด๊ณ  ์žˆ๋˜ ์ •๋ณด๋ฅผ ๋” ์••์ถ•ํ–ˆ๊ธฐ ๋•Œ๋ฌธ์— ํšจ๊ณผ์˜ ํฌ๊ธฐ(effect size)๊ฐ€ ์ปค์ง€๊ฑฐ๋‚˜ ํ‘œ๋ณธ์˜ ํฌ๊ธฐ(n)๊ฐ€ ์ปค์ง€๋ฉด p-value๋Š” ์ž‘์•„์ง„๋‹ค๋Š” ๊ฒƒ์„ ๋ช…์‹ฌํ•ด์•ผ ํ•œ๋‹ค.

p-value๊ฐ€ ์˜๋ฏธํ•˜๋Š” ๊ฒƒ: ํšจ๊ณผ์˜ ํฌ๊ธฐ (effect size, ํ‘œ๋ณธ์˜ ํฌ๊ธฐ)

  • p-value๊ฐ€ ์ž‘์€ ์ด์œ ๋Š” effect size๊ฐ€ ํฌ๊ธฐ ๋•Œ๋ฌธ์ธ์ง€ ํ‘œ๋ณธ์˜ ํฌ๊ธฐ๊ฐ€ ํฌ๊ธฐ ๋•Œ๋ฌธ์ธ์ง€ ์•Œ ์ˆ˜ ์—†์Œ

Reference


R square์˜ ์˜๋ฏธ๋Š” ๋ฌด์—‡์ธ๊ฐ€์š”?

๐Ÿ’ก Coefficient of Determination์€ ํšŒ๊ท€ ๋ชจ๋ธ์—์„œ ๋…๋ฆฝ ๋ณ€์ˆ˜๊ฐ€ ์ข…์†๋ณ€์ˆ˜๋ฅผ ์–ผ๋งˆ๋งŒํผ ์„ค๋ช…ํ•ด ์ฃผ๋Š”์ง€ ๊ฐ€๋ฆฌํ‚ค๋Š” ์ง€ํ‘œ(๋†’์„ ์ˆ˜๋ก ์ž˜ ์„ค๋ช…)

๊ฒฐ์ •๊ณ„์ˆ˜ ์‹œ๊ฐํ™” ์˜ˆ์‹œ

๊ฒฐ์ •๊ณ„์ˆ˜ ๊ณ„์‚ฐ ๋ฐฉ๋ฒ•

$$ R^2 = 1-{Residual\ Sum \ of \ Squares \ (SSR) \over total\ Sum \ of \ squares\ (SST)} = {Explained\ Sum \ of\ Squares \ (SSE) \over total\ Sum \ of \ squares \ (SST)}$$

  1. SST : ๊ด€์ธก๊ฐ’์—์„œ ๊ด€์ธก๊ฐ’์˜ ํ‰๊ท ์„ ๋บ€ ๊ฒฐ๊ณผ์˜ ์ดํ•ฉ

$$ SST = \sum^n_{i=1}(y_i-\overline y)^2 $$

  1. SSE : ์ถ”์ •๊ฐ’์—์„œ ๊ด€์ธก๊ฐ’์˜ ํ‰๊ท ์„ ๋บ€ ๊ฒฐ๊ณผ์˜ ์ดํ•ฉ

$$ SSE = \sum^n_{i=1}(\hat y - \overline y_i)^2 $$

  1. SSR : ๊ด€์ธก๊ฐ’์—์„œ ์ถ”์ •๊ฐ’์„ ๋บ€ ๊ฐ’์˜ ์ดํ•ฉ

$$ SSR = \sum^n_{i=1}(y_i-\hat y)^2 $$

Reference


ํ‰๊ท (mean)๊ณผ ์ค‘์•™๊ฐ’(median) ์ค‘์— ์–ด๋–ค ์ผ€์ด์Šค์—์„œ ๋ญ๋ฅผ ์จ์•ผํ• ๊นŒ์š”?

  1. ์ž๋ฃŒ๊ฐ’์˜ ๋ถ„ํฌ๊ฐ€ ๋Œ€์นญ์ ์ด๊ณ  ๋‹จ์ผ๋ด‰ ํ˜•ํƒœ์ธ ๊ฒฝ์šฐ : ํ‰๊ท 
  2. ์ž๋ฃŒ์˜ ๊ฐ’์— ํ•œ ๊ฐœ ์ด์ƒ์˜ ๊ทน๋‹จ์ ์ธ ๊ฐ’์ด ์žˆ๋Š” ๊ฒฝ์šฐ : ์ค‘์•™๊ฐ’
  3. ์ž๋ฃŒ์˜ ๊ฐ’์˜ ๋ถ„ํฌ๊ฐ€ ํ•œ ์ชฝ์œผ๋กœ ์น˜์šฐ์นœ ๊ฒฝ์šฐ : ์ค‘์•™๊ฐ’

ํ‰๊ท  ์ข…๋ฅ˜

  1. ์‚ฐ์ˆ ํ‰๊ท  : ์ด์ƒ์น˜์— ๋ฏผ๊ฐ

$$ { a+b }\over n $$

  1. ๊ธฐํ•˜ํ‰๊ท  : ๊ธฐ๊ฐ„ ๋ณ„ ์ƒ์Šน ํ•˜๋ฝ ๊ณ„์‚ฐ ์‹œ ์œ ์šฉ

$$ \sqrt[n]{ab} $$

  1. ์กฐํ™”ํ‰๊ท  : F1 score๋ฅผ ๊ตฌํ•  ๋•Œ ์‚ฌ์šฉ

$$ 2ab \over {a+b} $$

Reference


์ค‘์‹ฌ๊ทนํ•œ ์ •๋ฆฌ๋Š” ์™œ ์œ ์šฉํ•œ๊ฑธ๊นŒ์š”?

๐Ÿ’ก ํ‘œ๋ณธ ํฌ๊ธฐ๊ฐ€ n์ธ ํ‘œ๋ณธ์„ ์—ฌ๋Ÿฌ ๋ฒˆ ๋ฐ˜๋ณตํ•ด์„œ ์ถ”์ถœํ–ˆ์„ ๋•Œ ๊ฐ ํ‘œ๋ณธ ํ‰๊ท ๋“ค์ด ์ด๋ฃจ๋Š” ๋ถ„ํฌ๊ฐ€ ์ •๊ทœ๋ถ„ํฌ๊ฐ€ ์ด๋ฃจ๊ฒŒ ๋œ๋‹ค. ์ด ๋•Œ, ์ •๊ทœ๋ถ„ํฌ์˜ ํ‰๊ท ์€ ๋ชจ์ง‘๋‹จ์˜ ํ‰๊ท ์ด๊ณ  ์ •๊ทœ๋ถ„ํฌ์˜ ํ‘œ์ค€ํŽธ์ฐจ๋Š” ๋ชจ์ง‘๋‹จ์˜ ํ‘œ์ค€ํŽธ์ฐจ๋ฅผ $\sqrt n$ ($n$: ํ‘œ๋ณธ์˜ ํฌ๊ธฐ)์œผ๋กœ ๋‚˜๋ˆˆ ํ˜•ํƒœ๋กœ ๋‚˜ํƒ€๋‚˜๊ธฐ ๋•Œ๋ฌธ์— ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ชจ์ˆ˜๋ฅผ ์ถ”์ •ํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ์œ ์šฉํ•˜๋‹ค.

  • i.i.d.(independent and identically distribution) ๊ฐ€์ •์ด ์„ฑ๋ฆฝํ•˜๊ณ  ํ‰๊ท , ํ‘œ์ค€ํŽธ์ฐจ๋งŒ ์•Œ๊ณ  ์žˆ์œผ๋ฉด $X_i$์˜ ๋ถ„ํฌ ์ž์ฒด์— ๋Œ€ํ•œ ์ •๋ณด๊ฐ€ ์—†๋”๋ผ๋„ $\xi_n$์˜ ๋ถ„ํฌ๋ฅผ ์ ๊ทผ์ ์œผ๋กœ ์•Œ ์ˆ˜ ์žˆ๋‹ค.

$$ \xi_n = {\sum_{i=1}^n X_i - n\mu \over \sqrt n \sigma} $$

  • ๋ฐ์ดํ„ฐ(ํ˜น์€ ํ‘œ๋ณธ)๊ฐ€ ์ถฉ๋ถ„ํ•˜์ง€ ์•Š์€ ์ƒํ™ฉ์—์„œ ์ •๊ทœ๋ถ„ํฌ๋กœ ๊ฐ€์ •ํ•˜๋Š” ๊ฒƒ์€ ์˜ฌ๋ฐ”๋ฅด์ง€ ์•Š๋‹ค. ์ฆ‰ ๊ทน๋‹จ์ ์ธ ์‚ฌ๋ก€๊ฐ€ ๋ฐœ์ƒํ•  ์ƒํ™ฉ์€ ๊ณผ์†Œ ํ‰๊ฐ€ ๋˜๊ธฐ ์‰ฝ๊ณ  ๋Œ€๋ถ€๋ถ„์˜ ์ƒํ™ฉ์„ ์ •๊ทœ๋ถ„ํฌ๋กœ ๊ฐ€์ •ํ•ด์„œ ํฐ ํ”ผํ•ด๋ฅผ ๋ณธ ๊ฒฝ์šฐ๊ฐ€ 2008๋…„ ๊ธˆ์œต ์œ„๊ธฐ์ด๋‹ค.

Reference


์—”ํŠธ๋กœํ”ผ(entropy)์— ๋Œ€ํ•ด ์„ค๋ช…ํ•ด์ฃผ์„ธ์š”. ๊ฐ€๋Šฅํ•˜๋ฉด Information Gain๋„์š”.

๐Ÿ’ก Entropy๋ž€ ์ตœ์ ์˜ ์ „๋žต ํ•˜์—์„œ ๊ทธ ์‚ฌ๊ฑด์„ ์˜ˆ์ธกํ•˜๋Š” ๋ฐ์— ํ•„์š”ํ•œ ์งˆ๋ฌธ ๊ฐœ์ˆ˜๋ฅผ ์˜๋ฏธํ•œ๋‹ค. ๋‹ค๋ฅธ ํ‘œํ˜„์œผ๋กœ๋Š” ์ตœ์ ์˜ ์ „๋žต ํ•˜์—์„œ ํ•„์š”ํ•œ ์งˆ๋ฌธ ๊ฐœ์ˆ˜์— ๋Œ€ํ•œย ๊ธฐ๋Œ“๊ฐ’์ด๋‹ค. ๋”ฐ๋ผ์„œ, ์ด entropy๊ฐ€ ๊ฐ์†Œํ•œ๋‹ค๋Š” ๊ฒƒ์€ ์šฐ๋ฆฌ๊ฐ€ ๊ทธ ์‚ฌ๊ฑด์„ ๋งžํžˆ๊ธฐ ์œ„ํ•ด์„œ ํ•„์š”ํ•œ ์งˆ๋ฌธ์˜ ๊ฐœ์ˆ˜๊ฐ€ ์ค„์–ด๋“œ๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•˜๊ณ  ์งˆ๋ฌธ์˜ ๊ฐœ์ˆ˜๊ฐ€ ์ค„์–ด๋“ ๋‹ค๋Š” ์‚ฌ์‹ค์€ ์ •๋ณด๋Ÿ‰๋„ ์ค„์–ด๋“ ๋‹ค๋Š” ์˜๋ฏธ์ด๋‹ค.

$$ I(x) = -log_b(P(x)) \ \ (b = 2,e,10 ...) $$

  • log๋กœ ํ‘œ์‹œํ•˜๋Š” ์ด์œ 
    • ํ™•๋ฅ ๊ณผ ๋ฐ˜๋น„๋ก€ ๊ด€๊ณ„
    • ๋‘ ์‚ฌ๊ฑด์˜ ์ •๋ณด๋Ÿ‰์˜ ํ•ฉ์€ ๊ฐ ์‚ฌ๊ฑด์˜ ์ •๋ณด๋Ÿ‰์˜ ํ•ฉ๊ณผ ๊ฐ™์•„์•ผ ํ•˜๊ธฐ ๋•Œ๋ฌธ์—

$$ ์งˆ๋ฌธ๊ฐœ์ˆ˜ = log_2(๊ฐ€๋Šฅํ•œ ๊ฒฐ๊ณผ์˜ ์ˆ˜)\\ H = nlog(s)\ \space \space \space \space =log(s^n) \\ H(x)=\sum^{n}_{i=1}P(x_i)(-log_b(P(x_i))) $$

  • Entropy๋Š” ๊ฐ€๋Šฅํ•œ ๋ชจ๋“  ์‚ฌ๊ฑด์ด ๊ฐ™์€ ํ™•๋ฅ ๋กœ ์ผ์–ด๋‚  ๋•Œ ๊ทธ ์ตœ๋Œ“๊ฐ’์„ ๊ฐ€์ง

๐Ÿ’ก Information Gain(IG)์€ ์–ด๋–ค ์†์„ฑ์„ ์„ ํƒํ•จ์œผ๋กœ ์ธํ•ด์„œ ๋ฐ์ดํ„ฐ๋ฅผ ๋” ์ž˜ ๊ตฌ๋ถ„ํ•˜๊ฒŒ ๋˜๋Š” ๊ฒƒ์„ ๋งํ•œ๋‹ค. ์ด๋Š” ์–ด๋–ค ์กฐ๊ฑด์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„๋ฅ˜ํ•  ๋•Œ ์—”ํŠธ๋กœํ”ผ๊ฐ€ ์–ผ๋งˆ๋‚˜ ๊ฐ์†Œ ํ•˜๋Š”์ง€๋ฅผ ์ธก์ •ํ•จ์œผ๋กœ์จ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ๊ณ  Decision Tree์˜ ๋ถ€๋ชจ ๋…ธ๋“œ์™€ ์ž์‹ ๋…ธ๋“œ์˜ ์ฐจ์ด๊ฐ€ ์ด์— ํ•ด๋‹นํ•œ๋‹ค.

  • Decision Tree
    • ์ž์‹ ๋…ธ๋“œ๊ฐ€ ๋ถ€๋ชจ ๋…ธ๋“œ๋ณด๋‹ค ๋” ์ˆœ์ˆ˜๋„๊ฐ€ ๋†’์€ ์ž์‹ ๋…ธ๋“œ๋“ค์ด ๋˜๋„๋ก ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ˜๋ณต์ ์œผ๋กœ ๋” ์ž‘์€ ์ง‘๋‹จ์œผ๋กœ ๋‚˜๋ˆ„๋Š” ๊ฒƒ

$$ IG(feature) = H_{before} - H_{split\ by\ feature}\\ Gain(A) = I(_{S_1,S_2,S_3,...,S_m)}-E(์†์„ฑ(A)) \ \ (S_1,S_2,...๋Š” \ ์ƒ์œ„\ ๋…ธ๋“œ์˜\ ์—”ํŠธ๋กœํ”ผ) $$

  • ์ •๋ณด ์ด๋“์€ ์ƒ์œ„ ๋…ธ๋“œ์˜ ์—”ํŠธ๋กœํ”ผ์—์„œ ํ•˜์œ„ ๋…ธ๋“œ์˜ ์—”ํŠธ๋กœํ”ผ๋ฅผ ๋บ€ ๊ฐ’์ด๋‹ค.ย ๊ทธ๋ฆฌ๊ณ  E(A)๋Š” A๋ผ๋Š” ์†์„ฑ์„ ์„ ํƒํ–ˆ์„ ๋•Œ ํ•˜์œ„๋กœ ์ž‘์€ m๊ฐœ์˜ ๋…ธ๋“œ๋กœ ๋‚˜๋ˆ„์–ด์ง„๋‹ค๊ณ  ํ•˜๋ฉด ํ•˜์œ„ ๊ฐ ๋…ธ๋“œ์˜ ์—”ํŠธ๋กœํ”ผ๋ฅผ ๊ณ„์‚ฐ ํ•œ ํ›„ย ๋…ธ๋“œ์˜ ์†ํ•œ ๋ ˆ์ฝ”๋“œ์˜ ๊ฐœ์ˆ˜๋ฅผ ๊ฐ€์ค‘์น˜๋กœ ํ•˜์—ฌ ํ‰๊ท ํ•œ ๊ฐ’์ด๋‹ค.
  • Gain(A)๋Š” ์†์„ฑ A๋ฅผ ์„ ํƒํ–ˆ์„ ๋•Œ์˜ ์ •๋ณด ์ด๋“ ์–‘์„ ๊ณ„์‚ฐํ•˜๋Š” ์ˆ˜์‹์œผ๋กœ ์›๋ž˜ ๋…ธ๋“œ์˜ ์—”ํŠธ๋กœํ”ผ๋ฅผ ๊ตฌํ•˜๊ณ , ๋ฐฉ๊ธˆ ๊ตฌํ•œ ์—”ํŠธ๋กœํ”ผ๋ฅผ ์„ ํƒํ•œ ํ›„์˜ m๊ฐœ์˜ ํ•˜์œ„ ๋…ธ๋“œ๋กœ ๋‚˜๋ˆ„์–ด์ง„ ๊ฒƒ์— ๋Œ€ํ•œ ์ „์ฒด์ ์ธ ์—”ํŠธ๋กœํ”ผ๋ฅผ ๊ตฌํ•œ ํ›„์˜ ๊ฐ’์„ ๋บ€ ๊ฒฐ๊ณผ์ด๋‹ค.
  • Gain(A) ๊ฐ’์ด ํด์ˆ˜๋ก ์ •๋ณด ์ด๋“์ด ํฐ ๊ฒƒ์ด๊ณ , ๋ณ€๋ณ„๋ ฅ์ด ์ข‹๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค.

Reference


์–ด๋–จ ๋•Œ ๋ชจ์ˆ˜์  ๋ฐฉ๋ฒ•๋ก ์„ ์“ธ ์ˆ˜ ์žˆ๊ณ , ์–ด๋–จ ๋•Œ ๋น„๋ชจ์ˆ˜์  ๋ฐฉ๋ฒ•๋ก ์„ ์“ธ ์ˆ˜ ์žˆ๋‚˜์š”?

๐Ÿ’ก ๋ชจ์ˆ˜์  ๋ฐฉ๋ฒ•๋ก (Parametricย method): ๋ชจ์ง‘๋‹จ์˜ ๋ถ„ํฌ๊ฐ€ ํŠน์ • ํ™•๋ฅ ๋ถ„ํฌ(Probability Distribution)์˜ ํ˜•ํƒœ๋กœ ๋‚˜ํƒ€๋‚˜๋Š” ๊ฒฝ์šฐ ์‚ฌ์šฉํ•œ๋‹ค. ๋น„๋ชจ์ˆ˜์  ๋ฐฉ๋ฒ•๋ก (Nonparametricย method): ํ‘œ๋ณธ์˜ ์ˆ˜๊ฐ€ ์ ์–ด ์ •๊ทœ๋ถ„ํฌ๋ฅผ ๊ฐ€์ •ํ•  ์ˆ˜ ์—†๋Š” ๊ฒฝ์šฐ, ๋ชจ์ง‘๋‹จ์— ๋Œ€ํ•œ ์ •๋ณด๊ฐ€ ์—†๋Š” ๊ฒฝ์šฐ ์‚ฌ์šฉํ•œ๋‹ค.

  • ๋ชจ์ˆ˜์  ๋ฐฉ๋ฒ•
    • ๊ด€์ธก ๊ฐ’์ด ์–ด๋А ํŠน์ •ํ•œ ํ™•๋ฅ ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅธ๋‹ค๊ณ  ์ „์ œํ•œ ํ›„ ๊ทธ ๋ถ„ํฌ์˜ ๋ชจ์ˆ˜์— ๋Œ€ํ•œ ๊ฒ€์ •์„ ์‹ค์‹œํ•  ๋•Œ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•˜๋‹ค.
    • ์ค‘์‹ฌ ๊ทนํ•œ ์ •๋ฆฌ์— ์˜ํ•ด ์ผ์ • ์ˆ˜ ์ด์ƒ์˜ ํ‘œ๋ณธ์€ ๋ชจ์ง‘๋‹จ์˜ ๋ถ„ํฌ์™€ ์ƒ๊ด€์—†์ด ์ •๊ทœ๋ถ„ํฌ์— ๊ทผ์ ‘ํ•œ๋‹ค.
    • ํ™•๋ฅ ๋ถ„ํฌ์˜ ํ‰๊ท , ํ‘œ์ค€ํŽธ์ฐจ ๋“ฑ์˜ ๋ชจ์ˆ˜๋ฅผ ๋น„๊ตํ•จ์œผ๋กœ์จ ์ง‘๋‹จ๊ฐ„์˜ ์ฐจ์ด๋ฅผ ๋ฐํž ์ˆ˜ ์žˆ๋‹ค.
  • ๋น„๋ชจ์ˆ˜์ ๋ฐฉ๋ฒ•
    • ๊ด€์ธก ๊ฐ’์ด ์–ด๋А ํŠน์ •ํ•œ ํ™•๋ฅ ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅธ๋‹ค๊ณ  ์ „์ œํ•  ์ˆ˜ ์—†๋Š” ๊ฒฝ์šฐ, ๋ชจ์ง‘๋‹จ์— ๋Œ€ํ•œ ์•„๋ฌด๋Ÿฐ ์ •๋ณด๊ฐ€ ์—†๋Š” ๊ฒฝ์šฐ์— ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•˜๋‹ค.
    • ์ž๋ฃŒ๋ฅผย ํฌ๊ธฐย ์ˆœ์œผ๋กœย ๋ฐฐ์—ดํ•˜์—ฌย ์ˆœ์œ„๋ฅผย ๋งค๊ธดย ๋‹ค์Œย ์ˆœ์œ„์˜ย ํ•ฉ์„ย ํ†ตํ•ดย ์ฐจ์ด๋ฅผย ๋น„๊ตํ•˜๋Š”ย ์ˆœ์œ„ํ•ฉ๊ฒ€์ •์„ย ์ ์šฉํ• ย ์ˆ˜ย ์žˆ๋‹ค.
  • ๊ด€๋ จ ๋ชจ๋ธ
    • ๋ชจ์ˆ˜์  ๋ชจ๋ธ
      • ํšŒ๊ท€๋ชจ๋ธ, ๋กœ์ง€์Šคํ‹ฑํšŒ๊ท€๋ชจ๋ธ, 1์ฐจ/2์ฐจ ํŒ๋ณ„ ๋ชจ๋ธ(LDA / QDA)
    • ๋น„๋ชจ์ˆ˜์  ๋ชจ๋ธ
      • ์˜์‚ฌ๊ฒฐ์ •๋‚˜๋ฌด, ๋žœ๋คํฌ๋ ˆ์ŠคํŠธ, K-๊ทผ์ ‘ ์ด์›ƒ(KNN)
    • ์ธ๊ณต์‹ ๊ฒฝ๋ง์˜ ๊ฒฝ์šฐ ๋ชจ์ˆ˜์  ๋ชจ๋ธ๊ณผ ๋น„๋ชจ์ˆ˜์  ๋ชจ๋ธ ๋‘ ๋ฐฉ๋ฒ•์ด ํ˜ผ์žฌํ•œ๋‹ค.

Reference


โ€œlikelihoodโ€์™€ โ€œprobabilityโ€์˜ ์ฐจ์ด๋Š” ๋ฌด์—‡์ผ๊นŒ์š”?

๐Ÿ’ก ํ™•๋ฅ (Probability): ์ฃผ์–ด์ง„ ํ™•๋ฅ ๋ถ„ํฌ๊ฐ€ ์žˆ์„ ๋•Œ, ๊ด€์ธก๊ฐ’ ํ˜น์€ ๊ด€์ธก ๊ตฌ๊ฐ„์ด ๋ถ„ํฌ ์•ˆ์—์„œ ์ผ์–ด๋‚  ๊ฐ€๋Šฅ์„ฑ์„ ๋œปํ•˜๊ณ  $f(x|\theta)$ ๋กœ ํ‘œํ˜„ํ•œ๋‹ค. ๊ฐ€๋Šฅ๋„(Likelihood): ์–ด๋–ค ๊ฐ’์ด ๊ด€์ธก ๋˜์—ˆ์„ ๋•Œ ์ด๊ฒƒ์ด ์–ด๋–ค ํ™•๋ฅ  ๋ถ„ํฌ์—์„œ ์™”๋Š”์ง€์— ๋Œ€ํ•œ ๊ฐ€๋Šฅ์„ฑ์„ ๋œปํ•œ๋‹ค. $\mathcal{L}(\theta|x)$ ๋กœ ํ‘œํ˜„ํ•œ๋‹ค.

  • ์—ฌํ–‰์„ ๊ฐ€๊ธฐ ์œ„ํ•ด ์บ๋ฆฌ์–ด์— ์ง์„ ์Œ“์•˜์„ ๋•Œ ์บ๋ฆฌ์–ด ๋ฌด๊ฒŒ๋ฅผ ์˜ˆ๋กœ ๋“ ๋‹ค๋ฉด, ํ™•๋ฅ ์€ ํ™•๋ฅ ๋ถ„ํฌ๊ฐ€ ๊ณ ์ •๋์„ ๋•Œ ์บ๋ฆฌ์–ด ๋ฌด๊ฒŒ๊ฐ€ 20~30์ธ ์‚ฌ๊ฑด์ด ์ผ์–ด๋‚  ๊ฐ€๋Šฅ์„ฑ์„ ๋œปํ•œ๋‹ค.

  • ๊ฐ€๋Šฅ๋„๋Š” ๊ณ ์ •๋œ ์‚ฌ๊ฑด์—์„œ ์‚ฌ๊ฑด์ด ์ผ์–ด๋‚  ํ™•๋ฅ ๋ถ„ํฌ์— ๋Œ€ํ•œ ๊ฐ€๋Šฅ์„ฑ์„ ์˜๋ฏธํ•œ๋‹ค. ์™ผ์ชฝ์€ 30kg ์บ๋ฆฌ์–ด๋ฅผ ๊ด€์ฐฐํ•  ๊ฐ€๋Šฅ์„ฑ์€ 0.2๊ณ  ์˜ค๋ฅธ์ชฝ์€ 0.3์ด๋‹ค. ๋”ฐ๋ผ์„œ ๊ฐ€๋Šฅ๋„๋Š” ์™ผ์ชฝ๋ณด๋‹ค ์˜ค๋ฅธ์ชฝ์ด ๋” ํฌ๋‹ค.

  • ํ™•๋ฅ ์€ ์–ด๋–ค ์‹œํ–‰(trial, experiment)์—์„œ ํŠน์ • ๊ฒฐ๊ณผ(sample)๊ฐ€ ๋‚˜์˜ฌ ๊ฐ€๋Šฅ์„ฑ. ์ฆ‰, ์‹œํ–‰ ์ „ ๋ชจ๋“  ๊ฒฝ์šฐ์˜ ์ˆ˜์˜ ๊ฐ€๋Šฅ์„ฑ์€ ์ •ํ•ด์ ธ ์žˆ์œผ๋ฉฐ ๊ทธ ์ดํ•ฉ์€ 1(100%)์ด๋‹ค.

  • ๊ฐ€๋Šฅ๋„๋Š” ์–ด๋–ค ์‹œํ–‰(trial, experiment)์„ ์ถฉ๋ถ„ํžˆ ์ˆ˜ํ–‰ํ•œ ๋’ค ๊ทธ ๊ฒฐ๊ณผ(sample)๋ฅผ ํ† ๋Œ€๋กœ ๊ฒฝ์šฐ์˜ ์ˆ˜์˜ ๊ฐ€๋Šฅ์„ฑ์„ ๋„์ถœํ•˜๋Š” ๊ฒƒ. ์•„๋ฌด๋ฆฌ ์ถฉ๋ถ„ํžˆ ์ˆ˜ํ–‰ํ•ด๋„ ์–ด๋””๊นŒ์ง€๋‚˜ ์ถ”๋ก (inference)์ด๊ธฐ ๋•Œ๋ฌธ์— ๊ฐ€๋Šฅ์„ฑ์˜ ํ•ฉ์ด 1์ด ๋˜์ง€ ์•Š์„ ์ˆ˜๋„ ์žˆ๋‹ค.

Reference


ํ†ต๊ณ„์—์„œ ์‚ฌ์šฉ๋˜๋Š” bootstrap์˜ ์˜๋ฏธ๋Š” ๋ฌด์—‡์ธ๊ฐ€์š”.

๐Ÿ’ก ๋‹จ์ผ ๋žœ๋ค ํ‘œ๋ณธ์—์„œ ๋ณต์› ์ถ”์ถœ์„ ์ง„ํ–‰ํ•ด์„œ ํ‘œ๋ณธ ์ถ”์ถœ ๋ถ„ํฌ๋ฅผ ์ถ”์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ ๋Œ€ํ‘œ์ ์ธ ๋ฆฌ์ƒ˜ํ”Œ๋ง ๊ธฐ๋ฒ• ์ค‘ ํ•˜๋‚˜

  • ์žฅ์  : ํ‰๊ท (mean)๊ฐ™์ด ํ‘œ์ค€ ์˜ค์ฐจ๊ฐ€ ์ž˜ ์•Œ๋ ค์ง„ ์ถ”์ •๋Ÿ‰๋“ค์€ ์ด๋Ÿฐ ๋ถ€ํŠธ์ŠคํŠธ๋žฉ ๊ฐ™์€ ๋ฐฉ๋ฒ•์„ ์“ธ ์ด์œ ๊ฐ€ ์—†์ง€๋งŒ ํ‘œ์ค€ ์˜ค์ฐจ๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐฉ๋ฒ•์ด ์ž˜ ์•Œ๋ ค์ ธ ์žˆ์ง€ ์•Š์€ ์ถ”์ •๋Ÿ‰๋“ค์˜ ๊ฒฝ์šฐ ๋ถ€ํŠธ์ŠคํŠธ๋žฉ ๋ฐฉ๋ฒ•์„ ํ†ตํ•ด ์˜ค์ฐจ ๋ฒ”์œ„๋ฅผ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ์Œ

  • ์‚ฌ์šฉ ์‹œ๊ธฐ : ํ™•๋ฅ  ๋ณ€์ˆ˜์˜ ์ •ํ™•ํ•œ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ๋ชจ๋ฅด๋Š” ๊ฒฝ์šฐ๋‚˜ ์ธก์ •๋œ ์ƒ˜ํ”Œ์ด ๋ถ€์กฑํ•œ ๊ฒฝ์šฐ

  • ์‹ ๋ขฐ ๊ตฌ๊ฐ„์„ ๊ตฌํ•˜๋Š” ์ ˆ์ฐจ

    1. ์ „์ฒด n๊ฐœ์˜ ํ‘œ๋ณธ ์ค‘ ํ•˜๋‚˜๋ฅผ ๋ฝ‘์•„ ๊ธฐ๋ก ํ›„ ๋‹ค์‹œ ํ‘œ๋ณธ์— ์‚ฝ์ž…
    2. m๋ฒˆ ๋ฐ˜๋ณต
    3. m๋ฒˆ ์žฌํ‘œ๋ณธ์ถ”์ถœํ•œ ๊ฐ’์˜ ํ‰๊ท ์„ ๊ณ„์‚ฐ
    4. 1~3๋ฒˆ์„ K๋ฒˆ ๋ฐ˜๋ณต(K๊ฐ€ ํด์ˆ˜๋ก ์‹ ๋ขฐ๊ตฌ๊ฐ„ ์ถ”์ •์ด ์ •ํ™•ํ•ด์ง)
    5. ํ‰๊ท ์— ๋Œ€ํ•œ ๊ฒฐ๊ณผ K๊ฐœ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์‹ ๋ขฐ๊ตฌ๊ฐ„์„ ๊ตฌํ•จ

Reference


๋ชจ์ง‘๋‹จ์˜ ์ˆ˜๊ฐ€ ๋งค์šฐ ์ ์€ (์ˆ˜์‹ญ๊ฐœ ์ดํ•˜) ์ผ€์ด์Šค์˜ ๊ฒฝ์šฐ ์–ด๋–ค ๋ฐฉ์‹์œผ๋กœ ์˜ˆ์ธก ๋ชจ๋ธ์„ ์ˆ˜๋ฆฝํ•  ์ˆ˜ ์žˆ์„๊นŒ์š”?

๐Ÿ’ก ํ‘œ๋ณธ์˜ ์ˆ˜๊ฐ€ ์ ์€ ๊ฒฝ์šฐ๋ผ๋„ ๋ชจ์ง‘๋‹จ์ด ์ •๊ทœ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅธ ๋‹ค๋ฉด ๋ชจ์ˆ˜์  ๋ฐฉ๋ฒ•์„ ํ†ตํ•ด ์˜ˆ์ธก ๋ชจ๋ธ์„ ์ˆ˜๋ฆฝํ•  ์ˆ˜ ์žˆ๋‹ค.
ํ•˜์ง€๋งŒ ์ •๊ทœ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅด๋Š”์ง€ ์•Œ ์ˆ˜ ์—†๋‹ค๋ฉด Shapiro-Wilk ๊ฒ€์ • ๋“ฑ์˜ ๋ชจ์ง‘๋‹จ ์ •๊ทœ์„ฑ ๊ฒ€์ฆ์„ ํ†ตํ•ด ์ •๊ทœ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅด๋Š”์ง€ ๊ฒ€์ฆํ•ด๋ณผ ์ˆ˜ ์žˆ๊ณ  ๊ฒ€์ฆ๋„ ๋˜์ง€ ์•Š๋Š”๋‹ค๋ฉด ์ด๋•Œ๋Š” ๋น„๋ชจ์ˆ˜์ ์ธ ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•ด์•ผํ•œ๋‹ค.

  • ์ •๊ทœ์„ฑ ๊ฒ€์ • โ†’ ํ‘œ๋ณธ์„ ํ†ตํ•ด ๋ชจ์ง‘๋‹จ์ด ์ •๊ทœ ๋ถ„ํฌํ•˜๋Š”์ง€ ๊ฒ€์ •ํ•˜๋Š” ๊ฒƒ
    • Null Hypothesis : ๋ชจ์ง‘๋‹จ์ด ์ •๊ทœ๋ถ„ํฌ๋ฅผ ์ด๋ฃจ๊ณ  ์žˆ๋‹ค๊ณ  ๊ฒ€์ •
    • Alternative Hypothesis : ๋ชจ์ง‘๋‹จ์ด ์ •๊ทœ๋ถ„ํฌ๋ฅผ ์ด๋ฃจ๊ณ  ์žˆ์ง€ ์•Š๋‹ค๊ณ  ๊ฒ€์ •
    • ๊ฒ€์ •๋ฐฉ๋ฒ•
      • Shapiro-Wilk ๊ฒ€์ • : ์†Œํ‘œ๋ณธ์— ํ‰๊ท ์„ ํ™œ์šฉํ•œ ๊ฒ€์ •์„ ์œ„ํ•œ ๋ชจ์ง‘๋‹จ ์ •๊ทœ์„ฑ ๊ฒ€์ •์— ์ ํ•ฉ
      • Kolmogorov-Smirnov ๊ฒ€์ • : ์†Œํ‘œ๋ณธ์— ํ‰๊ท ์„ ํ™œ์šฉํ•œ ๊ฒ€์ •์„ ์œ„ํ•œ ๋ชจ์ง‘๋‹จ ์ •๊ทœ์„ฑ ๊ฒ€์ •์— ์ ํ•ฉ
  • ๋น„๋ชจ์ˆ˜์  ๋ฐฉ๋ฒ•๋ก  : ๋น„๋ชจ์ˆ˜์  ๋ฐฉ๋ฒ•์€ ๊ฒ€์ •๋ ฅ์ด ๋‹ค์†Œ ๋–จ์–ด์ง€๊ณ , ํฌ๊ธฐ์˜ ์ฐจ์ด๋ฅผ ๋ณด์—ฌ์ฃผ์ง€ ๋ชปํ•˜๋Š” ๋Œ€์‹ ์— ํ‘œ๋ณธ์ˆ˜๊ฐ€ ์ž‘์€ ๊ฒฝ์šฐ์ด๊ฑฐ๋‚˜ ์ˆœ์œ„ ์ฒ™๋„์ธ ๊ฒฝ์šฐ๋ฅผ ๋น„๋กฏํ•˜์—ฌ ์ˆซ์ž๋กœ ๋˜์–ด ์žˆ๋Š” ๋ชจ๋“  ๊ฒฝ์šฐ์— ์ ์šฉ์„ ํ•  ์ˆ˜ ์žˆ๋Š” ์žฅ์ ์ด ์žˆ๋‹ค.
    • KNN, Random forest, Decision Tree
    • ๋ถ€ํ˜ธ ๊ฒ€์ •(sign test): ๋ถ„ํฌ์˜ ์ค‘์•™๊ฐ’์— ๋Œ€ํ•˜์—ฌ ๊ฒ€์ •ํ•˜๋Š” ๊ธฐ๋ฒ•์œผ๋กœ, ํ‘œ๋ณธ์ž๋ฃŒ๋ณด๋‹ค ํฐ ๊ฒƒ์€ + ์ž‘์€ ๊ฒƒ์€ - ๋ฅผ ๋ถ€์—ฌํ•˜์—ฌ ๊ฐœ์ˆ˜๋ฅผ ๋น„๊ต
    • ๋Ÿฐ(run) ๊ฒ€์ •: ์–ด๋–ค ํŒจํ„ด์ด๋‚˜ ๊ฒฝํ–ฅ์ด ์—†์ด ๋žœ๋คํ•˜๊ฒŒ ๊ตฌ์„ฑ๋˜์—ˆ๋‹ค๋Š” ๊ท€๋ฌด๊ฐ€์„ค์„ ๊ฒ€์ •ํ•˜๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ•, ํ‘œ๋ณธ ๋ฐ์ดํ„ฐ๋ฅผ ์„œ๋กœ ๋ฐฐํƒ€์ ์ธ 2๊ฐœ์˜ ๋ฒ”์ฃผ๋กœ ๋‚˜๋ˆ„์–ด ์ ‘๊ทผ
    • Wilcoxon ์ˆœ์œ„ํ•ฉ ๊ฒ€์ •(Mann-Whitney ๊ฒ€์ •): ๋‘ ๋ชจ์ง‘๋‹จ์˜ ์ค‘์•™๊ฐ’์ด ๊ฐ™๋‹ค๋Š” ๊ท€๋ฌด๊ฐ€์„ค์— ๋Œ€ํ•˜์—ฌ ๋น„๋ชจ์ˆ˜์ ์œผ๋กœ ๊ฒ€์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ ๋‘ ๋ชจ์ง‘๋‹จ์€ ์„œ๋กœ ๋…๋ฆฝ์ด์–ด์•ผ ํ•จ.
    • Wilcoxon ๋ถ€ํ˜ธ ์žˆ๋Š” ์ˆœ์œ„ ๊ฒ€์ •: ๋‘ ๋ชจ์ง‘๋‹จ์ด ๋…๋ฆฝ์ด ์•„๋‹ ์‹œ ์‚ฌ์šฉ
    • Kruskal-Wallis ๊ฒ€์ •: 3๊ฐœ ์ด์ƒ์˜ ๋ชจ์ง‘๋‹จ์„ ๋น„๊ตํ•˜๋Š”๋ฐ ์‚ฌ์šฉ๋˜๋Š” ๋น„๋ชจ์ˆ˜ ๊ฒ€์ •

Reference


๋ฒ ์ด์ง€์•ˆ๊ณผ ํ”„๋ฆฌํ€€ํ‹ฐ์ŠคํŠธ ๊ฐ„์˜ ์ž…์žฅ์ฐจ์ด๋ฅผ ์„ค๋ช…ํ•ด์ฃผ์‹ค ์ˆ˜ ์žˆ๋‚˜์š”?

๋ฒ ์ด์ง€์•ˆ์€ ํ˜„์žฌ๊นŒ์ง€ ์–ป์€ ํ‘œ๋ณธ์„ ์—…๋ฐ์ดํŠธ ํ•˜์—ฌ ์‚ฌํ›„ํ™•๋ฅ ์„ ๊ณ„์‚ฐํ•œ๋‹ค. ๋ชจ์ˆ˜๊ฐ€ ๊ณ ์ •๋˜์–ด ์žˆ์ง€ ์•Š๊ณ  ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์— ์˜ํ•ด ๋ฐ”๋€” ์ˆ˜ ์žˆ๋‹ค๊ณ  ์ƒ๊ฐํ•œ๋‹ค. ํ”„๋ฆฌํ€€ํ‹ฐ์ŠคํŠธ๋Š” ํ˜„์žฌ๊นŒ์ง€ ์–ป์€ ํ‘œ๋ณธ ์™ธ์— ์–ป์„ ์˜ˆ์ •์ด๊ฑฐ๋‚˜ ์–ป์ง€ ๋ชปํ•œ ํ‘œ๋ณธ๊นŒ์ง€๋„ ๋ถ„์„ํ•˜์—ฌ ๋ชจ์ˆ˜๋ฅผ ์ถ”์ •ํ•œ๋‹ค. ๋˜ํ•œ ๋ชจ์ˆ˜๋Š” ๊ณ ์ •๋˜์–ด ์žˆ๋‹ค๊ณ  ์ƒ๊ฐํ•œ๋‹ค.

์˜ˆ์‹œ๋กœ ๋ถ€๋•์ด๊ฐ€ ์•ฝ์† ์‹œ๊ฐ„์— ๋Šฆ๋Š” ์‹œ๊ฐ„์ด $N(10,5^2)$๋ฅผ ๋”ฐ๋ฅธ๋‹ค๊ณ  ๊ฐ€์ •ํ•˜๋ฉด ํ”„๋ฆฌํ€€ํ‹ฐ์ŠคํŠธ๋Š” โ€œ๋ถ€๋•์ด๋Š” ์›๋ž˜ 10๋ถ„์”ฉ ๋Šฆ๋Š” ์• ์•ผ.โ€ ๋ผ๊ณ  ๋ชจ์ˆ˜๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์ถ”๋ก ํ•˜์—ฌ ๋Œ€๋‹ตํ•  ๊ฒƒ์ด๊ณ ,๋ฒ ์ด์ง€์•ˆ์€ โ€œ๋ถ€๋•์ด๋Š” ๋งจ๋‚  ๋ณด๋ฉด 10๋ถ„ ์ •๋„ ๋Šฆ๋”๋ผ.โ€ ๋ผ๊ณ  ๋ชจ์ˆ˜์˜ ๋ถ„ํฌ๋ฅผ ์ถ”๋ก ํ•˜์—ฌ 10๋ถ„ ๋Šฆ์„ ํ™•๋ฅ ์ด ๊ฐ€์žฅ ๋†’๋‹ค๊ณ  ํŒ๋‹จํ•˜์—ฌ ์ด์™€ ๋น„์Šทํ•œ ๋Œ€๋‹ต์„ ํ•  ๊ฒƒ์ด๋‹ค.

๊ด€์ ์— ๋”ฐ๋ฅธ ์ฐจ์ด์ผ ๋ฟ ํ†ต๊ณ„์  ์ถ”๋ก ์— ์˜ํ•ด ๋‚˜์˜จ ๋Œ€๋‹ต์ธ ๊ฒƒ์€ ์ฐจ์ด๊ฐ€ ์—†๋‹ค. ํ•˜์ง€๋งŒ ๋ถ€๋•์ด๊ฐ€ ์•ฝ์†์‹œ๊ฐ„์— ์ •ํ™•ํžˆ ๋งž์ถฐ์™”์„ ๋•Œ ๋‘˜์˜ ์ž…์žฅ ์ฐจ์ด๊ฐ€ ์ƒ๊ธด๋‹ค.

ํ”„๋ฆฌํ€€ํ‹ฐ์ŠคํŠธ๋Š” โ€œ๋ถ€๋•์ด๊ฐ€ ์ œ ์‹œ๊ฐ„์— ๋งž์ถฐ ์˜ค๋Š”๊ฑด ๊ทธ ํ™•๋ฅ ์ด 3% ๊ฐ€ ์•ˆ ๋  ์ •๋„๋กœ ๋“œ๋ฌธ ๊ฒฝ์šฐ๊ธด ํ•ด.โ€ ๋ฒ ์ด์ง€์•ˆ๋Š” โ€œ๋ถ€๋•์ด๊ฐ€ ์ผ์ฐ ์˜ฌ ๋•Œ๋„ ์žˆ๊ตฌ๋‚˜. ๋‹ค์Œ์—๋„ ์ด ๋•Œ ์˜ฌ๊นŒ?โ€

๊ทธ๋ฆฌ๊ณ  ๋‘˜์—๊ฒŒ ๋ถ€๋•์ด๊ฐ€ ๋‹ค์Œ๋ฒˆ์—๋„ ์•ฝ์†์‹œ๊ฐ„์— ์ •ํ™•ํžˆ ๋‚˜์˜ฌ ๊ฒƒ์ธ์ง€ ๋ฌผ์–ด๋ณธ๋‹ค๋ฉด ๋Œ€๋‹ต์€ ํฌ๊ฒŒ ๋‹ฌ๋ผ์ง„๋‹ค.

ํ”„๋ฆฌํ€€ํ‹ฐ์ŠคํŠธ๋Š” โ€œ๋ถ€๋•์ด๊ฐ€ ๋ฐ”๋€ ๊ฒƒ์ด๋ผ๊ณ  ๋ณด๊ธด ํž˜๋“ค์–ด ์•ฝ์† ์‹œ๊ฐ„์— ๋งž์ถฐ ๋‚˜์˜ค๋Š” ๊ฒƒ์€ ์ผ์–ด๋‚  ์ˆ˜ ์žˆ๋Š” ์ผ์ด์•ผโ€ ๋ฒ ์ด์ง€์•ˆ์€ โ€œ๋ถ€๋•์ด๊ฐ€ ๋Šฆ๊ฒŒ ๋‚˜์˜ฌ ํ™•๋ฅ ์€ ์—ฌ์ „ํžˆ ๋†’์ง€๋งŒ ์•ฝ์† ์‹œ๊ฐ„์— ๋งž์ถฐ ๋‚˜์˜ฌ ํ™•๋ฅ ์ด ์˜ฌ๋ผ๊ฐ„ ๊ฒƒ๋„ ์‚ฌ์‹ค์ด์•ผโ€

ํ”„๋ฆฌํ€€ํ‹ฐ์ŠคํŠธ๋Š” ์ƒˆ๋กญ๊ฒŒ ์–ป์€ ๊ด€์ธก๊ฐ’์ด ์ด๋ฏธ ๋‚ด๋ฆฐ ๊ฒฐ๋ก ์— ๋ถ€ํ•ฉํ•˜๋Š”์ง€๋งŒ์„ ํ™•์ธํ•  ๋ฟ์ด์ง€๋งŒ ๋ฒ ์ด์ง€์•ˆ์€ ๊ธฐ์กด์— ๊ฐ–๊ณ  ์žˆ๋˜ ๊ฒฐ๋ก ์— ์ฆ‰์‹œ ์—…๋ฐ์ดํŠธํ•จ์œผ๋กœ์จ ์ƒˆ๋กœ์šด ์‚ฌํ›„๋ถ„ํฌ๋ฅผ ๊ตฌํ•œ ๊ฒƒ์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

  • ๋จธ์‹ ๋Ÿฌ๋‹ ๋ถ„์•ผ์—์„œ ๋ฒ ์ด์ง€์•ˆ ๋ฐฉ๋ฒ•๋ก ์ด ํฌ๊ฒŒ ํ™œ์šฉ๋œ ์ด์œ 

    • ๋ฒ ์ด์ฆˆ๋ฃฐ์„ ๊ณ„์‚ฐํ•˜๊ธฐ ์œ„ํ•œ ์กฐ๊ฑด โ†’ ์ด์ „์—๋Š” ๊ณ„์‚ฐํ•˜๊ธฐ ๊นŒ๋‹ค๋กœ์›€
      1. ๊ฐ€๋Šฅ๋„: ํŒŒ๋ผ๋ฏธํ„ฐ($\theta$)๋ฅผ ๋ฐฐ๊ฒฝ์œผ๋กœ ํ•˜๋Š” ๊ด€์ธก๊ฒฐ๊ณผ($D$)์˜ ํ™•๋ฅ 
      2. ์‚ฌ์ „ํ™•๋ฅ : ํŒŒ๋ผ๋ฏธํ„ฐ($\theta$)์˜ ํ™•๋ฅ 
      3. ์ •๊ทœํ™”์ƒ์ˆ˜ : D ์ž์ฒด์˜ ํ™•๋ฅ 

    โ†’ ์ปดํ“จํŒ… ๊ธฐ์ˆ  ๋ฐ ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ๋ฐœ๋‹ฌ๋กœ ๋น ๋ฅธ ์†๋„๋กœ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜๋ฉด์„œ ๋ณดํŽธ์ ์œผ๋กœ ์ ์šฉ

  • ๋นˆ๋„๋ก 

    ์žฅ์ : ๋Œ€์šฉ๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ๋งŒ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋‹ค๋ฉด ๊ณ„์‚ฐ์ด ๋ณต์žกํ•˜์ง€ ์•Š์•„์„œ ์‰ฝ๊ฒŒ ์ฒ˜๋ฆฌ ๊ฐ€๋Šฅ

    ๋‹จ์ : ๋ฐ์ดํ„ฐ ๋ถ€์ , ๊ฒฐ์ธก์น˜ ์กด์žฌ, ์•„์›ƒ๋ผ์ด์–ด ํฌํ•จ ๋“ฑ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถˆํ™•์‹คํ•œ ๊ฒฝ์šฐ ๊ฒฐ๊ณผ๋ฌผ์˜ ์งˆ์ด ๋‚ฎ์•„์ง

  • ๋ฒ ์ด์ง€์•ˆ

    ์žฅ์ : ํ™•๋ฅ  ๋ชจ๋ธ์ด ๋ช…ํ™•ํžˆ ์„ค์ •๋˜์–ด ์žˆ๋‹ค๋ฉด ๋ฒ ์ด์ง€์•ˆ์œผ๋กœ ๊ฒ€์ฆ๋œ ๊ฐ€์„ค์˜ ํƒ€๋‹น์„ฑ์ด ๋†’์€ ๊ฒƒ์œผ๋กœ ๊ณ ๋ ค๋จ

    ๋‹จ์ : ์‚ฌ์ „ํ™•๋ฅ ์— ๋Œ€ํ•œ ๋ชจ๋ธ๋ง์ด ์–ด๋ ต๊ณ  ๋ชจ๋ธ๋ง์— ๋”ฐ๋ผ ๊ฒฐ๊ณผ๊ฐ€ ํฌ๊ฒŒ ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ์Œ

Reference


๊ฒ€์ •๋ ฅ(statistical power)์€ ๋ฌด์—‡์ผ๊นŒ์š”?

๐Ÿ’ก ๋Œ€๋ฆฝ๊ฐ€์„ค์ด ์‚ฌ์‹ค์ผ ๋•Œ, ์ด๋ฅผ ์‚ฌ์‹ค๋กœ์„œ ๊ฒฐ์ •ํ•  ํ™•๋ฅ  = ๊ท€๋ฌด๊ฐ€์„ค์„ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ๊ธฐ๊ฐํ•˜๋Š” ํ™•๋ฅ 

๊ฒ€์ •๋ ฅ์ด 90%๋ผ๊ณ  ํ•˜๋ฉด, ๋Œ€๋ฆฝ๊ฐ€์„ค์ด ์‚ฌ์‹ค์ž„์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ ย ๊ท€๋ฌด๊ฐ€์„ค์„ ์ฑ„ํƒํ•  ํ™•๋ฅ (2์ข… ์˜ค๋ฅ˜, ฮฒ error)์˜ ํ™•๋ฅ ์€ 10%์ด๋‹ค. ๊ฒ€์ •๋ ฅ์ด ์ข‹์•„์ง€๊ฒŒ ๋˜๋ฉด, 2์ข… ์˜ค๋ฅ˜(ฮฒ error)๋ฅผ ๋ฒ”ํ•  ํ™•๋ฅ ์€ ์ž‘์•„์ง€๊ฒŒ ๋œ๋‹ค. ๋”ฐ๋ผ์„œ ๊ฒ€์ •๋ ฅ์€ 1-ฮฒ๊ณผ ๊ฐ™๋‹ค.

๊ฒ€์ •๋ ฅ์„ ๋†’์ด๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ•

  1. ์œ ์˜ ์ˆ˜์ค€(1์ข… ์˜ค๋ฅ˜)์„ ๋†’ํžŒ๋‹ค. == ์‹ ๋ขฐ ์ˆ˜์ค€์„ ๋‚ฎ์ถ˜๋‹ค.

  2. ํ‘œ๋ณธ์˜ ํฌ๊ธฐ๋ฅผ ํ‚ค์šด๋‹ค.

  3. ํšจ๊ณผ ํฌ๊ธฐ(๋‘ ๋ชจ์ง‘๋‹จ์˜ ์ฐจ์ด)๋ฅผ ํ‚ค์šด๋‹ค.

ํšจ๊ณผ ํฌ๊ธฐ๋ž€?

์—ฐ๊ตฌ๋˜๋Š” ํ˜„์ƒ์ด ์‹ค์ œ๋กœ ๋ชจ์ง‘๋‹จ์— ์กด์žฌํ•˜๋Š” ์ •๋„

์ง‘๋‹จ ์ฐจ์ด ๊ฒ€์ฆ ์‹œ, ์ง‘๋‹จ ํ‰๊ท  ๊ฐ’๋“ค์˜ ์ฐจ์ด๋ฅผ ํ‘œ์ค€ํŽธ์ฐจ๋กœ ๋‚˜๋ˆ  ์ฐจ์ด๊ฐ€ ํด์ˆ˜๋ก ํšจ๊ณผ ํฌ๊ธฐ๋Š” ํฌ๊ฒŒ ๋‚˜ํƒ€๋‚จ

1์ข… ์˜ค๋ฅ˜, 2์ข… ์˜ค๋ฅ˜, ๊ฒ€์ฆ๋ ฅ๊ณผ์˜ ๊ด€๊ณ„

์™ผ์ชฝ์˜ ๋ถ„ํฌ๋Š” ๊ท€๋ฌด๊ฐ€์„ค์˜ ํ™•๋ฅ ๋ถ„ํฌ์ด๊ณ  ์˜ค๋ฅธ์ชฝ์€ ํ‘œ๋ณธ์„ ํ†ตํ•ด ๊ตฌํ•œ ๋Œ€๋ฆฝ๊ฐ€์„ค์˜ ํ™•๋ฅ ๋ถ„ํฌ์ด๋‹ค.

Any mean์„ ๊ธฐ์ค€์œผ๋กœ ์˜ค๋ฅธ์ชฝ์€ ๋Œ€๋ฆฝ๊ฐ€์„ค์„ ์ฑ„ํƒํ•˜๊ณ , ์™ผ์ชฝ์€ ๊ท€๋ฌด๊ฐ€์„ค์„ ์ฑ„ํƒํ•œ๋‹ค.

  • 1์ข… ์˜ค๋ฅ˜: ๊ท€๋ฌด๊ฐ€์„ค์ด ๋งž๋Š”๋ฐ ํ‹€๋ฆฌ๋‹ค๊ณ  ํ•จ (๋Œ€๋ฆฝ๊ฐ€์„ค ์ฑ„ํƒ)
  • 2์ข… ์˜ค๋ฅ˜: ๊ท€๋ฌด๊ฐ€์„ค์ด ํ‹€๋ฆฐ๋ฐ ๋งž๋‹ค๊ณ  ํ•จ (๊ท€๋ฌด๊ฐ€์„ค ์ฑ„ํƒ)
  • ๊ฒ€์ •๋ ฅ: ๊ท€๋ฌด๊ฐ€์„ค์ด ํ‹€๋ ธ์„ ๋•Œ, ๊ท€๋ฌด๊ฐ€์„ค์„ ๊ธฐ๊ฐ์‹œํ‚ฌ ํ™•๋ฅ 
    • ์œ ์˜์ˆ˜์ค€ (1์ข… ์˜ค๋ฅ˜):์œ ์˜์ˆ˜์ค€์ด ์ปค์งˆ์ˆ˜๋ก (5%์—์„œ 10%๋กœ), ์ฆ‰ ์‹ ๋ขฐ๋„๊ฐ€ ๋‚˜๋น ์งˆ์ˆ˜๋ก ๊ฒ€์ •๋ ฅ์€ ์ข‹์•„์ง„๋‹ค.
    • ํ‘œ์ค€ํŽธ์ฐจ๊ฐ€ ์ปค์ง€๋ฉด ๊ฒ€์ •๋ ฅ์€ ๋‚˜๋น ์ง„๋‹ค.
    • ๋‘ ๋ชจ์ง‘๋‹จ ๊ฐ„์˜ ์ฐจ์ด๊ฐ€ ์ž‘์„์ˆ˜๋ก ๊ฒ€์ •๋ ฅ์€ ๋‚˜๋น ์ง„๋‹ค.
    • ํ‘œ๋ณธ์˜ ํฌ๊ธฐ๊ฐ€ ํด์ˆ˜๋ก ๊ฒ€์ •๋ ฅ์€ ์ฆ๊ฐ€ํ•œ๋‹ค.

Reference


missing value๊ฐ€ ์žˆ์„ ๊ฒฝ์šฐ ์ฑ„์›Œ์•ผ ํ• ๊นŒ์š”? ๊ทธ ์ด์œ ๋Š” ๋ฌด์—‡์ธ๊ฐ€์š”?

๐Ÿ’ก ๊ฒฐ์ธก์น˜(๊ฒฐ์ธก๊ฐ’, Missing value)๊ฐ€ ๋ฐœ์ƒํ•œ ์›์ธ์˜ ๋ฌด์ž‘์œ„์„ฑ๊ณผ ๊ฒฐ์ธก์น˜์™€ ๋ณ€์ˆ˜์™€์˜ ์ƒ๊ด€๊ด€๊ณ„ ์ •๋„์— ๋”ฐ๋ผ ๊ฒฐ์ธก์น˜๋ฅผ ๋Œ€์ฒด, ์‚ญ์ œ ์—ฌ๋ถ€๋ฅผ ํŒ๋‹จํ•œ๋‹ค.
๊ฒฐ์ธก์น˜๋ฅผ ์‚ญ์ œํ•  ๋•Œ ๊ฒฐ์ธก์ด ์ผ์–ด๋‚œ ๋ณ€์ˆ˜๋ฅผ ๋ฒ„๋ฆด ๊ฒƒ์ธ์ง€, ๊ฐœ์ฒด๋ฅผ ๋ฒ„๋ฆด ๊ฒƒ์ธ์ง€ ๋“ฑ์„ ๊ฒฐ์ธก๊ณผ ๋ณ€์ˆ˜์˜ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ํ†ตํ•ด ํŒ๋‹จํ•ด์•ผ ํ•œ๋‹ค.
๋˜ํ•œ ๊ฒฐ์ธก์น˜๋ฅผ ๋Œ€์ฒดํ•˜์—ฌ ์ฑ„์šด๋‹ค๋ฉด ํ‰๊ท ๊ฐ’, ์ค‘์•™๊ฐ’, ์˜ˆ์ธก๊ฐ’ ๋“ฑ ์ ์ ˆํ•œ ๊ฐ’์œผ๋กœ ์ฑ„์›Œ์ค˜์•ผ ํ•œ๋‹ค.

๊ฒฐ์ธก์น˜๋ฅผ ์ฑ„์šฐ์ง€ ์•Š๋Š”๋‹ค๋ฉด ์žฅ์ ์œผ๋กœ๋Š” ๊ฒฐ์ธก์น˜ ์ œ๊ฑฐ๋ฅผ ํ†ตํ•ด์„œ ๊ฐ•๊ฑดํ•œ ๋ชจ๋ธ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ์ ์ด๋‹ค. ํ•˜์ง€๋งŒ ๋‹จ์ ์œผ๋กœ๋Š” ์ •๋ณด์˜ ๋ถ€์กฑ์ด ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๊ณ , ์ด๋กœ ์ธํ•ด ์˜คํžˆ๋ ค ๋‚˜์œ ์„ฑ๋Šฅ์„ ๊ฐ€์ง„ ๋ชจ๋ธ์„ ์–ป๊ฒŒ ๋  ์ˆ˜๋„ ์žˆ๋‹ค.

  • ๊ฒฐ์ธก์น˜ ๋ฐœ์ƒ ์›์ธ
    • ์™„์ „ ๋ฌด์ž‘์œ„ ๊ฒฐ์ธก (MCAR: Missing completely at random)ย : ๊ฒฐ์ธก์น˜์˜ ๋ฐœ์ƒ์ด ๋‹ค๋ฅธ ๋ณ€์ˆ˜๋“ค๊ณผ ์•„๋ฌด๋Ÿฐ ์ƒ๊ด€์ด ์—†๋Š” ๊ฒฝ์šฐ. (์ „์‚ฐ์˜ค๋ฅ˜, ์‚ฌ๋žŒ์˜ ์‹ค์ˆ˜ ๋“ฑ์œผ๋กœ ๋ฐœ์ƒ)
    • ๋ฌด์ž‘์œ„ ๊ฒฐ์ธก (MAR: Missing at random)ย : ๊ฒฐ์ธก์น˜์˜ ๋ฐœ์ƒ์ด ํŠน์ • ๋ณ€์ˆ˜์™€ ๊ด€๋ จ๋˜์–ด ์ผ์–ด๋‚˜์ง€๋งŒ, ๊ทธ ๋ณ€์ˆ˜์˜ ๊ฒฐ๊ณผ์™€๋Š” ๊ด€๋ จ์ด ์—†๋Š” ๊ฒฝ์šฐ (ex. ์šฐ์šธ์ฆ์— ๋Œ€ํ•œ ์„ค๋ฌธ์กฐ์‚ฌ๋ฅผ ํ•  ๋•Œ ๋‚จ์„ฑ์€ ์‘๋‹ต์„ ๊บผ๋ฆฌ๋Š”(์‘๋‹ต ๋ˆ„๋ฝ) ๊ฒฝํ–ฅ์ด ์žˆ์ง€๋งŒ, ๊ทธ๊ฒƒ์ด ์šฐ์šธ์ฆ ์—ฌ๋ถ€์™€๋Š” ๊ด€๋ จ์ด ์—†์Œ)
    • ๋น„๋ฌด์ž‘์œ„ ๊ฒฐ์ธก (MNAR: Missing not at random)ย : ๊ฒฐ์ธก์น˜์˜ ๋ฐœ์ƒ์ด ๋‹ค๋ฅธ ๋ณ€์ˆ˜์™€ ๊ด€๋ จ ์žˆ๋Š” ๊ฒฝ์šฐ (ex. ์œ„์˜ ์˜ˆ์—์„œ ๋‚จ์„ฑ์˜ ์šฐ์šธ์ฆ ์„ค๋ฌธ์กฐ์‚ฌ ์ฐธ์—ฌ์œจ(์‘๋‹ต๋ฅ )์ด ์šฐ์šธ์ฆ์˜ ์ •๋„์™€ ๊ด€๋ จ์žˆ๋Š” ๊ฒฝ์šฐ)

  • ๊ฒฐ์ธก์น˜ ์ฒ˜๋ฆฌ ๋ฐฉ๋ฒ•
    • ๋Œ€์ฒด
      • ๋‹จ์ˆœ ๋Œ€์ฒด(Single Imputation)
        • ํ‰๊ท ๊ฐ’, ์ค‘์•™๊ฐ’ ๋Œ€์ฒด: Mean, Median, Mode ๋“ฑ์œผ๋กœ ๋Œ€์ฒด(์—ฐ์†ํ˜•)
        • ์ตœ๋นˆ๊ฐ’์œผ๋กœ ์ฑ„์šฐ๊ธฐ(์นดํ…Œ๊ณ ๋ฆฌํ˜•)
        • ๊ฐ€์žฅ ๋งˆ์ง€๋ง‰์— ํ™•์ธํ•œ ๊ฐ’์œผ๋กœ ์ฑ„์šฐ๊ธฐ(์‹œ๊ณ„์—ด)
        • ํšŒ๊ท€ ๋Œ€์ฒด: ๊ด€์ธก๋œ ๋ฐ์ดํ„ฐ๋กœ 1์ฐจ ํšŒ๊ท€์„ ๊ณผ ML ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋“ฑ์˜ ์˜ˆ์ธก ๋ชจ๋ธ์„ ํ™œ์šฉํ•˜์—ฌ ์˜ˆ์ธก๊ฐ’์„ ๊ตฌํ•˜์—ฌ ๊ฒฐ์ธก๊ฐ’ ๋Œ€์ฒด(KNN)
        • ํ™•๋ฅ  ๋ชจํ˜• ๊ฐ’์œผ๋กœ ๋Œ€์ฒด: ๊ด€์ธก๋œ ๊ฐ’๋“ค์˜ ํ‰๊ท ๊ณผ ํ‘œ์ค€ํŽธ์ฐจ๋ฅผ ๊ณ„์‚ฐํ•˜์—ฌ ํ™•๋ฅ  ๋ชจํ˜•์˜ ๋ฌด์ž‘์œ„ ๊ฒฐ๊ณผ๋ฅผ ํ†ตํ•ด์„œ ๊ฒฐ์ธก๊ฐ’์„ ๋Œ€์ฒด
        • Hot deck: ์—ฐ๊ตฌ์ค‘์ธ ์ž๋ฃŒ์—์„œ ํ‘œ๋ณธ์„ ๋ฐ”ํƒ•์œผ๋กœ ๋น„์Šทํ•œ ๊ทœ์น™์„ ์ฐพ์•„ ๊ฒฐ์ธก์น˜๋ฅผ ๋Œ€์ฒด
        • Cold Deck: ์™ธ๋ถ€ ์ถœ์ฒ˜์—์„œ ๋น„์Šทํ•œ ์—ฐ๊ตฌ๋ฅผ ์ฐพ์•„ ์„ฑํ–ฅ์„ ์ฐพ๊ณ  ๊ฒฐ์ธก์น˜๋ฅผ ๋Œ€์ฒด
        • Substitution: ํ˜„์žฌ sample์— ํฌํ•จ๋˜์ง€ ์•Š์€ ๋‹ค๋ฅธ sample์˜ ๊ฐ’์œผ๋กœ ๊ฒฐ์ธก์น˜๋ฅผ ๋Œ€์ฒด
        • Datawig ํŒŒ์ด์ฌ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ํ†ตํ•ด ๋Œ€์ฒด
      • ๋‹ค์ค‘ ๋Œ€์ฒด(Multiple Imputation)
        • Simple Imputation์„ ์—ฌ๋Ÿฌ๋ฒˆ ๋ฐ˜๋ณตํ•ด์„œ ๊ฒฐ์ธก๊ฐ’์„ ๊ณ„์‚ฐํ•˜๊ณ  ๊ฒฐ์ธก๊ฐ’์˜ ํ‘œ๋ณธ์„ ๋งŒ๋“ฆ. ๋งŒ๋“ค์–ด์ง„ ํ‘œ๋ณธ์˜ ๋ถ„ํฌ๋ฅผ ํ†ตํ•ด ํ™•๋ฅ ์ ์œผ๋กœ ๊ฒฐ์ธก๊ฐ’์„ ๋Œ€์ฒด
    • ์‚ญ์ œ
      • ๋ณ€์ˆ˜ ์ œ๊ฑฐ
        • ๋ณ€์ˆ˜ ์ œ๊ฑฐ๋ฅผ ๊ณ ๋ คํ•  ๋•Œ ์ค‘์š”ํ•œ ๊ฒƒ์€ย ๋ณ€์ˆ˜์˜ ์ค‘์š”๋„์™€ย ๋‹ค๋ฅธ ๋ณ€์ˆ˜์™€์˜ ๊ด€๊ณ„์„ฑ์ด๋‹ค.ย 1) ์ƒ๋Œ€์ ์œผ๋กœ ์ค‘์š”๋„๊ฐ€ ๋‚ฎ๋‹ค๊ณ  ์ƒ๊ฐ๋˜๊ฑฐ๋‚˜ย 2) ํ•ด๋‹น ๋ณ€์ˆ˜์™€ ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ๋†’์€, ๊ฐ’์ด ์˜จ์ „ํžˆ ๋ณด์กด๋œ ๋‹ค๋ฅธ ๋ณ€์ˆ˜๊ฐ€ ์žˆ๋‹ค๋ฉด ๋ถ„์„์—์„œ ๊ฒฐ์ธก๊ฐ’์ด ํฌํ•จ๋œ ๋ณ€์ˆ˜๋ฅผ ์ œ์™ธํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๊ณ ๋ คํ•ด ๋ณผ ์ˆ˜ ์žˆ๋‹ค. ์ข€๋” ์‰ฌ์šด ๊ธฐ์ค€์€ย 3) ๋ณ€์ˆ˜์— ๊ฒฐ์ธก๊ฐ’์ด ์–ผ๋งˆ๋‚˜ ํฌํ•จ๋˜์—ˆ๋Š”์ง€ ์—ฌ๋ถ€๋‹ค. ๊ฒฐ์ธก๊ฐ’์ด ์ฐจ์ง€ํ•˜๋Š” ๋น„์ค‘์ด ์ ˆ๋ฐ˜์„ ๋„˜์–ด ๊ฐ„๋‹ค๋ฉด ํฌ๊ฒŒ ๊ณ ๋ฏผํ•  ํ•„์š”์—†์ด ๋ณ€์ˆ˜๋ฅผ ์‚ญ์ œํ•˜๋Š” ๊ฒƒ์„ ์ถ”์ฒœํ•œ๋‹ค.ย (๋ณ€์ˆ˜์— ๊ฒฐ์ธก๊ฐ’์ด ๋งŽ๋‹ค๋Š” ์˜๋ฏธ๋Š” ๋Œ€๊ฐœ์˜ ๊ฒฝ์šฐ ์ œ๋Œ€๋กœ ๊ด€๋ฆฌ๋˜๋Š” ๋ณ€์ˆ˜๊ฐ€ ์•„๋‹ˆ๊ฑฐ๋‚˜ ์ค‘์š”๋„๊ฐ€ ๋‚ฎ์„ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’๊ธฐ ๋•Œ๋ฌธ)
      • ๊ฐœ์ฒด ์ œ๊ฑฐ(Listwise Deletion)
        • ํŠน์ •ํ–‰์„ ํ†ต์งธ๋กœ ์‚ญ์ œ
        • ๊ฐœ์ฒด๋ฅผ ์ œ๊ฑฐํ•˜๋Š” ๊ฒฝ์šฐ๋Š” ๊ธฐ์ค€์ด ์กฐ๊ธˆ ๋‹ค๋ฅด๋‹ค. ๊ฐœ์ฒด(ํ‘œ๋ณธ) ์ˆ˜์— ๋น„ํ•ดย ๊ฒฐ์ธก์น˜๋ฅผ ๊ฐ€์ง„ ๊ฐœ์ฒด์˜ ์ˆ˜๋‚˜ ๋น„์ค‘์ด ํ™•์—ฐํžˆ ์ ์„ ๊ฒฝ์šฐ ์ œ๊ฑฐ๋ฅผ ๊ณ ๋ คํ•ด ๋ณผ ์ˆ˜๋„ ์žˆ๋‹ค.ย (์ด ๊ธฐ์ค€์€ ๋ณดํ†ต 10% ๋ฏธ๋งŒ ์ˆ˜์ค€์—์„œ ๋…ผ์˜๊ฐ€ ์ด๋ฃจ์–ด์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.)
        • Sample์˜ ์ˆ˜๊ฐ€ ์ ๋‹ค๋ฉด ํ‘œ๋ณธ ์ถ•์†Œ๋กœ ์ธํ•œ ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜๋„ ์žˆ์Œ
      • ํ•œ์Œ ์ œ๊ฑฐ(Pairwise Deletion)
        • ํŠน์ • ๊ฐ’์„ ์‚ญ์ œ

Reference


์•„์›ƒ๋ผ์ด์–ด์˜ ํŒ๋‹จํ•˜๋Š” ๊ธฐ์ค€์€ ๋ฌด์—‡์ธ๊ฐ€์š”?

๐Ÿ’ก ์•„์›ƒ๋ผ์ด์–ด(Outlier)๋Š” ๋ฐ์ดํ„ฐ ๋ถ„ํฌ๋ฅผ ๋ณด์•˜์„ ๋•Œ ๋น„์ •์ƒ์ ์ธ ์ˆ˜์น˜, ๋ถ„ํฌ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ๊ฐ’์„ ๋œปํ•œ๋‹ค.
์•„์›ƒ๋ผ์ด์–ด ํƒ์ง€ ๋ฐฉ๋ฒ•์€ ํฌ๊ฒŒ ํ†ต๊ณ„์  ๊ธฐ๋ฒ•, ์‹œ๊ฐํ™”, ๋จธ์‹ ๋Ÿฌ๋‹/์•Œ๊ณ ๋ฆฌ์ฆ˜/๋ชจ๋ธ๋ง ๋“ฑ์˜ ๋ถ„์„๊ธฐ๋ฒ• ํ™œ์šฉ์œผ๋กœ 3๊ฐ€์ง€๋กœ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ๊ณ  ํƒ์ง€ ๋ฐฉ๋ฒ•์— ๋”ฐ๋ผ ์ด์ƒ์น˜ ๊ธฐ์ค€ ๋˜ํ•œ ๋‹ค๋ฅด๋‹ค.

์ด์ƒ์น˜๋ฅผ ํƒ์ง€ํ•˜๋Š” ๋ฐฉ๋ฒ•์—๋Š” ํ‘œ์ค€ํŽธ์ฐจ(ESD), IQR(Interquantile Range), Isolation Forest ๋“ฑ์ด ์žˆ๋‹ค.

  • ํ†ต๊ณ„์  ๊ธฐ๋ฒ•
    • ESD(Estreme, Studentized Deviation)
      • ๋ฐ์ดํ„ฐ๊ฐ€ ์ •๊ทœ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅธ๋‹ค๊ณ  ํ–ˆ์„ ๋•Œ ํ‘œ์ค€ํŽธ์ฐจ๋ฅผ ์ด์šฉํ•ด ์ด์ƒ์น˜๋ฅผ ํƒ์ง€ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค.
      • ํ‰๊ท ์—์„œ ์ขŒ์šฐ๋กœ $3\sigma$๋ณด๋‹ค ๋” ๋–จ์–ด์ง„ ๋ฒ”์œ„๋ฅผ ์ด์ƒ์น˜๋กœ ๋ณธ๋‹ค
      • Z-score (ํ‘œ์ค€ํŽธ์ฐจ, Standard Score, Sigma, Standard Deviation) ๋ผ๊ณ ๋„ ๋ถˆ๋ฆฐ๋‹ค.

def determine_outlier_thresholds_std(dataframe, col_name):
    upper_boundary = dataframe[col_name].mean() + 3 * dataframe[col_name].std()
    lower_boundary = dataframe[col_name].mean() - 3 * dataframe[col_name].std()
    return lower_boundary, upper_boundary
  • ๊ธฐํ•˜ํ‰๊ท  ํ™œ์šฉ
    • ๊ธฐํ•˜ํ‰๊ท ์—์„œ ์ขŒ์šฐ๋กœ $2.5\sigma$๋งŒํผ ๋ณด๋‹ค ๋” ๋–จ์–ด์ง„ ๋ฒ”์œ„๋ฅผ ์ด์ƒ์น˜๋กœ ๋ณธ๋‹ค.
  • ์‚ฌ๋ถ„์œ„ ํŽธ์ฐจ(IQR(Interquartile Range) with Box plots)
    • ๋ฐ•์Šคํ”Œ๋กฏ์„ ํ† ๋Œ€๋กœ ๊ธฐ์ค€์„ ์ •ํ•˜๊ฒŒ ๋˜๊ณ  (Q1 โ€“ 1.5 * IQR)๋ณด๋‹ค ์ž‘๊ฑฐ๋‚˜ย (Q3 + 1.5 * IQR)๋ณด๋‹ค ํฐ ๋ฐ์ดํ„ฐ๋Š” ์ด์ƒ์น˜๋กœ ์ฒ˜๋ฆฌํ•œ๋‹ค.
    • ๋ถ„ํฌ๊ฐ€ ์น˜์šฐ์นœ ๊ฒฝ์šฐ์—๋„ ์ž˜ ์ž‘๋™ํ•œ๋‹ค.
    • IQR ์€ Q3(75%) - Q1(25%) ์‚ฌ์ด์— ์กด์žฌํ•˜๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์˜๋ฏธํ•œ๋‹ค.
    • outlier โ‰ฅ Q3 + 1.5*IQR
    • outlier โ‰ค Q1 - 1.5*IQR
def determine_outlier_thresholds_iqr(dataframe, col_name, th1=0.25, th3=0.75):
    quartile1 = dataframe[col_name].quantile(th1)
    quartile3 = dataframe[col_name].quantile(th3)
    iqr = quartile3 - quartile1
    upper_limit = quartile3 + 1.5 * iqr
    lower_limit = quartile1 - 1.5 * iqr
    return lower_limit, upper_limit
  • ์‹œ๊ฐํ™”๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋ถ„ํฌ๋ฅผ ๋ˆˆ์œผ๋กœ ๋ณด๊ณ  ์ด์ƒ์น˜ ํŒ๋ณ„
    • ํžˆ์Šคํ† ๊ทธ๋žจ
    • ํ™•๋ฅ ๋ฐ€๋„ํ•จ์ˆ˜
    • Box Plot
  • ๋จธ์‹ ๋Ÿฌ๋‹, ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋ชจ๋ธ๋ง ๋“ฑ ๋ถ„์„๊ธฐ๋ฒ• ํ™œ์šฉ
    • KNN
    • Mahalanobis Distance
    • LOF(Local Outlier Factor)
    • iForest(Isolation Forest)
      • ๋ฐ์ดํ„ฐ์…‹์„ย ๊ฒฐ์ • ํŠธ๋ฆฌ ํ˜•ํƒœ๋กœ ํ‘œํ˜„ํ•ด ์ •์ƒ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„๋ฆฌํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ํŠธ๋ฆฌ์˜ ๊นŠ์ด๊ฐ€ ๊นŠ์–ด์ง€๊ณ  ๋ฐ˜๋Œ€๋กœ ์ด์ƒ์น˜๋Š” ํŠธ๋ฆฌ์˜ ์ƒ๋‹จ์—์„œ ๋ถ„๋ฆฌํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฐœ๋…์„ ์ด์šฉํ•œ๋‹ค. ์ฆ‰, ๋ฐ์ดํ„ฐ์—์„œย ์ด์ƒ์น˜๋ฅผ ๋ถ„๋ฆฌํ•˜๋Š” ๊ฒƒ์ด ๋” ์‰ฝ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

Reference


ํ•„์š”ํ•œ ํ‘œ๋ณธ์˜ ํฌ๊ธฐ๋ฅผ ์–ด๋–ป๊ฒŒ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๊นŒ?

๐Ÿ’ก ๋ชจ์ง‘๋‹จ์˜ ํฌ๊ธฐ(์œ ํ•œ, ๋ฌดํ•œ), Z score, ์˜ค์ฐจํ•œ๊ณ„, ํ‘œ๋ณธ๋น„์œจ ๋“ฑ์„ ์ด์šฉํ•˜์—ฌ ํ‘œ๋ณธ ํฌ๊ธฐ ๊ณ„์‚ฐ ๊ฐ€๋Šฅ

  • ์ ์ ˆํ•œ ํ‘œ๋ณธ ํฌ๊ธฐ ๊ณ„์‚ฐ์„ ์œ„ํ•ด ํ•„์š”ํ•œ ๊ฐ’ for Statistical Power
    • ๋ชฉํ‘œํ•˜๋Š” Power
    • p value(threshold for significance)
    • effectsize(ํšจ๊ณผ ํฌ๊ธฐ)

$$ d = {The\ estimated\ difference\ in\ the\ means \over Pooled\ estimated\ standard\ deviations} $$

  • ํ‘œ๋ณธ ํฌ๊ธฐ ๋ณ€์ˆ˜ ๊ณ ๋ คํ•˜๊ธฐ
    • ๋ชจ์ง‘๋‹จ ํฌ๊ธฐ (N: ๋ชจ์ง‘๋‹จ์˜ ํฌ๊ธฐ, e: ์š”๊ตฌ์ •๋ฐ€๋„, P: ๋ชจ์ง‘๋‹จ์˜ ๋น„์œจ, k: ์‹ ๋ขฐ์ˆ˜์ค€)
      • ์œ ํ•œ๋ชจ์ง‘๋‹จ์ผ ๋•Œ ํ‘œ๋ณธ ํฌ๊ธฐ n์€ $$n \ge \dfrac {N}{(\dfrac e k)^2 \dfrac {N-1}{P(1-P)}+1}$$
      • ๋ฌดํ•œ๋ชจ์ง‘๋‹จ์ผ ๋•Œ ํ‘œ๋ณธ ํฌ๊ธฐ n์€ $$n \ge \dfrac {1}{(\dfrac e k)^2 \dfrac {1}{P(1-P)}}$$ $$n = Z^2 \dfrac {\sigma^2}{d^2}, (Z:์‹ ๋ขฐ์ˆ˜์ค€,\ \sigma: ํ‘œ์ค€ํŽธ์ฐจ,\ d:ํ—ˆ์šฉ์˜ค์ฐจ)$$
    • ์˜ค์ฐจ ๋ฒ”์œ„
    • ์‹ ๋ขฐ๋„
    • ํ‘œ์ค€ํŽธ์ฐจ
  • ํ‘œ๋ณธ ํฌ๊ธฐ ๊ณ„์‚ฐํ•˜๊ธฐ
    • Z score ์ฐพ๊ธฐ
    • ํ‘œ๋ณธ ํฌ๊ธฐ ์‹ ์‚ฌ์šฉํ•˜๊ธฐ

Reference


Bias๋ฅผ ํ†ต์ œํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ๋ฌด์—‡์ž…๋‹ˆ๊นŒ?

๐Ÿ’ก ๋ชจ๋ธ์˜ ํฌ๊ธฐ๋ฅผ ์ฆ๊ฐ€ ์‹œํ‚ค๊ฑฐ๋‚˜ ์ˆ˜์ • ์‹œํ‚ค๋Š” ๋“ฑ์˜ ๋ชจ๋ธ ๋ณ€๊ฒฝ, ์˜ค๋ฅ˜ํ‰๊ฐ€์‹œ ์–ป์€ ์ง€์‹์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ž…๋ ฅ ํŠน์„ฑ ์ˆ˜์ •, ์ •๊ทœํ™” ์ถ•์†Œ ๋ฐ ์ œ๊ฑฐ, ํ•™์Šต ๋ฐ์ดํ„ฐ ์ถ”๊ฐ€ ๋“ฑ์„ ํ†ตํ•ด Bias๋ฅผ ํ†ต์ œํ•  ์ˆ˜ ์žˆ๋‹ค.

  • Bias ์ข…๋ฅ˜ ๋ฐ ํ†ต์ œ ๋ฐฉ๋ฒ•
  1. ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๊ณผ์ •์—์„œ ๋ฐœ์ƒํ•œ bias
    : ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๊ณผ์ •์—์„œ ํ•ด๋‹น ๋„๋ฉ”์ธ ์ง€์‹์„ ๊ฐ€์ง€๊ณ  ์ ํ•ฉํ•œ feature๋ฅผ ์ˆ˜์ง‘ํ•ด์•ผ ํ•จ
  2. ์ „์ฒ˜๋ฆฌ ๊ณผ์ •์—์„œ ๋ฐœ์ƒํ•œ bias
    : ๋ฐ์ดํ„ฐ ๋ณ„ ์ ํ•ฉํ•œ ์ „์ฒ˜๋ฆฌ ๊ณผ์ •์„ ์ง„ํ–‰ํ•ด์•ผ ํ•จ(Data Cleaning, ๋น„์‹๋ณ„ํ™”)
  3. Feature Engineering bias
    : ๋ฐ์ดํ„ฐ ์ •๊ทœํ™”๋ฅผ ํ†ตํ•ด feature๊ฐ„ scale์ด ์กฐ์ •๋˜์–ด์•ผ ํ•จ
  4. Data selection bias
    : train/test ๋ฐ์ดํ„ฐ ์…‹ ๋ถ„ํ™œ ๊ณผ์ •์—์„œ ์ ์ ˆํ•˜๊ฒŒ ๋‚˜๋ˆ„์–ด์•ผ ํ•จ
  5. Model Training bias
    : ๋ชจ๋ธ ํŠน์„ฑ์„ ๊ณ ๋ คํ•˜์—ฌ ๋ฐ์ดํ„ฐ ์…‹๊ณผ ๊ถํ•ฉ์ด ๋งž๋Š” ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•ด์•ผ ํ•จ
  6. Model Validation bias
    : ๋‹ค์–‘ํ•œ metric์„ ๊ณ ๋ คํ•ด์„œ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•ด์•ผ ํ•จ(์ •ํ™•๋„ ๋งŒ์œผ๋กœ๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์„ ์ˆ˜ ์žˆ์Œ)
  • Bias์™€ Variance์˜ ๊ด€๊ณ„

    • Low Bias & Low Varianceย 
      : ์˜ˆ์ธก๊ฐ’๋“ค์ด ์ •๋‹ต ๊ทผ๋ฐฉ์— ๋ถ„ํฌ๋˜์–ด ์žˆ๊ณ (bias๊ฐ€ ๋‚ฎ์Œ) ์˜ˆ์ธก๊ฐ’๋“ค์ด ์„œ๋กœ ๋ชฐ๋ ค ์žˆ์Šต๋‹ˆ๋‹ค. (variance๊ฐ€ ๋‚ฎ์Œ)
    • Low Bias & High Variance
      : ์˜ˆ์ธก๊ฐ’๋“ค์ด ์ •๋‹ต ๊ทผ๋ฐฉ์— ๋ถ„ํฌ๋˜์–ด ์žˆ์œผ๋‚˜ (bias๊ฐ€ ๋‚ฎ์Œ) ์˜ˆ์ธก๊ฐ’๋“ค์ด ์„œ๋กœ ํฉ์–ด์ ธ ์žˆ์Šต๋‹ˆ๋‹ค. (variance๊ฐ€ ๋†’์Œ)
    • High Bias & Low Variance
      : ์˜ˆ์ธก๊ฐ’๋“ค์ด ์ •๋‹ต์—์„œ ๋–จ์–ด์ ธ ์žˆ๊ณ  (bias๊ฐ€ ๋†’์Œ) ์˜ˆ์ธก๊ฐ’๋“ค์ด ์„œ๋กœ ๋ชฐ๋ ค ์žˆ์Šต๋‹ˆ๋‹ค. (variance๊ฐ€ ๋‚ฎ์Œ)
    • High Bias & High Varianceย 
      : ์˜ˆ์ธก๊ฐ’๋“ค์ด ์ •๋‹ต์—์„œ ๋–จ์–ด์ ธ ์žˆ๊ณ  (bias๊ฐ€ ๋†’์Œ) ์˜ˆ์ธก๊ฐ’๋“ค์ด ์„œ๋กœ ํฉ์–ด์ ธ ์žˆ์Šต๋‹ˆ๋‹ค. (variance๊ฐ€ ๋†’์Œ)

Reference


๋กœ๊ทธ ํ•จ์ˆ˜๋Š” ์–ด๋–ค ๊ฒฝ์šฐ ์œ ์šฉํ•ฉ๋‹ˆ๊นŒ? ์‚ฌ๋ก€๋ฅผ ๋“ค์–ด ์„ค๋ช…ํ•ด์ฃผ์„ธ์š”.

๐Ÿ’ก ๋ฐ์ดํ„ฐ ๋ถ„์„์—์„œ log ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ๋ฐ์ดํ„ฐ์˜ ์ •๊ทœ์„ฑ์ด ๋†’์•„์ง€๊ณ  ํšŒ๊ท€ ๋ถ„์„์—์„œ ์ •ํ™•ํ•œ ๊ฐ’์„ ์–ป์„ ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ์œ ์šฉํ•˜๋‹ค. ๋ฐ์ดํ„ฐ ๊ฐ„ ํŽธ์ฐจ๋ฅผ ์ค„์—ฌ, ์™œ๋„(skewness, ๋ฐ์ดํ„ฐ๊ฐ€ ํ•œ์ชฝ์œผ๋กœ ์น˜์šฐ์นœ ์ •๋„)์™€ ์ฒจ๋„(kurtosis, ๋ถ„ํฌ๊ฐ€ ์–ผ๋งˆ๋‚˜ ๋พฐ์กฑํ•œ์ง€๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ์ •๋„)๋ฅผ ์ค„์ผ ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ์ •๊ทœ์„ฑ์ด ๋†’์•„์ง„๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด ์—ฐ๋ น ๊ฐ™์€ ๊ฒฝ์šฐ ์ˆซ์ž์˜ ๋ฒ”์œ„๊ฐ€ ์•ฝ 0์„ธ์—์„œ 120์„ธ ์ดํ•˜์ด์ง€๋งŒ ์žฌ์‚ฐ ๋ณด์œ ์•ก์˜ ๊ฒฝ์šฐ์—๋Š” 0์›๋ถ€ํ„ฐ ๋ช‡ ์กฐ์— ์ด๋ฅด๊ธฐ๊นŒ์ง€ ๋ฒ”์œ„๊ฐ€ ๋งค์šฐ ๋„“๋‹ค. ์ด๋Ÿฐ ๊ฒฝ์šฐ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ด์œ ๋กœ ๋กœ๊ทธํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.

  1. ๋‹จ์œ„์ˆ˜๋ฅผ ์ž‘๊ฒŒ ๋งŒ๋“ค์–ด ๋ถ„์„์‹œ ์ •ํ™•ํ•œ ๊ฐ’์„ ์–ป๊ธฐ ์œ„ํ•ด
  2. ๋…๋ฆฝ๋ณ€์ˆ˜์™€ ์ข…์†๋ณ€์ˆ˜์˜ ๋ณ€ํ™”๊ด€๊ณ„์—์„œ ์ ˆ๋Œ€๋Ÿ‰์ด ์•„๋‹Œ ๋น„์œจ์„ ๋ณด๊ธฐ ์œ„ํ•ด
  3. ๋น„์„ ํ˜•๊ด€๊ณ„๋ฅผ ์„ ํ˜•์œผ๋กœ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด

์›๋ณธ ํ•จ์ˆ˜์™€ ๋„ํ•จ์ˆ˜

$$ ํ•จ์ˆ˜:a(\theta)=\theta^t(1-\theta)^h $$

$$ ๋„ํ•จ์ˆ˜: {d \over d\theta}\theta^t(1-\theta)^h = \theta^{t-1}(1-\theta)^{h-1}[(1-\theta)t - h\theta] $$

$$ 2์ฐจ\ ๋„ํ•จ์ˆ˜: {d^2 \over d\theta^2}\theta^t(1-\theta)^h = (1-\theta)^{h-2}\theta^{t-2}[[(t-1)(1-\theta)-\theta(h-1)][t(1-\theta)-h\theta]-(t+h)\theta(1-\theta)] $$

๋กœ๊ทธ๋ฅผ ์ทจํ•œ ๋„ํ•จ์ˆ˜

$$ ๋„ํ•จ์ˆ˜:{{d}\over{d \theta}}\log(\theta^t(1-\theta)^h) = {t \over \theta} -{h \over 1-\theta} $$

$$ 2์ฐจ\ ๋„ํ•จ์ˆ˜:{d \over d\theta}({t\over \theta} - {h \over 1-\theta})= -({t\over \theta^2} + {h \over (1-\theta)^2}) $$

Reference


๋ฒ ๋ฅด๋ˆ„์ด ๋ถ„ํฌ / ์ดํ•ญ ๋ถ„ํฌ / ์นดํ…Œ๊ณ ๋ฆฌ ๋ถ„ํฌ / ๋‹คํ•ญ ๋ถ„ํฌ / ๊ฐ€์šฐ์‹œ์•ˆ ์ •๊ทœ ๋ถ„ํฌ / t ๋ถ„ํฌ / ์นด์ด์ œ๊ณฑ ๋ถ„ํฌ / F ๋ถ„ํฌ / ๋ฒ ํƒ€ ๋ถ„ํฌ / ๊ฐ๋งˆ ๋ถ„ํฌ์— ๋Œ€ํ•ด ์„ค๋ช…ํ•ด์ฃผ์„ธ์š”.

  • ๋ฒ ๋ฅด๋ˆ„์ด ๋ถ„ํฌ

    ์‹œํ–‰ ๊ฒฐ๊ณผ๋ฅผ 0, 1๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋Š” ํ™•๋ฅ  ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ๋ถ„ํฌ๋ฅผ ์˜๋ฏธํ•œ๋‹ค.

$$ Bern(x;\mu) = \mu^x(1-\mu)^{(1-x)} $$

  • ์ดํ•ญ ๋ถ„ํฌ

    ์„ฑ๊ณตํ™•๋ฅ ์ด ฮผ์ธ ๋ฒ ๋ฅด๋ˆ„์ด ์‹œํ–‰์„ N ๋ฒˆ ๋ฐ˜๋ณตํ•˜๋Š” ๊ณผ์ •์—์„œ N๋ฒˆ ์ค‘ ์„ฑ๊ณตํ•˜๋Š” ํšŸ์ˆ˜๋ฅผ X๋ผ๊ณ  ํ•œ๋‹ค๋ฉด ํ™•๋ฅ  ๋ณ€์ˆ˜ X์— ๋Œ€ํ•œ ๋ถ„ํฌ๋ฅผ ์˜๋ฏธํ•œ๋‹ค.

$$ Bern(x;N,\mu) = \binom Nx \mu^x(1-\mu)^{(N-x)} $$

  • ์นดํ…Œ๊ณ ๋ฆฌ ๋ถ„ํฌ

    ๋ฒ ๋ฅด๋ˆ„์ด ๋ถ„ํฌ์˜ ํ™•์žฅํŒ์œผ๋กœ 1๋ถ€ํ„ฐ K๊นŒ์ง€์˜ K ๊ฐœ์˜ ์ •์ˆ˜ ๊ฐ’ ์ค‘ ํ•˜๋‚˜๊ฐ€ ๋‚˜์˜ค๋Š” ํ™•๋ฅ  ๋ณ€์ˆ˜์˜ ๋ถ„ํฌ๋กœ ์ด๋Ÿฌํ•œ ํ™•๋ฅ  ๋ณ€์ˆ˜๋Š” 1๊ณผ 0์œผ๋กœ ์ด๋ฃจ์–ด์ง„ ๋‹ค์ฐจ์› ๋ฒกํ„ฐ๋กœ ๋ณ€ํ˜•ํ•˜์—ฌ ์‚ฌ์šฉํ•˜๊ณ  ์ด๋ฅผ ์›-ํ•ซ ์ธ์ฝ”๋”ฉ์ด๋ผ๊ณ  ํ•œ๋‹ค.

$$ Cat(x;\mu)=\mu_1^{x_1}\mu_2^{x_2}...\mu_K^{x_K} $$

  • ๋‹คํ•ญ ๋ถ„ํฌ

    ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๊ฐ’์„ ๊ฐ€์งˆ ์ˆ˜ ์žˆ๋Š” ๋…๋ฆฝ ํ™•๋ฅ ๋ณ€์ˆ˜(์นดํ…Œ๊ณ ๋ฆฌ ํ™•๋ฅ ๋ณ€์ˆ˜)๋“ค์— ๋Œ€ํ•œ ํ™•๋ฅ ๋ถ„ํฌ๋ฅผ ๋งํ•œ๋‹ค. ์—ฌ๋Ÿฌ ๋ฒˆ์˜ ๋…๋ฆฝ์‹œํ–‰์—์„œ ๊ฐ๊ฐ์˜ ๊ฐ’์ด ํŠน์ • ํšŸ์ˆ˜๋งŒํผ ๋‚˜ํƒ€๋‚  ํ™•๋ฅ ์„ ์˜๋ฏธํ•œ๋‹ค. ์ฆ‰, ๋‹คํ•ญ๋ถ„ํฌ์—์„œ n = 1์ผ ๋•Œ๊ฐ€ ์นดํ…Œ๊ณ ๋ฆฌ ๋ถ„ํฌ์ด๋‹ค.

$$ Cat(x;N,\mu)=\binom Nx \mu_1^{x_1}\mu_2^{x_2}...\mu_K^{x_K} $$

  • ๊ฐ€์šฐ์‹œ์•ˆ ์ •๊ทœ ๋ถ„ํฌ

    ์ •๊ทœ๋ถ„ํฌ(normal distribution) ํ˜น์€ ๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ(Gaussian distribution)๋Š” ์—ฐ์†ํ™•๋ฅ ๋ถ„ํฌ์˜ ํ•˜๋‚˜์ด๋‹ค. ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ์œผ๋กœ ํ˜•์ƒ์ด ๊ฒฐ์ •๋˜๋ฉฐ, ์ฃผ์–ด์ง„ ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ์œผ๋กœ ์—”ํŠธ๋กœํ”ผ๋ฅผ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๋ถ„ํฌ๋ฅผ ์˜๋ฏธํ•œ๋‹ค. ์ค‘์‹ฌ๊ทนํ•œ์ •๋ฆฌ์— ์˜ํ•˜์—ฌ ๋…๋ฆฝ์ ์ธ ํ™•๋ฅ ๋ณ€์ˆ˜๋“ค์˜ ํ‰๊ท ์€ ์ •๊ทœ๋ถ„ํฌ์— ๊ฐ€๊นŒ์›Œ์ง€๋Š” ์„ฑ์งˆ์ด ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ์ˆ˜์ง‘๋œ ์ž๋ฃŒ์˜ ๋ถ„ํฌ๋ฅผ ๊ทผ์‚ฌํ•˜๋Š”๋ฐ์— ์ž์ฃผ ์‚ฌ์šฉ๋œ๋‹ค. ํŠนํžˆ ํ‰๊ท ์ด 0์ด๊ณ  ํ‘œ์ค€ํŽธ์ฐจ๊ฐ€ 1์ธ ์ •๊ทœ๋ถ„ํฌ๋Š” ํ‘œ์ค€์ •๊ทœ๋ถ„ํฌ(standard normal distribution)์ด๋ผ๊ณ  ํ•œ๋‹ค.

$$ \mathcal{N}(x;\mu, \sigma^2) = {1\over{\sqrt{2\pi\sigma^2}}}exp(-{x-\mu)^2\over2\sigma^2}) $$

  • t ๋ถ„ํฌ

    ๋ชจ์ง‘๋‹จ์˜ ํ‘œ์ค€ํŽธ์ฐจ๋ฅผ ์•Œ ์ˆ˜ ์—†์„ ๋•Œ ์ •๊ทœ๋ถ„ํฌ์—์„œ ์–ป์€ N๊ฐœ์˜ ํ‘œ๋ณธ์œผ๋กœ ๊ณ„์‚ฐํ•œ ํ‘œ๋ณธํ‰๊ท ์„ ํ‘œ๋ณธํ‘œ์ค€ํŽธ์ฐจ๋กœ ์ •๊ทœํ™”ํ•œ ๊ฐ’์˜ ๋ถ„ํฌ๋ฅผ ์˜๋ฏธํ•œ๋‹ค. ํ‘œ๋ณธ ํ‰๊ท ์„ ์ด์šฉํ•˜์—ฌ ์ •๊ทœ๋ถ„ํฌ์˜ ํ‰๊ท ์„ ํ•ด์„ํ•  ๋•Œ์™€ ๊ฐ€์„ค๊ฒ€์ •(test)์™€ ํšŒ๊ท€ ๋ถ„์„์— ๋งŽ์ด ์‚ฌ์šฉ๋œ๋‹ค.

$$ t(x:\mu,\lambda,\nu) = {\sqrt\lambda\over\sqrt{\nu\pi}}{\Gamma({v+1 \over 2})\over \Gamma({v \over 2})}(1+\lambda{(x-\mu)^2\over\nu})^{- {v+1 \over 2}} $$

  • ์นด์ด์ œ๊ณฑ ๋ถ„ํฌ

    ์นด์ด์ œ๊ณฑ๋ถ„ํฌ(chi-squared distribution)๋Š” t ๋ถ„ํฌ์—์„œ ์‚ฌ์šฉํ•œ p๊ฐœ์˜ ์„œ๋กœ ๋…๋ฆฝ์ ์ธ ํ‘œ์ค€์ •๊ทœ ํ™•๋ฅ ๋ณ€์ˆ˜๋ฅผ ๊ฐ๊ฐ ์ œ๊ณฑํ•œ ๋‹ค์Œ ํ•ฉํ•ด์„œ ์–ป์–ด์ง€๋Š” ๋ถ„ํฌ์ด๋‹ค. ์ด ๋•Œ p๋ฅผ ์ž์œ ๋„๋ผ๊ณ  ํ•˜๋ฉฐ, ์นด์ด์ œ๊ณฑ๋ถ„ํฌ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๊ฐ€ ๋œ๋‹ค. ์นด์ด์ œ๊ณฑ ๋ถ„ํฌ๋Š” ์‹ ๋ขฐ๊ตฌ๊ฐ„์ด๋‚˜ ๊ฐ€์„ค๊ฒ€์ • ๋“ฑ์˜ ๋ชจ๋ธ์—์„œ ์ž์ฃผ ๋“ฑ์žฅํ•œ๋‹ค.

$$ \mathcal{X}^2(x;\nu) = {x^{({\nu\over2}-1)}e^{-{x\over2}}\over2^{\nu \over2}\Gamma({v\over2})} $$

  • F ๋ถ„ํฌ

    F๋ถ„ํฌ๋Š” ์ •๊ทœ๋ถ„ํฌ๋ฅผ ์ด๋ฃจ๋Š” ๋ชจ์ง‘๋‹จ์—์„œ ๋…๋ฆฝ์ ์œผ๋กœ ์ถ”์ถœํ•œ ํ‘œ๋ณธ๋“ค์˜ ๋ถ„์‚ฐ๋น„์œจ์ด ๋‚˜ํƒ€๋‚ด๋Š” ์—ฐ์† ํ™•๋ฅ  ๋ถ„ํฌ์ด๋‹ค. ๋‹ค์‹œ ๋งํ•˜๋ฉด ์นด์ด์ œ๊ณฑ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅด๋Š” ๋…๋ฆฝ์ ์ธ ๋‘ ๊ฐœ์˜ ํ™•๋ฅ  ๋ณ€์ˆ˜์˜ ํ‘œ๋ณธ์„ ๊ตฌํ•œ ๋’ค ๊ฐ๊ฐ ํ‘œ๋ณธ์˜ ์ˆ˜ ๋งŒํผ ๋‚˜๋ˆˆ ๋’ค ๋น„์œจ์„ ๊ตฌํ•˜๋ฉด F ๋ถ„ํฌ๊ฐ€ ๋œ๋‹ค. 2๊ฐœ ์ด์ƒ์˜ ํ‘œ๋ณธ ํ‰๊ท ๋“ค์ด ๋™์ผํ•œ ๋ชจํ‰๊ท ์„ ๊ฐ€์ง„ ์ง‘๋‹จ์—์„œ ์ถ”์ถœ๋˜์—ˆ๋Š”์ง€ ์•„๋‹ˆ๋ฉด ์„œ๋กœ ๋‹ค๋ฅธ ๋ชจ์ง‘๋‹จ์—์„œ ์ถ”์ถœ๋˜๋Š” ๊ฒƒ์ธ์ง€๋ฅผ ํŒ๋‹จํ•˜๊ธฐ ์œ„ํ•˜์—ฌ ์‚ฌ์šฉ๋œ๋‹ค.

$$ f(x;N_1,N_2) = {\sqrt{(N_1x)^{N_1}N_2^{N_2}\over(N_1x+N_2)^{N_1+N_2}} \over x\rm B({N_1\over2},{N_2\over2})} $$

  • ๋ฒ ํƒ€ ๋ถ„ํฌ

    0๋ถ€ํ„ฐ 1๊นŒ์ง€์˜ ๊ฐ’์„ ๊ฐ€์งˆ ์ˆ˜ ์žˆ๋Š” ๋ฒ ๋ฅด๋ˆ„์ด๋ถ„ํฌ์˜ ๋ชจ์ˆ˜ ฮผ์˜ ๊ฐ’์„ ๋ฒ ์ด์ง€์•ˆ ์ถ”์ •ํ•œ ๊ฒฐ๊ณผ๋ฅผ ํ‘œํ˜„ํ•œ ๊ฒƒ์ด๋‹ค.

    ๋ฒ ํƒ€ํ•จ์ˆ˜ - ์ดํ•ญ๊ณ„์ˆ˜๋ฅผ ์‹ค์ˆ˜ ๋ฒ”์œ„๊นŒ์ง€ ํ™•์žฅํ•œ ๊ฒƒ

$$ ๋ฒ ํƒ€ํ•จ์ˆ˜: \rm B(\alpha, \beta)= {\Gamma(\alpha)\Gamma(\beta) \over \Gamma(\alpha + \beta)}= \int_0^1 x^{\alpha-1}(1-x)^{\beta-1}dx\ (๋‹จ, \alpha,\beta>0์ด๋‹ค.) $$

$$ \rm B(x;a, b)={\Gamma(\alpha+\beta) \over \Gamma(\alpha)\Gamma(\beta)}x^{\alpha-1}(1-x)^{\beta-1} $$

  • ๊ฐ๋งˆ๋ถ„ํฌ

    ๋ฒ ํƒ€๋ถ„ํฌ๊ฐ€ 0๋ถ€ํ„ฐ 1 ์‚ฌ์ž‡๊ฐ’์„ ๊ฐ€์ง€๋Š” ๋ชจ์ˆ˜๋ฅผ ๋ฒ ์ด์ง€์•ˆ ๋ฐฉ๋ฒ•์œผ๋กœ ์ถ”์ •ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋˜๋Š” ๊ฒƒ๊ณผ ๋‹ฌ๋ฆฌ ๊ฐ๋งˆ๋ถ„ํฌ๋Š” 0๋ถ€ํ„ฐ ๋ฌดํ•œ๋Œ€์˜ ๊ฐ’์„ ๊ฐ€์ง€๋Š” ์–‘์ˆ˜ ๊ฐ’์„ ์ถ”์ •ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋˜๋Š” ๋ถ„ํฌ๋ฅผ ์˜๋ฏธํ•œ๋‹ค.

    ๊ฐ๋งˆํ•จ์ˆ˜ - ํŒฉํ† ๋ฆฌ์–ผ ํ•จ์ˆ˜๋ฅผ ๋ณต์†Œ์ˆ˜๊นŒ์ง€ ํ™•์žฅํ•ด์„œ ๋งŒ๋“  ํ•จ์ˆ˜

$$ ๊ฐ๋งˆํ•จ์ˆ˜: \Gamma(\alpha)=\int_0^\infty x^{\alpha-1}e^{-x}dx $$

$$ Gam(x;a,b) = {1\over\Gamma(a)}b^ax^{a-1}e^{-bx} $$

Reference


์ถœ์žฅ์„ ์œ„ํ•ด ๋น„ํ–‰๊ธฐ๋ฅผ ํƒ€๋ ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ๋‹น์‹ ์€ ์šฐ์‚ฐ์„ ๊ฐ€์ ธ๊ฐ€์•ผ ํ•˜๋Š”์ง€ ์•Œ๊ณ  ์‹ถ์–ด ์ถœ์žฅ์ง€์— ์‚ฌ๋Š” ์นœ๊ตฌ 3๋ช…์—๊ฒŒ ๋ฌด์ž‘์œ„๋กœ ์ „ํ™”๋ฅผ ํ•˜๊ณ  ๋น„๊ฐ€ ์˜ค๋Š” ๊ฒฝ์šฐ๋ฅผ ๋…๋ฆฝ์ ์œผ๋กœ ์งˆ๋ฌธํ•ด์ฃผ์„ธ์š”. ๊ฐ ์นœ๊ตฌ๋Š” 2/3๋กœ ์ง„์‹ค์„ ๋งํ•˜๊ณ  1/3์œผ๋กœ ๊ฑฐ์ง“์„ ๋งํ•ฉ๋‹ˆ๋‹ค. 3๋ช…์˜ ์นœ๊ตฌ๊ฐ€ ๋ชจ๋‘ โ€œ๊ทธ๋ ‡์Šต๋‹ˆ๋‹ค. ๋น„๊ฐ€ ๋‚ด๋ฆฌ๊ณ  ์žˆ์Šต๋‹ˆ๋‹คโ€๋ผ๊ณ  ๋งํ–ˆ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ ๋น„๊ฐ€ ๋‚ด๋ฆด ํ™•๋ฅ ์€ ์–ผ๋งˆ์ž…๋‹ˆ๊นŒ?

๐Ÿ’ก 3๋ช…์˜ ์นœ๊ตฌ๊ฐ€ ๋ชจ๋‘ โ€œ๊ทธ๋ ‡์Šต๋‹ˆ๋‹ค. ๋น„๊ฐ€ ๋‚ด๋ฆฌ๊ณ  ์žˆ์Šต๋‹ˆ๋‹คโ€๋ผ๊ณ  ๋งํ–ˆ์„ ๋•Œ, ๋น„๊ฐ€ ๋‚ด๋ฆด ํ™•๋ฅ ์„ p ๋ผ๊ณ  ํ•œ๋‹ค๋ฉด ์‹ค์ œ๋กœ ๋น„๊ฐ€ ๋‚ด๋ฆด ํ™•๋ฅ ์€

$$P(rain|all\ yes) = {p \cdot {8 \over 27} \over {p\cdot{8 \over 27}} + (1-p)\cdot {1 \over 27}}$$

๋ชจ๋“  ์นœ๊ตฌ๋“ค์ด ๋น„๊ฐ€ ์˜จ๋‹ค๊ณ  ๋Œ€๋‹ต ํ–ˆ์œผ๋ฏ€๋กœ

๋ชจ๋‘ ๊ทธ๋ ‡์Šต๋‹ˆ๋‹ค ๋ผ๊ณ  ๋Œ€๋‹ตํ•˜๋Š” ํ™•๋ฅ  = ๋ชจ๋‘ ์‚ฌ์‹ค๋Œ€๋กœ ์ด์•ผ๊ธฐํ•  ํ™•๋ฅ (๋น„๊ฐ€ ์˜ฌ ๋•Œ) + ๋ชจ๋‘ ๊ฑฐ์ง“์œผ๋กœ ์ด์•ผ๊ธฐํ•  ํ™•๋ฅ (๋น„๊ฐ€ ์•ˆ ์˜ฌ ๋•Œ)

๋น„๊ฐ€ ์˜ฌ ํ™•๋ฅ ์„ p ๋ผ๊ณ  ํ•˜๊ณ , ๋น„๊ฐ€ ์‹ค์ œ๋กœ ์™”์„ ๋•Œ ์นœ๊ตฌ๋“ค์ด ๋ชจ๋‘ ๊ทธ๋ ‡์Šต๋‹ˆ๋‹ค ๋ผ๊ณ  ํ•  ํ™•๋ฅ ์€

$P(all\ yes\cap rain) = p \cdot {8 \over 27}$

๋น„๊ฐ€ ์‹ค์ œ๋กœ ์•ˆ์™”์„ ๋•Œ ๋ชจ๋‘ ๊ทธ๋ ‡์Šต๋‹ˆ๋‹ค ๋ผ๊ณ  ํ•  ํ™•๋ฅ ์€

$P(all\ yes\ \cap \sim rain) = (1-p)\cdot{1 \over 27}$

๋น„๊ฐ€ ์˜ฌ ํ™•๋ฅ ์ด p ๊ณ  ์นœ๊ตฌ๋“ค์ด ๋ชจ๋‘ ๊ทธ๋ ‡์Šต๋‹ˆ๋‹ค๋ผ๊ณ  ํ–ˆ์„ ๋•Œ ๋น„๊ฐ€ ์‹ค์ œ๋กœ ์™”์„ ํ™•๋ฅ ์€

$$ P(rain|all\ yes) = {P(all\ yes\cap rain) \over P(all\ yes)} $$

$$ P(rain|all\ yes) = {P(all\ yes\cap rain) \over P(all\ yes\cap rain) + P(all\ yes\ \cap \sim rain)} $$

$$ P(rain|all\ yes) = {p \cdot {8 \over 27} \over {p\cdot{8 \over 27}} + (1-p)\cdot {1 \over 27}} $$

Reference