Skip to content

Latest commit

ย 

History

History
422 lines (344 loc) ยท 34.3 KB

File metadata and controls

422 lines (344 loc) ยท 34.3 KB

Problem & Answer

์•Œ๊ณ  ์žˆ๋Š” metric์— ๋Œ€ํ•ด ์„ค๋ช…ํ•ด์ฃผ์„ธ์š”. (ex. RMSE, MAE, recall, precision ...)

๐Ÿ’ก metric์€ ํฌ๊ฒŒ Classification metric๊ณผ Regression metric์œผ๋กœ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ๊ณ  Classsification metric์—๋Š” Accuracy, F1 ๋“ฑ์ด ์žˆ๊ณ  Regression metric์—๋Š” MSE, MASE ๋“ฑ์ด ์žˆ๋‹ค

  • Classification

    • Accuracy (์ •ํ™•๋„)

      • ์ „์ฒด์ค‘์—์„œ True์˜ ๊ฐœ์ˆ˜
      • ๋ถ„๋ฅ˜๊ธฐ์˜ ์„ฑ๋Šฅ์„ ์ธก์ •ํ•  ๋•Œ ๊ฐ€์žฅ ๊ฐ„๋‹จํžˆ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Œ
      • optimize ํ•˜๊ธฐ ์–ด๋ ค์›€
      • $TP +TN \over {TP +FP + TN + FN}$
    • Error Rate (์˜ค๋ฅ˜์œจ)

      • Accuracy์˜ ๋ฐ˜๋Œ€๋กœ, ์ „์ฒด ๋ฐ์ดํ„ฐ ์ค‘์—์„œ ์ž˜๋ชป ๋ถ„๋ฅ˜ํ•œ FP, FN์˜ ๋น„์œจ
      • $FP+FN \over {TP +FP + TN + FN}$
    • Confusion Matrix

      • Positive, Negative๋Š” ๋ชจ๋ธ์˜ ์˜ˆ์ธก์„ ๋‚˜ํƒ€๋Š” ๊ฒƒ
      • True/False๋Š” ์˜ˆ์ธก์˜ ์ •๋‹ต ์—ฌ๋ถ€๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ๊ฒƒ
      • True Positive(TP)๋Š” Positive๋กœ ๋ถ„๋ฅ˜ํ•˜๊ณ  ๋งž์€(True) ๊ฒƒ, True Negative(TN)๋Š” Negative๋กœ ๋ถ„๋ฅ˜ํ•˜๊ณ  ๋งž์€ ๊ฒƒ์„ ๋‚˜ํƒ€๋ƒ„
      • ์œ„์—์„œ ํ‘œ์‹œ๋œ TP, FP, FN, TN์„ ๋ฐ”ํƒ•์œผ๋กœ ๋‹ค์–‘ํ•œ Metric์„ ๊ณ„์‚ฐ ๊ฐ€๋Šฅ
      • ๋‹ค์ค‘ ํด๋ž˜์Šค์—์„œ์˜ ๋ถ„๋ฅ˜ ๊ฒฐ๊ณผ์— ๋Œ€ํ•œ ์‹œ๊ฐํ™”(๋Œ€๊ฐ ์„ฑ๋ถ„ = ๋งž์€ ์˜ˆ์ธก)
    • Preicision (์ •๋ฐ€๋„)

      • Positive๋ผ๊ณ  ์˜ˆ์ธกํ•œ ๊ฒƒ์ค‘์— ๋งž์€(True) ์˜ˆ์ธก
      • $TP \over {TP + FP}$
    • Recall (์žฌํ˜„์œจ, ๋ฏผ๊ฐ๋„)

      • True labeling Positive์˜€๋˜ ๊ฒƒ๋“ค ์ค‘์—์„œ ๋งž์€ ์˜ˆ์ธก
      • FN๋Š” Negative๋กœ ๋ถ„๋ฅ˜ํ–ˆ์œผ๋‚˜ ์‹ค์ œ๋กœ๋Š” Positive ์˜€๊ธฐ ๋•Œ๋ฌธ์— ํ‹€๋ ค์„œ FN์ด ๋œ ๊ฒƒ
      • $TP \over {TP + FN}$
    • Fall-Out

      • ์‹ค์ œ๋กœ๋Š” Negative์ธ๋ฐ ๋ชจ๋ธ์ด Positive๋กœ ์˜คํƒํ•œ ๋น„์œจ
      • $FP \over {FP + TN}$
    • F1 Score

      • ์ •๋ฐ€๋„์™€ ์žฌํ˜„์œจ์˜ ๊ด€๊ณ„๋Š” trade-off์ด๋ฏ€๋กœ ์ •๋ฐ€๋„์™€ ์žฌํ˜„์œจ์˜ ์กฐํ™” ํ‰๊ท ์„ metric์œผ๋กœ ํ™œ์šฉํ•œ ๊ฒƒ์ด F1 score์ด๋‹ค.
      • Precision์€ ๋ชจ๋‘ Positive๋กœ ๋ถ„๋ฅ˜ํ•˜๋ฉด 100%๊ฐ€ ๋˜๊ธฐ ๋•Œ๋ฌธ์— Recall๊ณผ์˜ ์กฐํ™”ํ‰๊ท ์„ ํ†ตํ•ด ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ์ง€ํ‘œ
      • $2\over{{1\over Recall}+{1\over Precision}}$
    • Area Under the Receiver Operating Characteristic Curve (ROC AUC)

      • ROC : ๋ถ„๋ฅ˜ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ๋Š” ๊ทธ๋ž˜ํ”„
      • AUC : ๊ณก์„  ์•„๋ž˜ ์˜์—ญ
      • Fall out๊ณผ Recall์„ ํ†ตํ•ด FPR, TPR์„ X,Y์ถ•์œผ๋กœ ๋‘๊ณ  Threshold๋ฅผ ๋ณ€๊ฒฝ์‹œํ‚ค๋ฉด์„œ ๊ทธ๋ฆฐ ๊ณก์„ ์„ ROC๋ผ๊ณ  ํ•œ๋‹ค
      • TPR : Sensitivity($TP\over{TP+FN}$) : ๋ฏผ๊ฐ๋„, ์žฌํ˜„์œจ
      • FPR : specificity($FP\over{FP+TN}$) : ํŠน์ด๋„
      • ์ด ๋•Œ, ROC๋ฅผ ์ˆ˜์น˜ํ™” ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์ด ๋”ฑํžˆ ์—†์œผ๋ฏ€๋กœ, Area Under Curve๋ผ๋Š” ๊ณก์„  ๋ฐ‘ ๋ถ€๋ถ„์˜ ๋„“์ด ๊ฐ’์„ ํ†ตํ•ด ์„ฑ๋Šฅ์„ ์ธก์ •ํ•œ๋‹ค.
      • Recall์ด ๋†’๊ณ , Fall Out์€ ๋‚ฎ์„ ์ˆ˜๋ก ๋„“์ด๊ฐ€ 1์— ๊ฐ€๊นŒ์›Œ์ ธ ์ข‹์€ ๋ชจ๋ธ์ด ๋œ๋‹ค.
      • ์ด์ค‘ ๋ถ„๋ฅ˜์—๋งŒ ์‚ฌ์šฉ
      • ํŠน์ • threshold๋ฅผ ์„ค์ •
      • ์˜ˆ์ธก์˜ ์ˆœ์„œ์— ์˜์กด์ ์ด๋ฉฐ ์ ˆ๋Œ€๊ฐ’์—” ์˜์กด์ ์ด์ง€ ์•Š์Œ
    • Precision Recall Curve

      • confidence ๋ ˆ๋ฒจ์— ๋Œ€ํ•œ threshold ๊ฐ’์˜ ๋ณ€ํ™”์— ๋”ฐ๋ผ ๊ณ„์‚ฐ๋œ Precision ๋ฐ Recall์„ ๊ทธ๋ž˜ํ”„๋กœ ์‹œ๊ฐํ™”ํ•œ ๊ฒƒ
      • ๋ฐ์ดํ„ฐ ๋ผ๋ฒจ์˜ ๋ถ„ํฌ๊ฐ€ ์‹ฌํ•˜๊ฒŒ ๋ถˆ๊ท ๋“ฑ ํ• ๋•Œ ROC ๊ทธ๋ž˜ํ”„๋ณด๋‹ค ๋ถ„์„์— ์œ ๋ฆฌํ•จ

      • X์ถ•์€ Recall ๊ฐ’์„, Y์ถ•์€ Precision ๊ฐ’์„ ์‚ฌ์šฉ

      • Base line= P / (P+N)์„ ๊ธฐ์ค€์œผ๋กœ ์œ„์— ์œ„์น˜ํ• ์ˆ˜๋ก ์ข‹์€ ๋ชจ๋ธ

        • ๋”ฐ๋ผ์„œ ์•„๋ž˜์˜ ๊ฒฝ์šฐ์— A ๋ชจ๋ธ์ด ๋” ์ข‹์€ ๋ชจ๋ธ์ž„
      • F-Beta Score

        • F1 score์—์„œ Recall์— ๊ฐ€์ค‘์น˜๋ฅผ ์ฃผ์–ด์„œ ํ‰๊ฐ€ํ•˜๋Š” Metric ($\beta$๊ฐ€ 1์ธ ๊ฒฝ์šฐ F1 score์™€ ๋™์ผ)
      • Average Precision

        • ์ •๋Ÿ‰์  ํ‰๊ฐ€๋ฅผ ์œ„ํ•ด PR Curve์˜ ์•„๋ž˜ ์˜์—ญ์„ ๊ณ„์‚ฐํ•œ ๊ฒƒ
      • Recall At Fixed Precision

        • Precision threshold๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ ๊ฐ€์žฅ ํฐ recall ๊ฐ’์„ ๊ตฌํ•˜๋Š” ๊ฒƒ
    • KL Divergence

      • ๋‘ ํ™•๋ฅ  ๋ถ„ํฌ์˜ ์ฐจ์ด๋ฅผ ์ˆ˜์น˜๋กœ ํ‘œํ˜„ํ•œ ๊ฒƒ
    • Logloss

      • ์ž˜๋ชป๋œ ๋‹ต๋ณ€์— ๋Œ€ํ•ด ๋” ๊ฐ•ํ•˜๊ฒŒ ํŒจ๋„ํ‹ฐ ๋ถ€์—ฌ
    • Hamming Distance

      • ๋‘ ๊ธธ์ด๊ฐ€ ๊ฐ™์€ ๋ฌธ์ž์—ด ์‚ฌ์ด์˜ ๊ฑฐ๋ฆฌ๋ฅผ ์ธก์ •(๋ช‡๊ฐœ์˜ ๋ฌธ์ž๋ฅผ ๋ฐ”๊ฟ”์•ผ ๊ฐ™์•„์ง€๋Š”๊ฐ€?)
    • Jaccard index

      • ๋‘ ์ง‘ํ•ฉ์ด ๊ณตํ†ต์ ์œผ๋กœ ๊ฐ€์ง„ ๊ฒƒ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋Š” ๋น„์œ ์‚ฌ์„ฑ ์ธก๋„
    • Label Ranking Average Precision

      • ๋ฉ€ํ‹ฐ ๋ ˆ์ด๋ธ”์ธ ๊ฒฝ์šฐ์— ์‚ฌ์šฉํ•˜๋Š” AP
    • Label Ranking Loss

      • ๋ฉ€ํ‹ฐ ๋ ˆ์ด๋ธ”์ธ ๊ฒฝ์šฐ ์‚ฌ์šฉํ•˜๋Š” Loss
  • Regression

    • Cosine Similarity
      • ์œ ์‚ฌ๋„ ์ธก์ • $similarity = cos(\theta) = {{A \cdot B}\over \parallel A\parallel \parallel B\parallel}$
    • Explained Variance
      • $1- {{Sum,of,Squared,Residuals - Mean,Error}\over Total,Variance}$
    • MAE (Mean Absolute Error)
      • ๋ชจ๋ธ์˜ ์˜ˆ์ธก๊ฐ’๊ณผ ์‹ค์ œ๊ฐ’์˜ ์ฐจ์ด๋ฅผ ๋ชจ๋‘ ๋”ํ•œ ์˜ค์ฐจ ์ ˆ๋Œ€๊ฐ’์˜ ํ‰๊ท 
      • MSE์™€ ๋‹ค๋ฅด๊ฒŒ ์˜ค์ฐจ๊ฐ€ ์ปค๋„ ํฐ ๋ถˆ์ด์ต์„ ์ฃผ์ง€ ์•Š๋Š”๋‹ค.
      • Outlier์˜ ์˜ํ–ฅ์„ ๋ฐ›์ง€ ์•Š์Œ
    • MAPE (Mean Absolute Percentage Error)
      • MAE๋ฅผ percent๋กœ ๋ณ€ํ™˜ํ•œ weight ๋ฒ„์ „
    • MSE (Mean Squared Error)
      • ์‹ค์ œ ๊ฐ’๊ณผ ์˜ˆ์ธก ๊ฐ’ ์ฐจ์ด์˜ ๋ฉด์ ์˜ ํ•ฉ
      • ์˜ค์ฐจ๋ฅผ ์ œ๊ณฑํ•œ ๋’ค ํ‰๊ท ํ•˜์—ฌ ์‚ฐ์ถœ
    • MSPE (Mean Squared Percentage Error)
      • MSE๋ฅผ percent๋กœ ๋ณ€ํ™˜ํ•œ weight ๋ฒ„์ „
    • RMSE (Root Mean Squared Error)
      • ํ‰๊ท  ์˜ค์ฐจ ์ œ๊ณฑํ•ฉ(MSE)์— ๋ฃจํŠธ๋ฅผ ์”Œ์›Œ ์˜ค์ฐจ์œจ์„ ๋ณด์ •ํ•ด์คŒ
      • ํšŒ๊ท€ metric์œผ๋กœ ๋งŽ์ด ์‚ฌ์šฉ๋จ
    • Mean Squared Log Error
      • ์˜ˆ์ธก ๊ฐ’๊ณผ GT์— ๋กœ๊ทธ๋ฅผ ์ทจํ•œ ๋’ค ์ฐจ๋ฅผ ๋”ํ•œ ๊ฒƒ์˜ ํ‰๊ท 
    • R2 Score (R-squared, ๊ฒฐ์ •๊ณ„์ˆ˜)
      • $1- {{Sum,of,Squared,Residuals}\over Total,Variance}$
      • ์ด์ œ๊ณฑํ•ฉ(SST)์— ๋Œ€ํ•œ ํšŒ๊ท€์ œ๊ณฑํ•ฉ(SSR)์„ ๋œปํ•˜๋ฉฐ ๊ฒฐ์ •๊ณ„์ˆ˜๋ผ๊ณ ๋„ ๋ถˆ๋ฆผ
      • ๊ฒฐ์ •๊ณ„์ˆ˜๋Š” ๋ฐ˜์‘๋ณ€์ˆ˜์˜ ๋ณ€๋™๋Ÿ‰(๋ถ„์‚ฐ)์—์„œ ํ˜„์žฌ ์ ์šฉ๋ชจ๋ธ์ด ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ๋Š” ๋ถ€๋ถ„์˜ ๋น„์œจ์„ ๋œปํ•จ
      • ์˜ˆ์ธก์˜ ์ ํ•ฉ๋„๋ฅผ 0๊ณผ 1 ์‚ฌ์ด์˜ ๊ฐ’์œผ๋กœ ๊ณ„์‚ฐํ•˜๊ณ , 1์— ๊ฐ€๊นŒ์šธ ์ˆ˜๋ก ์„ค๋ช…๋ ฅ์ด ๋†’๋‹ค๊ณ  ๋งํ•จ
    • RMSLE (Root Mean Squared Logarithmic Error)
      • RMSE์— ๋น„ํ•ด ์•„์›ƒ๋ผ์ด์–ด์— ๊ฐ•๊ฑดํ•ด์ง
      • ์ƒ๋Œ€์  Error๋ฅผ ์ธก์ •ํ•  ์ˆ˜ ์žˆ์Œ
      • Under Estimation(์˜ˆ์ธก๊ฐ’ < ์‹ค์ œ๊ฐ’)์— ํฐ ํŽ˜๋„ํ‹ฐ๋ฅผ ๋ถ€์—ฌ
    • Pearson Correlation Coefficient
      • ๋‘ ๋ณ€์ˆ˜ ๊ฐ„์˜ ์„ ํ˜• ์ƒ๊ด€ ๊ด€๊ณ„๋ฅผ ๊ณ„๋Ÿ‰ํ™”ํ•œ ๊ฒƒ
    • Spearman Correlation Coefficient
      • ๋‘ ๋ณ€์ˆ˜ ๊ฐ„์˜ ๋‹จ์กฐ์  ์ƒ๊ด€ ๊ด€๊ณ„๋ฅผ ๊ณ„๋Ÿ‰ํ™”ํ•œ ๊ฒƒ
    • SMAPE (Symmetric Mean Absolute Percentage Error)
      • $SMAPE = {100 \over n} \times \displaystyle \sum^n_{i=1} {\lvert Y_i-\hat Y_i\rvert \over(\lvert Y_i\rvert + \lvert \hat Y_i\rvert) /2}$

Reference


Local Minima์™€ Global Minimum์— ๋Œ€ํ•ด ์„ค๋ช…ํ•ด์ฃผ์„ธ์š”.

๐Ÿ’ก Gradient Descent ๋ฐฉ๋ฒ•์„ ํ™œ์šฉํ•˜์—ฌ Cost Function์˜ ์ตœ์†Ÿ๊ฐ’์„ ์ฐพ๊ฒŒ ๋˜๋Š”๋ฐ ๊ธฐ์šธ๊ธฐ๊ฐ€ 0์ด ๋˜๋Š” ์ ์ด ์—ฌ๋Ÿฌ ๊ฐœ ์กด์žฌํ•  ์ˆ˜ ์žˆ๋‹ค.
Local Minima(๊ทน์†Œ๊ฐ’)์€ ์ฃผ์œ„์˜ ๋ชจ๋“  ์ ์˜ ํ•จ์ˆซ๊ฐ’ ์ดํ•˜์˜ ํ•จ์ˆซ๊ฐ’์„ ๊ฐ–๋Š” ์ ์˜ ํ•จ์ˆซ๊ฐ’์ด๋‹ค.
Global Minimum(์ตœ์†Ÿ๊ฐ’)์€ ์ •์˜์—ญ(x๊ฐ€ ๋  ์ˆ˜ ์žˆ๋Š” ๋ฒ”์œ„)์˜ ๋ชจ๋“  ์ ์—์„œ์˜ ์ตœ์†Œ์ ์˜ ํ•จ์ˆซ๊ฐ’์„ ์˜๋ฏธํ•œ๋‹ค.

  • Example

    • Global Minimum(์ตœ์†Ÿ๊ฐ’)์€ ํ•ญ์ƒ Local Minima(๊ทน์†Œ๊ฐ’)์ด๋‹ค.
    • ํ•˜์ง€๋งŒ Local Minima(๊ทน์†Œ๊ฐ’)์ด ํ•ญ์ƒ Global Minimum(์ตœ์†Ÿ๊ฐ’)์ด ๋˜๋Š” ๊ฒƒ์€ ์•„๋‹ˆ๋‹ค.
    • ์•„๋ž˜ ๊ทธ๋ฆผ์—์„œ A๋Š” Global Minimum(์ตœ์†Ÿ๊ฐ’)์ด๊ณ  E, G๋Š” Local Minima(๊ทน์†Œ๊ฐ’)์ด๋‹ค.

Reference


์ฐจ์›์˜ ์ €์ฃผ์— ๋Œ€ํ•ด ์„ค๋ช…ํ•ด์ฃผ์„ธ์š”.

๐Ÿ’ก ๋ฐ์ดํ„ฐ๋ฅผ ์ž˜ ํ‘œํ˜„ํ•˜๋Š” ์˜ˆ์ธก ๋ชจ๋ธ์„ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋‹ค์–‘ํ•œ ์ฐจ์›์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด๋Ÿฐ ์ฐจ์›์ด ์ฆ๊ฐ€ํ•  ์ˆ˜๋ก ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์ด ๋–จ์–ด์ง€๋Š” ํ˜„์ƒ์„ ์ฐจ์›์˜ ์ €์ฃผ๋ผ๊ณ  ์ผ์ปซ์Šต๋‹ˆ๋‹ค.
์ด๋Ÿฐ ํ˜„์ƒ์ด ๋ฐœ์ƒํ•˜๋Š” ์ด์œ ๋Š” ์ฐจ์›์ด ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ ๋” ๋งŽ์€ ์ฐจ์›์„ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ํ•„์š”ํ•ด์ง€๊ณ  ๊ธฐ์กด ๋ฐ์ดํ„ฐ๋กœ๋Š” ๊ฐœ๋ณ„ ์ฐจ์›๋งˆ๋‹ค ์›ํ™œํ•œ ํ•™์Šต์ด ์ด๋ฃจ์–ด์ง€์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

  • ์ฐจ์›์€ ๋†’์€๋ฐ ์ ์€ ๋ฐ์ดํ„ฐ ์ˆ˜๋ฅผ ๊ฐ€์ง€๊ณ  ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๊ฒŒ ๋˜๋ฉด ์ด ๋ชจ๋ธ์€ ๊ณผ๋Œ€์ ํ•ฉ๋œ ๋ชจ๋ธ์ด ๋œ๋‹ค. ๊ทธ ์ด์œ ๋Š” ์ฐจ์›์ด ๋†’์•„ ๊ทธ๋งŒํผ ๋ฐ์ดํ„ฐ๋ฅผ ์„ค์ •ํ•˜๋Š” ๋ณ€์ˆ˜์˜ ์ˆ˜๊ฐ€ ๋งŽ์ง€๋งŒ ๋ฐ์ดํ„ฐ์˜ ์ˆ˜๋Š” ์ ๊ธฐ ๋•Œ๋ฌธ์— ์‹ค์ œ ๋ฐ์ดํ„ฐ ์ฐจ์›์— ํ•ด๋‹น ๋˜๋Š” ๊ณต๊ฐ„์˜ ๋งŽ์€ ๊ฒฝ์šฐ๋“ค์„ ํ™•์ธํ•  ์ˆ˜ ์—†๊ธฐ ๋•Œ๋ฌธ์— ๋ชจ๋ธ์ด ํ•™์Šต ๋ฐ์ดํ„ฐ์— ๊ณผ์ ํ•ฉ๋œ ํ•™์Šต์„ ํ•˜์—ฌ ์„ฑ๋Šฅ์ด ๋‚ฎ์•„์ง„๋‹ค.

  • ์ฐจ์›์˜ ์ €์ฃผ(Curse of dimensionality) ํ˜„์ƒ์€ ์ˆ˜์น˜ ๋ถ„์„, ์ƒ˜ํ”Œ๋ง, ์กฐํ•ฉ, ๊ธฐ๊ณ„ ํ•™์Šต, ๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹ ๋ฐ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค์™€ ๊ฐ™์€ ์˜์—ญ์—์„œ ๋ฐœ์ƒํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฌธ์ œ์˜ ๊ณตํ†ต ์ฃผ์ œ๋Š” ์ฐจ์›์ด ์ฆ๊ฐ€ํ•˜๋ฉด ๊ณต๊ฐ„์˜ ๋ถ€ํ”ผ๊ฐ€ ๋„ˆ๋ฌด ๋นจ๋ฆฌ ์ฆ๊ฐ€ํ•˜์—ฌ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ๋ฐ์ดํ„ฐ๊ฐ€ ํฌ์†Œํ•ด์ง„๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒฐ๊ณผ๋ฅผ ์–ป๊ธฐ ์œ„ํ•ด ํ•„์š”ํ•œ ๋ฐ์ดํ„ฐ์˜ ์–‘์ด ์ฐจ์›์— ๋”ฐ๋ผ ๊ธฐํ•˜๊ธ‰์ˆ˜์ ์œผ๋กœ ์ฆ๊ฐ€ํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ๋‹ค.

    • ์ฐจ์› = ๋ณ€์ˆ˜์˜ ์ˆ˜ = ์ถ•์˜ ์ˆ˜
      • ์ฐจ์›์ด ๋Š˜์–ด๋‚œ๋‹ค = ๋ณ€์ˆ˜์˜ ์ˆ˜๊ฐ€ ๋งŽ์•„์ง„๋‹ค = ์ถ•์˜ ๊ฐœ์ˆ˜๊ฐ€ ๋งŽ์•„์ง„๋‹ค = ๋ฐ์ดํ„ฐ์˜ ๊ณต๊ฐ„์ด ์ปค์ง„๋‹ค
    • 1์ฐจ์› ๊ณต๊ฐ„์—์„œ์˜ 1,000๊ฐœ์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ์กด์žฌํ•  ๋•Œ, 1,000๊ฐœ ์ •๋„์˜ ๋ฐ์ดํ„ฐ๋งŒ ์žˆ์–ด๋„ ๋นˆ ๊ณณ์ด ์—†๋‹ค.
    • 2์ฐจ์› ์˜์—ญ์„ ๋‹ค ์ฑ„์šฐ๊ธฐ ์œ„ํ•ด์„œ๋Š” 20,000๊ฐœ์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ํ•„์š”
    • 3์ฐจ์› ์˜์—ญ์„ ๋‹ค ์ฑ„์šฐ๊ธฐ ์œ„ํ•ด์„œ๋Š” 100,000๊ฐœ์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ํ•„์š”
  • ์ฐจ์›์˜ ์ €์ฃผ ํ•ด๊ฒฐ๋ฐฉ๋ฒ•

    • ๋ฐ์ดํ„ฐ ์ถ”๊ฐ€ ์ˆ˜์ง‘
    • ๊ณต๊ฐ„ ๋ฒกํ„ฐ์˜ ๊ฑฐ๋ฆฌ๋ฅผ ์ธก์ •ํ•  ๋•Œ Euclidean distance ๋Œ€์‹  Cosine Similarity ํ™œ์šฉ
    • ์ฐจ์› ์ค„์ด๊ธฐ
      • Forward-feature selection
      • PCA/t-SNE

Reference


dimension reduction๊ธฐ๋ฒ•์œผ๋กœ ๋ณดํ†ต ์–ด๋–ค ๊ฒƒ๋“ค์ด ์žˆ๋‚˜์š”?

๐Ÿ’ก Dimension reduction์€ Feature extraction, Feature selection ๋‘ ๊ฐ€์ง€๋กœ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Feature selection์˜ย ์žฅ์ ์€ ์„ ํƒํ•œ ํ”ผ์ฒ˜์˜ย ํ•ด์„์ด ์šฉ์ดํ•˜๋‹ค๋Š” ์ ์ด๊ณ ย ๋‹จ์ ์€ ํ”ผ์ฒ˜๊ฐ„ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ๊ณ ๋ คํ•˜๊ธฐ ์–ด๋ ต๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. filter, wrapper, embedded methods์™€ ๊ฐ™์€ ๋ฐฉ๋ฒ•๋“ค์ด ํ•ด๋‹น๋ฉ๋‹ˆ๋‹ค.

Feature extraction์˜ย ์žฅ์ ์€ ํ”ผ์ฒ˜ ๊ฐ„ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ๊ณ ๋ คํ•˜๊ธฐ ์šฉ์ดํ•˜๊ณ  ํ”ผ์ฒ˜์˜ ๊ฐœ์ˆ˜๋ฅผ ๋งŽ์ด ์ค„์ผ ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์ด๊ณ ย ๋‹จ์ ์€ ์ถ”์ถœ๋œ ๋ณ€์ˆ˜์˜ ํ•ด์„์ด ์–ด๋ ต๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ Feature extraction์€ Linear, Non-Linear๋กœ ๋‹ค์‹œ ๋‚˜๋‰ฉ๋‹ˆ๋‹ค.

Feature selection

  • Filter
    • ํ†ต๊ณ„๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ greedyํ•˜๊ฒŒ ์ฐจ์›์„ ์ถ•์†Œํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๋Œ€์ƒ๊ณผ์˜ ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ๊ธฐ์ค€์ด ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ๊ฐ€์žฅ ๋น ๋ฅด๊ณ  ๊ฐ„๋‹จํ•œ ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.
  • Embedded
    • ์˜ˆ์ธก ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์ผ๋ถ€์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ํŠธ๋ฆฌ ๊ธฐ๋ฐ˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๋ณธ์งˆ์ ์œผ๋กœ ๋ฐ์ดํ„ฐ ์„ธํŠธ ๊ธฐ๋Šฅ์— ์ ์ˆ˜๋ฅผ ๋งค๊ธฐ๊ณ  ์ค‘์š”๋„์— ๋”ฐ๋ผ ์ˆœ์œ„๋ฅผ ๋งค๊น๋‹ˆ๋‹ค.ย Lasso L1 ์ •๊ทœํ™”๋Š” ๋ณธ์งˆ์ ์œผ๋กœ ๊ฐ€์ค‘์น˜๋ฅผ 0์œผ๋กœ ๋–จ์–ด๋œจ๋ฆผ์œผ๋กœ์จ ์ค‘๋ณต ๊ธฐ๋Šฅ์„ ์ œ๊ฑฐํ•ฉ๋‹ˆ๋‹ค.
  • Wrapper
    • ๊ฐ€์žฅ ์œ ์šฉํ•œ ๊ธฐ๋Šฅ์„ ์‹๋ณ„ํ•˜๊ธฐ ์œ„ํ•ด ๊ธฐ๋Šฅ์˜ ํ•˜์œ„ ์ง‘ํ•ฉ์ด ์žˆ๋Š” Validation set์—์„œ ์˜ˆ์ธก ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.ย ์ตœ์ ์˜ ํ•˜์œ„ ์ง‘ํ•ฉ์„ ์ฐพ๋Š” ๋ฐ์— ๋งŽ์€ ๊ณ„์‚ฐ ๋น„์šฉ์ด ์š”๊ตฌ๋ฉ๋‹ˆ๋‹ค.ย ๋ž˜ํผ ๋ฐฉ๋ฒ•์€ ์—ญ๋ฐฉํ–ฅ/์ „๋ฐฉํ–ฅ ์„ ํƒ๊ณผ ๊ฐ™์€ ํƒ์š•์ ์ธ ๊ฒฐ์ •์„ ๋‚ด๋ฆฝ๋‹ˆ๋‹ค. ์ด ์„ ํƒ์€ ํ”ผ์ณ๋ฅผ ์ฐจ๋ก€๋กœ ํƒ์š•์Šค๋Ÿฝ๊ฒŒ ์ œ๊ฑฐ/์„ ํƒํ•ฉ๋‹ˆ๋‹ค.

Feature Projection

  • Linear
    • Original Feature๋ฅผ ์„ ํ˜•์œผ๋กœ ๊ฒฐํ•ฉํ•˜์—ฌ Original data set์„ ๋” ์ ์€ ์ฐจ์›์œผ๋กœ ์••์ถ•ํ•ฉ๋‹ˆ๋‹ค.ย ์ผ๋ฐ˜์ ์ธ ๋ฐฉ๋ฒ•์—๋Š” ์ฃผ์„ฑ๋ถ„ ๋ถ„์„(PCA), ์„ ํ˜• ํŒ๋ณ„ ๋ถ„์„(LDA) ๋ฐ ํŠน์ด๊ฐ’ ๋ถ„ํ•ด(SVD)๊ฐ€ ํฌํ•จ๋ฉ๋‹ˆ๋‹ค.
  • Non-Linear
    • ์ข€๋” ๋ณต์žกํ•˜์ง€๋งŒ Linear method๋กœ๋Š” ํ•ด๊ฒฐํ•˜๊ธฐ ํž˜๋“ค ๋•Œ ์œ ์šฉํ•œ ์ฐจ์› ๊ฐ์†Œ๋ฅผ ์ฐพ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.ย ๋น„์„ ํ˜• ์ฐจ์› ๊ฐ์†Œ ๋ฐฉ๋ฒ•์—๋Š” ์ปค๋„ PCA, t-SNE, Autoencoders, Self-Organizing Maps, IsoMap ๋ฐ UMap์ด ํฌํ•จ๋ฉ๋‹ˆ๋‹ค.

Reference


PCA๋Š” ์ฐจ์› ์ถ•์†Œ ๊ธฐ๋ฒ•์ด๋ฉด์„œ, ๋ฐ์ดํ„ฐ ์••์ถ• ๊ธฐ๋ฒ•์ด๊ธฐ๋„ ํ•˜๊ณ , ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ๊ธฐ๋ฒ•์ด๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค. ์™œ ๊ทธ๋Ÿฐ์ง€ ์„ค๋ช…ํ•ด์ฃผ์‹ค ์ˆ˜ ์žˆ๋‚˜์š”?

๐Ÿ’ก PCA(Principal Component Analysis, ์ฃผ์„ฑ๋ถ„ ๋ถ„์„)์˜ ๊ธฐ๋ณธ ๊ฐœ๋…์€ ์ฃผ์–ด์ง„ ๋ฒกํ„ฐ์—์„œ ์„ ํ˜• ๋…๋ฆฝ์ธ ๊ณ ์œ  ๋ฒกํ„ฐ๋งŒ์„ ๋‚จ๊ฒจ๋‘๊ณ  ์ฐจ์› ์ถ•์†Œ๋ฅผ ํ•˜๊ณ . ์ด๋•Œ ์ƒ๊ด€์„ฑ์ด ๋†’์€ ๋…๋ฆฝ ๋ณ€์ˆ˜๋“ค์„ N๊ฐœ์˜ ์„ ํ˜• ์กฐํ•ฉ์œผ๋กœ ๋งŒ๋“ค์–ด ๋ณ€์ˆ˜์˜ ๊ฐœ์ˆ˜๋ฅผ ์š”์•ฝ, ์••์ถ•ํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.

์‚ฌ์˜ ํ›„ ์›๋ฐ์ดํ„ฐ์˜ ๋ถ„์‚ฐ์„ ์ตœ๋Œ€ํ•œ ๋ณด์ „ํ•  ์ˆ˜ ์žˆ๋Š” ๊ธฐ์ €๋ฅผ ์ฐพ์•„ ์ฐจ์›์„ ์ค„์ด๋ฏ€๋กœ ์ฐจ์› ์ถ•์†Œ ๊ธฐ๋ฒ•์ด๋ฉฐ ๊ทธ ๊ฒฐ๊ณผ feature๋“ค์˜ ์ˆ˜๊ฐ€ ๊ธฐ์กด๋ณด๋‹ค ์ž‘์•„์ง€๊ธฐ ๋•Œ๋ฌธ์— ๋ฐ์ดํ„ฐ ์••์ถ• ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค. PCA ์ดํ›„ ์ •๋ณด ์„ค๋ช…๋ ฅ์ด ๋†’์€ ์ฃผ์„ฑ๋ถ„๋“ค๋งŒ ์„ ํƒํ•˜๊ณ  ์ •๋ณด ์„ค๋ช…๋ ฅ์ด ๋‚ฎ์€, ๋…ธ์ด์ฆˆ๋กœ ๊ตฌ์„ฑ๋œ ๋ณ€์ˆ˜๋“ค์€ ๋ฐฐ์ œํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ ๊ธฐ๋ฒ•์ด๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค. (๋…ธ์ด์ฆˆ๋ฅผ ์™„์ „ ์ œ๊ฑฐํ•˜์ง€๋Š” ๋ชปํ•จ!)

Reference


LSA, LDA, SVD ๋“ฑ์˜ ์•ฝ์ž๋“ค์ด ์–ด๋–ค ๋œป์ด๊ณ  ์„œ๋กœ ์–ด๋–ค ๊ด€๊ณ„๋ฅผ ๊ฐ€์ง€๋Š”์ง€ ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ๋‚˜์š”?

๐Ÿ’ก SVD๋Š” Singular Value Decomposition(ํŠน์ด๊ฐ’๋ถ„ํ•ด)์˜ ์•ฝ์ž๋กœ ํ–‰๋ ฌ์˜ ํฌ๊ธฐ์™€ ๊ด€๊ณ„ ์—†์ด ๋ชจ๋“  m x n ํ–‰๋ ฌ์— ๋Œ€ํ•ด ์ ์šฉ ๊ฐ€๋Šฅํ•œ ํ–‰๋ ฌ ๋ถ„ํ•ด ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ํ–‰๋ ฌ A๊ฐ€ m x n ํ–‰๋ ฌ์ผ ๋•Œ $A = U\Sigma V^T$ ๋กœ ๋ถ„ํ•ดํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, SVD๋กœ ๋‚˜์˜จ ๋Œ€๊ฐํ–‰๋ ฌ์˜ ๋Œ€๊ฐ ์›์†Œ ๊ฐ’์„ ํ–‰๋ ฌ A์˜ ํŠน์ด๊ฐ’(singular value)์ด๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค.

LSA๋Š” Latent Semantic Analysis(์ž ์žฌ์˜๋ฏธ๋ถ„์„)์˜ ์•ฝ์ž๋กœ SVD๋ฅผ ํ™œ์šฉํ•ด ๋ฌธ์„œ์— ํ•จ์ถ•๋œ ์ฃผ์ œ๋ฅผ ์ฐพ์•„๋‚ด๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. BoW์— ๊ธฐ๋ฐ˜ํ•œ DTM, TF-IDF ํ–‰๋ ฌ์— truncated SVD๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ฐจ์›์„ ์ถ•์†Œ์‹œํ‚ค๊ณ , ๋‹จ์–ด๋“ค์˜ ์ž ์žฌ์ ์ธ ์˜๋ฏธ๋ฅผ ๋Œ์–ด๋‚ธ๋‹ค๋Š” ์•„์ด๋””์–ด์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ LSI(Latent Semantic Indexing)๋กœ ํ‘œํ˜„ํ•˜๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค.

LDA๋Š” Latent Dirichlet Allocation(์ž ์žฌ ๋””๋ฆฌํด๋ ˆ ํ• ๋‹น)๊ณผ Linear Discriminant Analysis(์„ ํ˜•ํŒ๋ณ„๋ถ„์„) ๋‘ ๊ฐ€์ง€ ๊ฐœ๋…์˜ ์•ฝ์ž๊ฐ€ ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Latent Dirichlet Allocation(์ž ์žฌ ๋””๋ฆฌํด๋ ˆ ํ• ๋‹น)์€ ์ฃผ์–ด์ง„ ๋ฌธ์„œ์— ๋Œ€ํ•˜์—ฌ ๊ฐ ๋ฌธ์„œ์— ์–ด๋–ค ์ฃผ์ œ๋“ค์ด ์กด์žฌํ•˜๋Š”์ง€๋ฅผ ์„œ์ˆ ํ•˜๋Š” ๊ฒƒ์— ๋Œ€ํ•œ ํ™•๋ฅ ์  ํ† ํ”ฝ ๋ชจ๋ธ ๊ธฐ๋ฒ•์ค‘ ๋Œ€ํ‘œ์ ์ธ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค. LDA ์—ญ์‹œ BoW์— ๊ธฐ๋ฐ˜ํ•œ DTM, TF-IDF ํ–‰๋ ฌ์„ ์ž…๋ ฅ์œผ๋กœ ํ•˜๊ณ , ๋‹จ์–ด๊ฐ€ ํŠน์ • ํ† ํ”ฝ์— ์กด์žฌํ•  ํ™•๋ฅ ๊ณผ ๋ฌธ์„œ์— ํŠน์ • ํ† ํ”ฝ์ด ์กด์žฌํ•  ํ™•๋ฅ ์„ ๊ฒฐํ•ฉํ™•๋ฅ ๋กœ ์ถ”์ •ํ•˜์—ฌ ํ† ํ”ฝ์„ ์ถ”์ถœํ•ฉ๋‹ˆ๋‹ค.

Linear Discriminant Analysis(์„ ํ˜•ํŒ๋ณ„๋ถ„์„)์€ Classification(๋ถ„๋ฅ˜๋ชจ๋ธ)๊ณผ Dimensional Reduction(์ฐจ์› ์ถ•์†Œ)๊นŒ์ง€ ๋™์‹œ์— ์‚ฌ์šฉํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค. ์ž…๋ ฅ ๋ฐ์ดํ„ฐ ์„ธํŠธ๋ฅผ ์ €์ฐจ์› ๊ณต๊ฐ„์œผ๋กœ ํˆฌ์˜(projection)ํ•ด ์ฐจ์›์„ ์ถ•์†Œํ•˜๋Š” ๊ธฐ๋ฒ•์ด๋ฉฐ ์ง€๋„ํ•™์Šต์—์„œ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. LDA ๋˜๋Š” FDA(Fisher Discriminant Analysis, ์„ ํ˜•ํŒ๋ณ„๋ถ„์„)์œผ๋กœ๋„ ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค.

LSA(Latent Semantic Analysis) ๋ฐ LDA(Latent Dirichlet Allocation) ๋‘˜ ๋‹ค truncated SVD๋ฅผ ํ™œ์šฉํ•œ ์ฐจ์› ์ถ•์†Œ๋ฅผ ํ†ตํ•ด ์ž ์žฌ ์˜๋ฏธ๋ฅผ ์ฐพ๊ณ ์ž ํ•ฉ๋‹ˆ๋‹ค. ๋‹จ, LDA์˜ ๊ฒฝ์šฐ LSA์—์„œ ํŒŒ์ƒ๋œ ํ™•๋ฅ  ๋ชจ๋ธ์ธ pLSA๊ฐ€ ๊ฐ€์ง„ ๋ฌธํ—Œ๋ณ„ ์ฃผ์ œ ๋ถ„ํฌ๋ฅผ ํŒŒ์•…ํ•˜์ง€ ๋ชปํ•˜๋Š” ์ ์„ ๊ฐœ์„ ํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค๋ณ€์ˆ˜ ํ™•๋ฅ ๋ณ€์ˆ˜์ธ ๋””๋ฆฌํด๋ ˆ ๋ถ„ํฌ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋ฌธํ—Œ๋ณ„ ์ฃผ์ œ + ์ฃผ์ œ๋ณ„ ๋‹จ์–ด๋ถ„ํฌ๋ฅผ ๊ณ ๋ คํ•ฉ๋‹ˆ๋‹ค.

  • $A: m\times n$ rectangular matrix (์ง์‚ฌ๊ฐ ํ–‰๋ ฌ)
  • $U:m \times m$ orthogonal matrix (์ง๊ต ํ–‰๋ ฌ)
  • $\Sigma:m\times n$ diagonal matrix (๋Œ€๊ฐ ํ–‰๋ ฌ)
  • $V: n\times n$ orthogonal matrix (์ง๊ต ํ–‰๋ ฌ)
  • BoW(Back of Words): ๋‹จ์–ด ๋นˆ๋„ ์ˆ˜
  • DTM(Document-Term Matrix): ๋ฌธ์„œ ๋‹จ์–ด ํ–‰๋ ฌ
  • TF-IDF(Term Freqeuncy-Inverse Document Frequency): DTM์— ๋‹จ์–ด์˜ ์ค‘์š”๋„๋ฅผ ๊ฐ€์ค‘์น˜๋กœ ๋ถ€์—ฌ
  • ๋””๋ฆฌํด๋ ˆ ๋ถ„ํฌ

Reference


Markov Chain์„ ๊ณ ๋“ฑํ•™์ƒ์—๊ฒŒ ์„ค๋ช…ํ•˜๋ ค๋ฉด ์–ด๋–ค ๋ฐฉ์‹์ด ์ œ์ผ ์ข‹์„๊นŒ์š”?

๐Ÿ’ก Markov Chain์€ ์ด์‚ฐ์ ์ธ ์‹œ๊ฐ„์— ๋”ฐ๋ผ ์‹œ์Šคํ…œ์ด ์–ด๋–ค ์ƒํƒœ์—์„œ ๋‹ค๋ฅธ ์ƒํƒœ๋กœ ๋„˜์–ด๊ฐ€๊ฑฐ๋‚˜ ๊ฐ™์€ ์ƒํƒœ๋ฅผ ์œ ์ง€ํ•  ๋•Œ, ์ƒํƒœ ๋ณ€ํ™”์˜ ํ™•๋ฅ  ๊ณผ์ •์€ ๋ฐ”๋กœ ์ „ ๋‹จ๊ณ„์˜ ์ƒํƒœ, ํ˜น์€ ๊ทธ ์ด์ „ ์ผ์ • ๊ธฐ๊ฐ„์˜ ์ƒํƒœ์—๋งŒ ์˜ํ–ฅ์„ ๋ฐ›๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด, โ€˜์‚ฌ๋žŒ๋“ค์€ ์ „๋‚  ๋จน์€ ์Œ์‹๊ณผ ์œ ์‚ฌํ•œ ์Œ์‹์„ ๋จน์ง€ ์•Š์œผ๋ ค๊ณ  ํ•œ๋‹ค.โ€™ ๋ผ๋Š” ๊ฐ€์ •์—์„œ ์˜ค๋Š˜์˜ ์Œ์‹ ์„ ํƒ์ด ์–ด์ œ์˜ ์Œ์‹ ์„ ํƒ์—๋งŒ ์˜ํ–ฅ์„ ๋ฐ›๊ณ , ๊ทธ์ €๊ป˜์˜ ์Œ์‹ ์„ ํƒ์—๋Š” ์˜ํ–ฅ์„ ๋ฐ›์ง€ ์•Š๋Š”๋‹ค๋ฉด ์ด ๊ณผ์ •์€ Markov property๋ฅผ ๊ฐ€์ง„๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด ํ™•๋ฅ  ๊ณผ์ •์€ Markov chain์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋˜ํ•œ, ์–ด์ œ์˜ ์Œ์‹์—๋งŒ ์˜ํ–ฅ์„ ๋ฐ›๋Š”๋‹ค๋ฉด 1์ฐจ Markov chain, ๊ทธ์ €๊ป˜๊นŒ์ง€์˜ ์Œ์‹ ์„ ํƒ์—๋งŒ ์˜ํ–ฅ์„ ๋ฐ›๋Š”๋‹ค๋ฉด 2์ฐจ Markov chain์ž…๋‹ˆ๋‹ค.

๋‹ค๋ฅธ ์˜ˆ๋กœ๋Š” ํ•œ ๋Œ€ํ•™์›์ƒ์˜ ํ™œ๋™ ์‚ฌ์ดํด์„ ์‹œ์Šคํ…œ์œผ๋กœ ํ‘œํ˜„ํ•˜๋ฉด ์•„๋ž˜ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. ์ด๋•Œ ์›น์„œํ•‘์„ ํ•œ ํ›„์— ๋‹ค์‹œ ์›น์„œํ•‘์„ ํ•  ํ™•๋ฅ ์€ 0.3, ์—ฐ๊ตฌ๋ฅผ ํ•  ํ™•๋ฅ ์€ 0.5, ๋…์„œ๋ฅผ ํ•  ํ™•๋ฅ ์€ 0.2์ž…๋‹ˆ๋‹ค. ๋ฉ”๋ชจ๋ฆฌ๊ฐ€ 1์ธ 1์ฐจ Markov chain์ด๋ผ๋ฉด ํ˜„์žฌ ์ž์‹ ์˜ ์ƒํƒœ๋ฐ–์— ๊ธฐ์–ตํ•˜์ง€ ๋ชปํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์›น์„œํ•‘์„ ํ•œ ์ƒํƒœ์—์„œ๋Š” ์ „์— ์›น์„œํ•‘์„ ๋ช‡ ๋ฒˆ์„ ํ–ˆ๋“ ์ง€ ๋‹ค์Œ ์ƒํƒœ๋กœ์˜ ํ™•๋ฅ ์€ ์–ธ์ œ๋‚˜ ์›น์„œํ•‘์€ 0.3, ์—ฐ๊ตฌ๋Š” 0.5, ๋…์„œ๋Š” 0.2๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.

ํ•˜์ง€๋งŒ ํ˜„์žฌ ์›น์„œํ•‘ ๋งˆ์น˜๊ณ  ๋‹ค์Œ ์ƒํƒœ๋กœ ๋„˜์–ด๊ฐˆ ๋•Œ ํ˜„์žฌ ์›น์„œํ•‘ ์ด์ „์— ๋˜ ์›น์„œํ•‘์„ ํ•ด์„œ ์ฃ„์ฑ…๊ฐ์œผ๋กœ ๋‹ค์‹œ ์›น์„œํ•‘์„ ํ•  ํ™•๋ฅ ์ด 0.1 ์ค„์–ด๋“ค์–ด ์›น์„œํ•‘ 0.2 ์—ฐ๊ตฌ 0.6 ๋…์„œ 0.2๊ฐ€ ๋˜๊ฑฐ๋‚˜ ์ง์ „์— ์—ฐ๊ตฌ๋ฅผ ํ•˜๊ณ  ์›น์„œํ•‘์„ ํ•˜์—ฌ ์‰ฌ๊ณ  ์‹ถ์€ ๋งˆ์Œ์— ์—ฐ๊ตฌ ํ™•๋ฅ ์ด 0.1 ์ค„์–ด ๋‹ค์Œ ์ƒํƒœ ํ™•๋ฅ ์ด ์›น์„œํ•‘ 0.4 ์—ฐ๊ตฌ 0.4 ๋…์„œ 0.3๊ฐ€ ๋˜๋Š” ๊ฒƒ์„ ๋ฉ”๋ชจ๋ฆฌ๊ฐ€ 2์ธ 2์ฐจ Markov chain ์ด๋ผ๊ณ  ํ•˜๊ณ  ์ด๊ฒƒ์€ ์ด์ „ ์ƒํƒœ๊ฐ€ ํ˜„์žฌ ์ƒํƒœ์— ์˜ํ–ฅ์„ ์ค€๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด๋ ‡๊ฒŒ ์ด์ „ ์ƒํƒœ์˜ ๊ธฐ์–ต์„ ์˜ค๋ž˜ ๊ธฐ์–ตํ• ์ˆ˜๋ก 3์ฐจ, 4์ฐจ Markov chain์ด ๋ฉ๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ Markov Chain์€ MCMC(Markov Chain Monte Carlo sampling)์— ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค.

  • MCMC
    • Markov Chain์„ ์ด์šฉํ•œ Monte Carlo ๋ฐฉ๋ฒ•์œผ๋กœ ์ด์ „์˜ ์ƒ˜ํ”Œ ์ถ”์ถœ์ด ๋‹ค์Œ ์ƒ˜ํ”Œ ์ถ”์ถœ์— ์˜ํ–ฅ์„ ๋ฏธ์นจ
    • Markov chain์€ ์—ฐ์‡„๋ฅผ ๋ฐ˜๋ณตํ•˜๋‹ค ๋ณด๋ฉด ํ˜„์žฌ ์ƒํƒœ์˜ ํ™•๋ฅ ์ด ์ง์ „ ์ƒํƒœ์˜ ํ™•๋ฅ ๊ณผ ์ˆ˜๋ ด
    • ํ‰ํ˜• ์ƒํƒœ์— ๋„๋‹ฌํ•œ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ์ •์  ๋ถ„ํฌ(Stationary Distribution)์ด๋ผ๊ณ  ํ•จ
    • ์ด๋Ÿฌํ•œ ์ •์  ๋ถ„ํฌ๊ฐ€ ๋ชฉํ‘œ ๋ถ„ํฌ(target distribution) p(x)๊ฐ€ ๋˜๋„๋ก Markov chain์„ ์„ค์ •ํ•˜๋Š” ๊ฒƒ์ด MCMC ์ ‘๊ทผ๋ฒ•

Reference


ํ…์ŠคํŠธ ๋”๋ฏธ์—์„œ ์ฃผ์ œ๋ฅผ ์ถ”์ถœํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์–ด๋–ค ๋ฐฉ์‹์œผ๋กœ ์ ‘๊ทผํ•ด ๋‚˜๊ฐ€์‹œ๊ฒ ๋‚˜์š”?

๐Ÿ’ก ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ ๋‚ด ๋‹จ์–ด๋“ค์˜ ๋นˆ๋„๋ฅผ ํ†ต๊ณ„์ ์œผ๋กœ ๋ถ„์„ํ•˜์—ฌ ์ „์ฒด ๋ฐ์ดํ„ฐ๋ฅผ ๊ด€ํ†ตํ•˜๋Š” ์ž ์žฌ์  ์ฃผ์ œ, ์ฆ‰ ํ† ํ”ฝ๋“ค์„ ์ž๋™์œผ๋กœ ์ถ”์ถœ ๋ถ„๋ฅ˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฐฉ๋ฒ•๋ก ์„ Topic Modeling์ด๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค. Topic Modeling์—๋Š” Latent Semantic Analysis (LSA), Probabilistic LSA(pLSA), Latent Dirichlet Allocation(LDA), Correlated topic model(CTM), Structural topic model(STM) ๋“ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

  • Latent Semantic Analysis(LSA, ๋น„ํ™•๋ฅ ์  ํ† ํ”ฝ ๋ถ„์„)
    • Latent Semantic Indexing(LSI) ๋ผ๊ณ ๋„ ๋ถˆ๋ฆฌ๋ฉฐ, SVD(ํŠน์ด๊ฐ’ ๋ถ„ํ•ด)๋ฅผ ํ™œ์šฉํ•ด ๋ฌธ์„œ์— ํ•จ์ถ•๋œ ์ฃผ์ œ๋ฅผ ์ฐพ์•„๋‚ด๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค
    • LSA์˜ ๋‹จ์ ์œผ๋กœ๋Š” ๋ฐ์ดํ„ฐ์— ๋‚ด์žฌ๋œ ์˜ค์ฐจ๋ฅผ ์ปจํŠธ๋กคํ•  ์ˆ˜ ์—†๊ณ  ์˜๋ฏธ๊ณต๊ฐ„์˜ ๊ฐ€์ค‘์น˜๊ฐ€ ์Œ์ˆ˜์ธ ๊ฒฝ์šฐ๊ฐ€ ๋ฐœ์ƒํ•˜์—ฌ ํ•ด์„์ด ์–ด๋ ต์Šต๋‹ˆ๋‹ค
  • Probabilistic LSA(pLSA, ํ™•๋ฅ ์  ํ† ํ”ฝ ๋ถ„์„)
    • pLSA๋Š” ๋‹จ์–ด๊ฐ€ ๋“ฑ์žฅ ํšŸ์ˆ˜ ๊ธฐ๋ฐ˜์ด ์•„๋‹Œ ๋“ฑ์žฅ ํ™•๋ฅ ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ถ„์„ํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค
    • ๋‹จ์ ์œผ๋กœ๋Š” LSA์™€ ๊ฐ™์ด ๋‹จ์ˆœํ•˜๊ฒŒ ๋ฌธํ—Œ-์šฉ์–ด ํ–‰๋ ฌ๋งŒ ์ž…๋ ฅ๋ฐ›๊ธฐ ๋•Œ๋ฌธ์— ๋ฌธํ—Œ ๋‚ด์— ์ฃผ์ œ๊ฐ€ ์–ด๋–ป๊ฒŒ ๋ถ„ํฌํ•˜๋Š”๊ฐ€๋Š” ๊ณ ๋ คํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค
  • Latent Dirichlet Allocation(LDA, ์ž ์žฌ ๋””๋ฆฌํด๋ ˆ ํ• ๋‹น)
    • LDA๋Š” pLSA์˜ Bayesian ๋ฒ„์ „์œผ๋กœ ํ† ํ”ฝ์— ๋Œ€ํ•œ ์‚ฌ์ „ํ™•๋ฅ ๋ถ„ํฌ๋กœ Dirichlet prior๋ฅผ ์ด์šฉํ•ฉ๋‹ˆ๋‹ค
    • LDA๋Š” pLSA์˜ ๋‹จ์ ์„ ๋ณด์™„ํ•˜๊ธฐ ์œ„ํ•ด ๋ฌธํ—Œ๋ณ„ ์ฃผ์ œ ๋ถ„ํฌ์™€ ์ฃผ์ œ๋ณ„ ๋‹จ์–ด ๋ถ„ํฌ๋ฅผ ๊ณ ๋ คํ•ฉ๋‹ˆ๋‹ค
    • LDA์˜ ๋‹จ์ ์œผ๋กœ๋Š” ๋ฌธ์„œ์— ๋Œ€ํ•œ ํ† ํ”ฝ๋ถ„ํฌ์˜ ๋ชจ์ˆ˜(ํ† ํ”ฝ๋น„์œจ)๋ฅผ ๋””๋ฆฌํด๋ ˆ๋ถ„ํฌ๋กœ ์ƒ์„ฑํ•˜์—ฌ ํ† ํ”ฝ๊ฐ„ ์—ฐ๊ด€์„ฑ์„ ๋ฐ˜์˜ํ•˜์ง€ ๋ชปํ•ฉ๋‹ˆ๋‹ค
  • Correlated topic model(CTM, ์ƒ๊ด€ ํ† ํ”ฝ ๋ชจ๋ธ)
    • CTM์€ LDA์˜ ํ™•์žฅ ๋ฒ„์ „์œผ๋กœ ํ† ํ”ฝ๊ฐ„ ์—ฐ๊ด€์„ฑ์„ ๋‚˜ํƒ€๋‚ด๋Š” ํ† ํ”ฝ๋น„์œจ์„ ๋‹ค๋ณ€๋Ÿ‰์ •๊ทœ๋ถ„ํฌ๋ฅผ ์ด์šฉํ•˜์—ฌ 2๋‹จ๊ณ„๋กœ ๋ชจํ˜•ํ™” ํ•ฉ๋‹ˆ๋‹ค
  • Structural topic model(STM, ๊ตฌ์กฐ ํ† ํ”ฝ ๋ชจ๋ธ)
    • STM์€ LDA์—์„œ ํ† ํ”ฝ๊ฐ„์˜ ์—ฐ๊ด€์„ฑ์„ ๋ฐ˜์˜ํ•˜์ง€ ๋ชปํ•˜๋Š” ๋‹จ์ ์„ ๋ณด์™„ํ•˜๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.
    • STM์€ ๊ด€๊ณ„ ์ถ”์ •์ด ๊ฐ€๋Šฅํ•œ ๋กœ์ง€์Šคํ‹ฑ ์ •๊ทœ๋ถ„ํฌ๋ฅผ ์‚ฌ์šฉํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.
    • STM์€ k๊ฐœ ์ฃผ์ œ๋“ค์˜ ๋ฐœ์ƒ ํ™•๋ฅ ์„ ์ข…์†๋ณ€์ˆ˜๋กœ ์„ค์ •ํ•˜๊ณ  ๋ฌธ์„œ์˜ ๋ฉ”ํƒ€์ •๋ณด๋ฅผ ๋…๋ฆฝ๋ณ€์ˆ˜๋กœ ์„ค์ •ํ•œ ํ›„ ์„ ํ˜•ํšŒ๊ท€๋ชจํ˜•์œผ๋กœ ๊ด€๊ณ„๋ฅผ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.

Reference


SVM์€ ์™œ ๋ฐ˜๋Œ€๋กœ ์ฐจ์›์„ ํ™•์žฅ์‹œํ‚ค๋Š” ๋ฐฉ์‹์œผ๋กœ ๋™์ž‘ํ• ๊นŒ์š”? SVM์€ ์™œ ์ข‹์„๊นŒ์š”?

๐Ÿ’ก ์ฐจ์›์„ ๋ฐ”๋ผ๋ณด๋Š” ๋‘ ๊ฐ€์ง€ ์‹œ๊ฐ์ด ์กด์žฌํ•ฉ๋‹ˆ๋‹ค. ํ•˜๋‚˜๋Š” ์ฐจ์›์„ ๋‚ฎ์ถฐ์„œ ๋ฌธ์ œ๋ฅผ ๋‹จ์ˆœํ™” ์‹œํ‚ค๊ณ ์ž ํ•˜๋Š” ๊ฒƒ์ด๊ณ , ๋‹ค๋ฅธ ํ•˜๋‚˜๋Š” ์ฐจ์›์„ ์ถ”๊ฐ€ํ•จ์œผ๋กœ์จ ๋‹จ์ˆœํ™” ์‹œํ‚ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.
SVM์—์„œ๋Š” ํ˜„์žฌ ์ฐจ์›์—์„œ ๋ฐ์ดํ„ฐ๋ฅผ ์„ ํ˜•์ ์œผ๋กœ ๋ถ„๋ฅ˜ํ•˜๊ธฐ ํž˜๋“  ๊ฒฝ์šฐ์— ๋ฐ์ดํ„ฐ์˜ ์ฐจ์›์„ ๊ณ ์ฐจ์›์œผ๋กœ ํ™•์žฅํ•œ ํ›„ ๊ฒฝ๊ณ„ํ‰๋ฉด์„ ์ฐพ๋Š” ์›๋ฆฌ๊ฐ€ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
๋‹จ, ์‹ค์ œ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ์—ฐ์‚ฐ์„ ํ†ตํ•ด ์ฐจ์›์„ ๋†’์ด๋Š” ๊ณผ์ •์€ ํ˜„์‹ค ๋ฐ์ดํ„ฐ ํŠน์„ฑ ์ƒ ์ˆ˜ ๋งŽ์€ ์—ฐ์‚ฐ๋Ÿ‰์„ ์š”๊ตฌํ•˜๊ธฐ ๋•Œ๋ฌธ์— Kernel Trick์„ ํ†ตํ•ด์„œ ์ฐจ์›์„ ๋†’์ด์ง€ ์•Š๊ณ  margin์„ ๊ทน๋Œ€ํ™” ํ•˜๋Š” ์„œํฌํŠธ ๋ฒกํ„ฐ๋ฅผ ๊ตฌํ•ฉ๋‹ˆ๋‹ค.

Untitled

  • ์žฅ์ 
    • ๋…ธ์ด์ฆˆ ๋ฐ์ดํ„ฐ์™€ ์ด์ƒ์น˜๋ฅผ ์ž˜ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค
    • ์„ ํ˜• ๋ถ„๋ฆฌ๊ฐ€ ๋ถˆ๊ฐ€ํ•ด ๋ณด์ด๋Š” ๊ฒƒ๋„ ๊ณ ์ฐจ์› ๋งคํ•‘์„ ํ†ตํ•ด ๋ถ„๋ฆฌ๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค
    • ๊ณ ์ฐจ์›์—์„œ๋„ ํšจ๊ณผ์ ์ด๋ผ๊ณ  ์•Œ๋ ค์ ธ ์žˆ์œผ๋ฉฐ local optimum์— ๋น ์งˆ ์ˆ˜ ์žˆ๋Š” ๋”ฅ๋Ÿฌ๋‹ ๋ฐฉ์‹๊ณผ๋Š” ๋‹ฌ๋ฆฌ SVM์€ global optimum์„ ์ฐพ์Šต๋‹ˆ๋‹ค
    • model-based-learning์œผ๋กœ ๋ชจ๋ธ์ด ๊ตฌ์ถ•๋œ ํ›„์—” ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์˜ˆ์ธก ๋ฐ ๋ถ„๋ฅ˜ ์†๋„๊ฐ€ ์ƒ๋Œ€์ ์œผ๋กœ ๋น ๋ฆ…๋‹ˆ๋‹ค
  • ๋‹จ์ 
    • ๋ถ„๋ฅ˜ ํด๋ž˜์Šค๊ฐ€ ์—ฌ๋Ÿฌ ๊ฐœ๊ฐ€ ๋˜๋ฉด ๋ถ„๋ฅ˜๋ฅผ ํ•ด์•ผํ•˜๋Š” ๊ฒฝ์šฐ์˜ ์ˆ˜๊ฐ€ ๋งŽ์•„์ง€๊ธฐ ๋•Œ๋ฌธ์— ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ•˜๋Š”๋ฐ ์‹œ๊ฐ„์ด ์˜ค๋ž˜ ๊ฑธ๋ฆฝ๋‹ˆ๋‹ค
    • ์ตœ์  ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ฐพ๋Š” ๊ณผ์ •์„ ๊ฑฐ์น˜๊ธฐ ๋•Œ๋ฌธ์— ๋ชจํ˜• ๊ตฌ์ถ• ์‹œ๊ฐ„์ด ์˜ค๋ž˜ ๊ฑธ๋ฆด ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค
    • ๊ฒฐ๊ณผ์— ๋Œ€ํ•œ ์„ค๋ช…๋ ฅ์ด ๋–จ์–ด์ง‘๋‹ˆ๋‹ค

Reference


๋‹ค๋ฅธ ์ข‹์€ ๋จธ์‹  ๋Ÿฌ๋‹ ๋Œ€๋น„, ์˜ค๋ž˜๋œ ๊ธฐ๋ฒ•์ธ ๋‚˜์ด๋ธŒ ๋ฒ ์ด์ฆˆ(naive bayes)์˜ ์žฅ์ ์„ ์˜นํ˜ธํ•ด๋ณด์„ธ์š”.

๐Ÿ’ก ๋‚˜์ด๋ธŒ ๋ฒ ์ด์ฆˆ์˜ ์žฅ์ 

  • ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ (์šฐ๋„, ์‚ฌํ›„ํ™•๋ฅ )๋งŒ ๊ณ„์‚ฐํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๊ณ„์‚ฐ๋Ÿ‰์ด ์ ์–ด์„œ ๋น ๋ฅด๊ฒŒ ๋™์ž‘
  • ๋…ธ์ด์ฆˆ ๋ฐ ๊ฒฐ์ธก ๋ฐ์ดํ„ฐ์— ๊ฐ•์ธ ํ•จ
  • ๊ฐ ํ”ผ์ณ๋“ค์ด ๋…๋ฆฝ์ธ ๊ฒฝ์šฐ ๋‹ค๋ฅธ ๋ชจ๋ธ ๋Œ€๋น„ ์ ์€ ๋ฐ์ดํ„ฐ๋กœ ์„ฑ๋Šฅ์ด ์ž˜ ๋‚˜์˜ด
  • ๋ฉ€ํ‹ฐ ํด๋ž˜์Šค, ์นดํ…Œ๊ณ ๋ฆฌํ˜• ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šตํ•  ๊ฒฝ์šฐ ์ ํ•ฉ
  • Naive Bayes ํ™œ์šฉ
    • ์ŠคํŒธ ํ•„ํ„ฐ๋ง
    • ๋น„์ •์ƒ์ ์ธ ์ƒํ™ฉ ๊ฐ์ง€

Reference


ํšŒ๊ท€ / ๋ถ„๋ฅ˜์‹œ ์•Œ๋งž์€ metric์€ ๋ฌด์—‡์ผ๊นŒ?

๐Ÿ’ก ์ ์ ˆํ•œ Metric

  • ํšŒ๊ท€: ์—ฐ์†์ ์ธ ๊ฐ’์„ ์˜ˆ์ธกํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์‹ค์ œ ๊ฐ’๊ณผ ์˜ˆ์ธกํ•˜๋Š” ๊ฐ’์˜ ์ฐจ์ด์— ๊ธฐ๋ฐ˜์„ ๋‘” Metric์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. RSS(๋‹จ์ˆœ ์˜ค์ฐจ ์ œ๊ณฑ ํ•ฉ), MSE(ํ‰๊ท  ์ œ๊ณฑ ์˜ค์ฐจ), MAE(ํ‰๊ท  ์ ˆ๋Œ€๊ฐ’ ์˜ค์ฐจ), $R^2$(Coefficient of Determination ๊ฒฐ์ •๊ณ„์ˆ˜)
  • ๋ถ„๋ฅ˜: ์ด์‚ฐ์ ์ธ ๊ฐ’์„ ์˜ˆ์ธกํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๊ฐ’ ํด๋ž˜์Šค๋ฅผ ์ž˜ ์˜ˆ์ธกํ–ˆ๋Š”์ง€๋ฅผ ํŒ๋ณ„ํ•  ์ˆ˜ ์žˆ๋Š” Metric์„ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค. Confusion matrix๋ฅผ ํ™œ์šฉํ•œ accuracy, precision, recall, F1-score, ROC curve ๋“ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค.
  • ํšŒ๊ท€ Metric
    • MAE (์˜ˆ์ธก ๋ณ€์ˆ˜์˜ ๋ถ„ํฌ๊ฐ€ ๊ฐ€์šฐ์‹œ์•ˆ์ผ ๊ฒฝ์šฐ ์œ ๋ฆฌ)
      :์‹ค์ œ ๊ฐ’๊ณผ ์˜ˆ์ธก ๊ฐ’์˜ ์ฐจ์ด๋ฅผ ์ ˆ๋Œ“๊ฐ’์œผ๋กœ ์ทจํ•œ ๊ฐ’์˜ ํ‰๊ท ์ž…๋‹ˆ๋‹ค. MSE์™€ ๋น„์Šทํ•œ ์—ญํ• ์„ ํ•˜์ง€๋งŒ, ์ด์ƒ์น˜(outlier)์— ๋œ ๋ฏผ๊ฐํ•˜๊ณ  ํ•ด์„ํ•˜๊ธฐ ์‰ฝ๋‹ค๋Š” ์žฅ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค.
    • MSE(์ž…๋ ฅ ๋ฐ์ดํ„ฐ์— ์•„์›ƒ๋ผ์ด์–ด๊ฐ€ ๋งŽ์€ ๊ฒฝ์šฐ ์œ ๋ฆฌ)
      :์‹ค์ œ ๊ฐ’๊ณผ ์˜ˆ์ธก ๊ฐ’์˜ ์ฐจ์ด๋ฅผ ์ œ๊ณฑํ•œ ๊ฐ’์˜ ํ‰๊ท ์ž…๋‹ˆ๋‹ค. ํšŒ๊ท€ ๋ชจ๋ธ์—์„œ ๊ฐ€์žฅ ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๋Š” metric ์ค‘ ํ•˜๋‚˜์ž…๋‹ˆ๋‹ค. MSE๊ฐ€ ์ž‘์„์ˆ˜๋ก ๋ชจ๋ธ์˜ ์˜ˆ์ธก์ด ์ •ํ™•ํ•˜๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
    • $R^2$
      :์‹ค์ œ ๊ฐ’์˜ ๋ถ„์‚ฐ ์ค‘ ๋ชจ๋ธ๋กœ ์„ค๋ช… ๊ฐ€๋Šฅํ•œ ๋ถ€๋ถ„์˜ ๋ถ„์‚ฐ์˜ ๋น„์œจ์ž…๋‹ˆ๋‹ค. ์ฆ‰, ๋ชจ๋ธ์ด ์ „์ฒด ๋ถ„์‚ฐ ์ค‘ ์–ผ๋งˆ๋‚˜ ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ๋Š”์ง€๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ์ง€ํ‘œ์ž…๋‹ˆ๋‹ค. Rยฒ๊ฐ€ 1์— ๊ฐ€๊นŒ์šธ์ˆ˜๋ก ๋ชจ๋ธ์˜ ์˜ˆ์ธก์ด ๋†’์€ ์ •ํ™•๋„๋ฅผ ๊ฐ€์ง‘๋‹ˆ๋‹ค.
  • ๋ถ„๋ฅ˜ Metric
    • Accuracy (๋ฐ์ดํ„ฐ๊ฐ€ ๋ถˆ๊ท ํ˜•ํ•œ ๊ฒฝ์šฐ ์ž˜ ์ž‘๋™ํ•˜์ง€ ์•Š์Œ)
      : ์ „์ฒด ์ƒ˜ํ”Œ ์ค‘์—์„œ ๋ชจ๋ธ์ด ์ •ํ™•ํ•˜๊ฒŒ ์˜ˆ์ธกํ•œ ์ƒ˜ํ”Œ์˜ ๋น„์œจ์ž…๋‹ˆ๋‹ค. ๋†’์„์ˆ˜๋ก ์ข‹์€ ๋ชจํ˜•์ž…๋‹ˆ๋‹ค. ์ด์ง„ ๋ถ„๋ฅ˜์™€ ๋‹ค์ค‘ ๋ถ„๋ฅ˜ ๋ฌธ์ œ์—์„œ ๋ชจ๋‘ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • Precision (FP๊ฐ€ ์ค‘์š”ํ•œ ๋ฌธ์ œ์—์„œ ํ™œ์šฉ)
      : ๋ชจ๋ธ์ด Positive๋กœ ์˜ˆ์ธกํ•œ ์ƒ˜ํ”Œ ์ค‘์—์„œ ์‹ค์ œ๋กœ Positive์ธ ์ƒ˜ํ”Œ์˜ ๋น„์œจ์ž…๋‹ˆ๋‹ค. ์ฆ‰, ๋ชจ๋ธ์ด Positive๋กœ ์˜ˆ์ธกํ•œ ๊ฒƒ ์ค‘์—์„œ ์–ผ๋งˆ๋‚˜ ๋งž์•˜๋Š”์ง€๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ์ง€ํ‘œ์ž…๋‹ˆ๋‹ค.
    • Recall (FN์ด ์ค‘์š”ํ•œ ๋ฌธ์ œ์—์„œ ํ™œ์šฉ)
      : ์‹ค์ œ Positive์ธ ์ƒ˜ํ”Œ ์ค‘์—์„œ ๋ชจ๋ธ์ด Positive๋กœ ์˜ˆ์ธกํ•œ ์ƒ˜ํ”Œ์˜ ๋น„์œจ์ž…๋‹ˆ๋‹ค. ์ฆ‰, ๋ชจ๋ธ์ด ์‹ค์ œ Positive์ธ ๊ฒƒ์„ ์–ผ๋งˆ๋‚˜ ์ž˜ ์ฐพ์•„๋ƒˆ๋Š”์ง€๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ์ง€ํ‘œ์ž…๋‹ˆ๋‹ค.
    • F1 Score
      : ์ •๋ฐ€๋„์™€ ์žฌํ˜„์œจ์˜ ์กฐํ™” ํ‰๊ท ์ž…๋‹ˆ๋‹ค. ๋ถˆ๊ท ํ˜•ํ•œ ๋ฐ์ดํ„ฐ์…‹์—์„œ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ์ •๋ฐ€๋„์™€ ์žฌํ˜„์œจ์„ ๋ชจ๋‘ ๊ณ ๋ คํ•˜์—ฌ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ์ง€ํ‘œ์ž…๋‹ˆ๋‹ค.
    • AUC ROC (๋ฉ€ํ‹ฐ ํด๋ž˜์Šค ๋ฌธ์ œ ์‹œ๊ฐํ™”์— ์œ ์šฉ)
      : ๋ถ„๋ฅ˜ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ์‹œ๊ฐ์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜์ž…๋‹ˆ๋‹ค. ROC ๊ณก์„ ์€ FPR(False Positive Rate)์„ x์ถ•์œผ๋กœ, TPR(True Positive Rate)์„ y์ถ•์œผ๋กœ ๋‚˜ํƒ€๋‚ด๋ฉฐ, ๋ถ„๋ฅ˜ ๋ชจ๋ธ์˜ ์ž„๊ณ„๊ฐ’(threshold)์„ ๋ณ€๊ฒฝํ•˜๋ฉด์„œ TPR๊ณผ FPR์˜ ๋ณ€ํ™”๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ๋ถ„๋ฅ˜ ๋ชจ๋ธ์˜ ์ž„๊ณ„๊ฐ’์ด ๋†’์„์ˆ˜๋ก TPR์€ ๋‚ฎ์•„์ง€๊ณ , FPR์€ ๋†’์•„์ง‘๋‹ˆ๋‹ค. ๋ฐ˜๋Œ€๋กœ ์ž„๊ณ„๊ฐ’์ด ๋‚ฎ์„์ˆ˜๋ก TPR์€ ๋†’์•„์ง€๊ณ , FPR์€ ๋‚ฎ์•„์ง‘๋‹ˆ๋‹ค. ROC ๊ณก์„ ์—์„œ ์ขŒ์ธก ์ƒ๋‹จ์— ๊ฐ€๊นŒ์šธ์ˆ˜๋ก ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์ด ๋†’๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ์ด๋•Œ ROC ๊ณก์„  ์•„๋ž˜์ชฝ ๋ฉด์ ์„ AUC(Area Under the Curve)๋ผ๊ณ  ํ•˜๋ฉฐ, AUC๊ฐ€ 1์— ๊ฐ€๊นŒ์šธ์ˆ˜๋ก ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์ด ๋†’๋‹ค๋Š” ๊ฒƒ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.

Reference