๐ก metric์ ํฌ๊ฒ Classification metric๊ณผ Regression metric์ผ๋ก ๋๋ ์ ์๊ณ Classsification metric์๋ Accuracy, F1 ๋ฑ์ด ์๊ณ Regression metric์๋ MSE, MASE ๋ฑ์ด ์๋ค
-
Classification
-
Accuracy (์ ํ๋)
- ์ ์ฒด์ค์์ True์ ๊ฐ์
- ๋ถ๋ฅ๊ธฐ์ ์ฑ๋ฅ์ ์ธก์ ํ ๋ ๊ฐ์ฅ ๊ฐ๋จํ ์ฌ์ฉํ ์ ์์
- optimize ํ๊ธฐ ์ด๋ ค์
$TP +TN \over {TP +FP + TN + FN}$
-
Error Rate (์ค๋ฅ์จ)
- Accuracy์ ๋ฐ๋๋ก, ์ ์ฒด ๋ฐ์ดํฐ ์ค์์ ์๋ชป ๋ถ๋ฅํ FP, FN์ ๋น์จ
$FP+FN \over {TP +FP + TN + FN}$
-
Confusion Matrix
- Positive, Negative๋ ๋ชจ๋ธ์ ์์ธก์ ๋ํ๋ ๊ฒ
- True/False๋ ์์ธก์ ์ ๋ต ์ฌ๋ถ๋ฅผ ๋ํ๋ด๋ ๊ฒ
- True Positive(TP)๋ Positive๋ก ๋ถ๋ฅํ๊ณ ๋ง์(True) ๊ฒ, True Negative(TN)๋ Negative๋ก ๋ถ๋ฅํ๊ณ ๋ง์ ๊ฒ์ ๋ํ๋
- ์์์ ํ์๋ TP, FP, FN, TN์ ๋ฐํ์ผ๋ก ๋ค์ํ Metric์ ๊ณ์ฐ ๊ฐ๋ฅ
- ๋ค์ค ํด๋์ค์์์ ๋ถ๋ฅ ๊ฒฐ๊ณผ์ ๋ํ ์๊ฐํ(๋๊ฐ ์ฑ๋ถ = ๋ง์ ์์ธก)
-
Preicision (์ ๋ฐ๋)
- Positive๋ผ๊ณ ์์ธกํ ๊ฒ์ค์ ๋ง์(True) ์์ธก
$TP \over {TP + FP}$
-
Recall (์ฌํ์จ, ๋ฏผ๊ฐ๋)
- True labeling Positive์๋ ๊ฒ๋ค ์ค์์ ๋ง์ ์์ธก
- FN๋ Negative๋ก ๋ถ๋ฅํ์ผ๋ ์ค์ ๋ก๋ Positive ์๊ธฐ ๋๋ฌธ์ ํ๋ ค์ FN์ด ๋ ๊ฒ
$TP \over {TP + FN}$
-
Fall-Out
- ์ค์ ๋ก๋ Negative์ธ๋ฐ ๋ชจ๋ธ์ด Positive๋ก ์คํํ ๋น์จ
$FP \over {FP + TN}$
-
F1 Score
- ์ ๋ฐ๋์ ์ฌํ์จ์ ๊ด๊ณ๋ trade-off์ด๋ฏ๋ก ์ ๋ฐ๋์ ์ฌํ์จ์ ์กฐํ ํ๊ท ์ metric์ผ๋ก ํ์ฉํ ๊ฒ์ด F1 score์ด๋ค.
- Precision์ ๋ชจ๋ Positive๋ก ๋ถ๋ฅํ๋ฉด 100%๊ฐ ๋๊ธฐ ๋๋ฌธ์ Recall๊ณผ์ ์กฐํํ๊ท ์ ํตํด ์ฑ๋ฅ์ ํ๊ฐํ๋ ์งํ
$2\over{{1\over Recall}+{1\over Precision}}$
-
Area Under the Receiver Operating Characteristic Curve (ROC AUC)
- ROC : ๋ถ๋ฅ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ๊ทธ๋ํ
- AUC : ๊ณก์ ์๋ ์์ญ
- Fall out๊ณผ Recall์ ํตํด FPR, TPR์ X,Y์ถ์ผ๋ก ๋๊ณ Threshold๋ฅผ ๋ณ๊ฒฝ์ํค๋ฉด์ ๊ทธ๋ฆฐ ๊ณก์ ์ ROC๋ผ๊ณ ํ๋ค
- TPR : Sensitivity(
$TP\over{TP+FN}$ ) : ๋ฏผ๊ฐ๋, ์ฌํ์จ - FPR : specificity(
$FP\over{FP+TN}$ ) : ํน์ด๋ - ์ด ๋, ROC๋ฅผ ์์นํ ํ ์ ์๋ ๋ฐฉ๋ฒ์ด ๋ฑํ ์์ผ๋ฏ๋ก, Area Under Curve๋ผ๋ ๊ณก์ ๋ฐ ๋ถ๋ถ์ ๋์ด ๊ฐ์ ํตํด ์ฑ๋ฅ์ ์ธก์ ํ๋ค.
- Recall์ด ๋๊ณ , Fall Out์ ๋ฎ์ ์๋ก ๋์ด๊ฐ 1์ ๊ฐ๊น์์ ธ ์ข์ ๋ชจ๋ธ์ด ๋๋ค.
- ์ด์ค ๋ถ๋ฅ์๋ง ์ฌ์ฉ
- ํน์ threshold๋ฅผ ์ค์
- ์์ธก์ ์์์ ์์กด์ ์ด๋ฉฐ ์ ๋๊ฐ์ ์์กด์ ์ด์ง ์์
-
Precision Recall Curve
- confidence ๋ ๋ฒจ์ ๋ํ threshold ๊ฐ์ ๋ณํ์ ๋ฐ๋ผ ๊ณ์ฐ๋ Precision ๋ฐ Recall์ ๊ทธ๋ํ๋ก ์๊ฐํํ ๊ฒ
-
๋ฐ์ดํฐ ๋ผ๋ฒจ์ ๋ถํฌ๊ฐ ์ฌํ๊ฒ ๋ถ๊ท ๋ฑ ํ ๋ ROC ๊ทธ๋ํ๋ณด๋ค ๋ถ์์ ์ ๋ฆฌํจ
-
X์ถ์ Recall ๊ฐ์, Y์ถ์ Precision ๊ฐ์ ์ฌ์ฉ
-
Base line= P / (P+N)์ ๊ธฐ์ค์ผ๋ก ์์ ์์นํ ์๋ก ์ข์ ๋ชจ๋ธ
- ๋ฐ๋ผ์ ์๋์ ๊ฒฝ์ฐ์ A ๋ชจ๋ธ์ด ๋ ์ข์ ๋ชจ๋ธ์
-
F-Beta Score
- F1 score์์ Recall์ ๊ฐ์ค์น๋ฅผ ์ฃผ์ด์ ํ๊ฐํ๋ Metric (
$\beta$ ๊ฐ 1์ธ ๊ฒฝ์ฐ F1 score์ ๋์ผ)
- F1 score์์ Recall์ ๊ฐ์ค์น๋ฅผ ์ฃผ์ด์ ํ๊ฐํ๋ Metric (
-
Average Precision
- ์ ๋์ ํ๊ฐ๋ฅผ ์ํด PR Curve์ ์๋ ์์ญ์ ๊ณ์ฐํ ๊ฒ
-
Recall At Fixed Precision
- Precision threshold๊ฐ ์ฃผ์ด์ก์ ๋ ๊ฐ์ฅ ํฐ recall ๊ฐ์ ๊ตฌํ๋ ๊ฒ
-
KL Divergence
- ๋ ํ๋ฅ ๋ถํฌ์ ์ฐจ์ด๋ฅผ ์์น๋ก ํํํ ๊ฒ
-
Logloss
- ์๋ชป๋ ๋ต๋ณ์ ๋ํด ๋ ๊ฐํ๊ฒ ํจ๋ํฐ ๋ถ์ฌ
-
Hamming Distance
- ๋ ๊ธธ์ด๊ฐ ๊ฐ์ ๋ฌธ์์ด ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ฅผ ์ธก์ (๋ช๊ฐ์ ๋ฌธ์๋ฅผ ๋ฐ๊ฟ์ผ ๊ฐ์์ง๋๊ฐ?)
-
Jaccard index
- ๋ ์งํฉ์ด ๊ณตํต์ ์ผ๋ก ๊ฐ์ง ๊ฒ์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ๋น์ ์ฌ์ฑ ์ธก๋
-
Label Ranking Average Precision
- ๋ฉํฐ ๋ ์ด๋ธ์ธ ๊ฒฝ์ฐ์ ์ฌ์ฉํ๋ AP
-
Label Ranking Loss
- ๋ฉํฐ ๋ ์ด๋ธ์ธ ๊ฒฝ์ฐ ์ฌ์ฉํ๋ Loss
-
-
Regression
- Cosine Similarity
- ์ ์ฌ๋ ์ธก์
$similarity = cos(\theta) = {{A \cdot B}\over \parallel A\parallel \parallel B\parallel}$
- ์ ์ฌ๋ ์ธก์
- Explained Variance
$1- {{Sum,of,Squared,Residuals - Mean,Error}\over Total,Variance}$
- MAE (Mean Absolute Error)
- ๋ชจ๋ธ์ ์์ธก๊ฐ๊ณผ ์ค์ ๊ฐ์ ์ฐจ์ด๋ฅผ ๋ชจ๋ ๋ํ ์ค์ฐจ ์ ๋๊ฐ์ ํ๊ท
- MSE์ ๋ค๋ฅด๊ฒ ์ค์ฐจ๊ฐ ์ปค๋ ํฐ ๋ถ์ด์ต์ ์ฃผ์ง ์๋๋ค.
- Outlier์ ์ํฅ์ ๋ฐ์ง ์์
- MAPE (Mean Absolute Percentage Error)
- MAE๋ฅผ percent๋ก ๋ณํํ weight ๋ฒ์
- MSE (Mean Squared Error)
- ์ค์ ๊ฐ๊ณผ ์์ธก ๊ฐ ์ฐจ์ด์ ๋ฉด์ ์ ํฉ
- ์ค์ฐจ๋ฅผ ์ ๊ณฑํ ๋ค ํ๊ท ํ์ฌ ์ฐ์ถ
- MSPE (Mean Squared Percentage Error)
- MSE๋ฅผ percent๋ก ๋ณํํ weight ๋ฒ์
- RMSE (Root Mean Squared Error)
- ํ๊ท ์ค์ฐจ ์ ๊ณฑํฉ(MSE)์ ๋ฃจํธ๋ฅผ ์์ ์ค์ฐจ์จ์ ๋ณด์ ํด์ค
- ํ๊ท metric์ผ๋ก ๋ง์ด ์ฌ์ฉ๋จ
- Mean Squared Log Error
- ์์ธก ๊ฐ๊ณผ GT์ ๋ก๊ทธ๋ฅผ ์ทจํ ๋ค ์ฐจ๋ฅผ ๋ํ ๊ฒ์ ํ๊ท
- R2 Score (R-squared, ๊ฒฐ์ ๊ณ์)
$1- {{Sum,of,Squared,Residuals}\over Total,Variance}$ - ์ด์ ๊ณฑํฉ(SST)์ ๋ํ ํ๊ท์ ๊ณฑํฉ(SSR)์ ๋ปํ๋ฉฐ ๊ฒฐ์ ๊ณ์๋ผ๊ณ ๋ ๋ถ๋ฆผ
- ๊ฒฐ์ ๊ณ์๋ ๋ฐ์๋ณ์์ ๋ณ๋๋(๋ถ์ฐ)์์ ํ์ฌ ์ ์ฉ๋ชจ๋ธ์ด ์ค๋ช ํ ์ ์๋ ๋ถ๋ถ์ ๋น์จ์ ๋ปํจ
- ์์ธก์ ์ ํฉ๋๋ฅผ 0๊ณผ 1 ์ฌ์ด์ ๊ฐ์ผ๋ก ๊ณ์ฐํ๊ณ , 1์ ๊ฐ๊น์ธ ์๋ก ์ค๋ช ๋ ฅ์ด ๋๋ค๊ณ ๋งํจ
- RMSLE (Root Mean Squared Logarithmic Error)
- RMSE์ ๋นํด ์์๋ผ์ด์ด์ ๊ฐ๊ฑดํด์ง
- ์๋์ Error๋ฅผ ์ธก์ ํ ์ ์์
- Under Estimation(์์ธก๊ฐ < ์ค์ ๊ฐ)์ ํฐ ํ๋ํฐ๋ฅผ ๋ถ์ฌ
- Pearson Correlation Coefficient
- ๋ ๋ณ์ ๊ฐ์ ์ ํ ์๊ด ๊ด๊ณ๋ฅผ ๊ณ๋ํํ ๊ฒ
- Spearman Correlation Coefficient
- ๋ ๋ณ์ ๊ฐ์ ๋จ์กฐ์ ์๊ด ๊ด๊ณ๋ฅผ ๊ณ๋ํํ ๊ฒ
- SMAPE (Symmetric Mean Absolute Percentage Error)
$SMAPE = {100 \over n} \times \displaystyle \sum^n_{i=1} {\lvert Y_i-\hat Y_i\rvert \over(\lvert Y_i\rvert + \lvert \hat Y_i\rvert) /2}$
- Cosine Similarity
- [ML] Metric ์ข ๋ฅ
- TorchMetrics
- mAP ์ ๋ฆฌ
- ๋ถ๋ฅ๋ชจ๋ธ์ ์ฑ๋ฅ ํ๊ฐ
- [ML ์ด๋ก ] EVALUATION METRIC ์ ๋ฆฌ
- Introduction to the precision-recall plot
๐ก Gradient Descent ๋ฐฉ๋ฒ์ ํ์ฉํ์ฌ Cost Function์ ์ต์๊ฐ์ ์ฐพ๊ฒ ๋๋๋ฐ ๊ธฐ์ธ๊ธฐ๊ฐ 0์ด ๋๋ ์ ์ด ์ฌ๋ฌ ๊ฐ ์กด์ฌํ ์ ์๋ค.
Local Minima(๊ทน์๊ฐ)์ ์ฃผ์์ ๋ชจ๋ ์ ์ ํจ์ซ๊ฐ ์ดํ์ ํจ์ซ๊ฐ์ ๊ฐ๋ ์ ์ ํจ์ซ๊ฐ์ด๋ค.
Global Minimum(์ต์๊ฐ)์ ์ ์์ญ(x๊ฐ ๋ ์ ์๋ ๋ฒ์)์ ๋ชจ๋ ์ ์์์ ์ต์์ ์ ํจ์ซ๊ฐ์ ์๋ฏธํ๋ค.
-
Example
- Global Minimum(์ต์๊ฐ)์ ํญ์ Local Minima(๊ทน์๊ฐ)์ด๋ค.
- ํ์ง๋ง Local Minima(๊ทน์๊ฐ)์ด ํญ์ Global Minimum(์ต์๊ฐ)์ด ๋๋ ๊ฒ์ ์๋๋ค.
- ์๋ ๊ทธ๋ฆผ์์ A๋ Global Minimum(์ต์๊ฐ)์ด๊ณ E, G๋ Local Minima(๊ทน์๊ฐ)์ด๋ค.
- Global Minimum(์ต์๊ฐ)์ ํญ์ Local Minima(๊ทน์๊ฐ)์ด๋ค.
- ์ํคํผ๋์ - ๊ทน๊ฐ
- Local Minima์ Global Minima์ ๋ํ์ฌ ์ค๋ช ํด์ฃผ์ธ์
- Maxima vs Minima and Global vs Local in Machine learning - Basic Concept
๐ก ๋ฐ์ดํฐ๋ฅผ ์ ํํํ๋ ์์ธก ๋ชจ๋ธ์ ๋ง๋ค๊ธฐ ์ํด์๋ ๋ค์ํ ์ฐจ์์ด ํ์ํฉ๋๋ค. ํ์ง๋ง ์ด๋ฐ ์ฐจ์์ด ์ฆ๊ฐํ ์๋ก ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ๋จ์ด์ง๋ ํ์์ ์ฐจ์์ ์ ์ฃผ๋ผ๊ณ ์ผ์ปซ์ต๋๋ค.
์ด๋ฐ ํ์์ด ๋ฐ์ํ๋ ์ด์ ๋ ์ฐจ์์ด ์ฆ๊ฐํจ์ ๋ฐ๋ผ ๋ ๋ง์ ์ฐจ์์ ํํํ ์ ์๋ ๋ฐ์ดํฐ๊ฐ ํ์ํด์ง๊ณ ๊ธฐ์กด ๋ฐ์ดํฐ๋ก๋ ๊ฐ๋ณ ์ฐจ์๋ง๋ค ์ํํ ํ์ต์ด ์ด๋ฃจ์ด์ง์ง ์๊ธฐ ๋๋ฌธ์ ๋๋ค.
- ์ฐจ์์ ๋์๋ฐ ์ ์ ๋ฐ์ดํฐ ์๋ฅผ ๊ฐ์ง๊ณ ๋ชจ๋ธ์ ํ์ต์ํค๊ฒ ๋๋ฉด ์ด ๋ชจ๋ธ์ ๊ณผ๋์ ํฉ๋ ๋ชจ๋ธ์ด ๋๋ค. ๊ทธ ์ด์ ๋ ์ฐจ์์ด ๋์ ๊ทธ๋งํผ ๋ฐ์ดํฐ๋ฅผ ์ค์ ํ๋ ๋ณ์์ ์๊ฐ ๋ง์ง๋ง ๋ฐ์ดํฐ์ ์๋ ์ ๊ธฐ ๋๋ฌธ์ ์ค์ ๋ฐ์ดํฐ ์ฐจ์์ ํด๋น ๋๋ ๊ณต๊ฐ์ ๋ง์ ๊ฒฝ์ฐ๋ค์ ํ์ธํ ์ ์๊ธฐ ๋๋ฌธ์ ๋ชจ๋ธ์ด ํ์ต ๋ฐ์ดํฐ์ ๊ณผ์ ํฉ๋ ํ์ต์ ํ์ฌ ์ฑ๋ฅ์ด ๋ฎ์์ง๋ค.
-
์ฐจ์์ ์ ์ฃผ(Curse of dimensionality) ํ์์ ์์น ๋ถ์, ์ํ๋ง, ์กฐํฉ, ๊ธฐ๊ณ ํ์ต, ๋ฐ์ดํฐ ๋ง์ด๋ ๋ฐ ๋ฐ์ดํฐ๋ฒ ์ด์ค์ ๊ฐ์ ์์ญ์์ ๋ฐ์ํ๋ค. ์ด๋ฌํ ๋ฌธ์ ์ ๊ณตํต ์ฃผ์ ๋ ์ฐจ์์ด ์ฆ๊ฐํ๋ฉด ๊ณต๊ฐ์ ๋ถํผ๊ฐ ๋๋ฌด ๋นจ๋ฆฌ ์ฆ๊ฐํ์ฌ ์ฌ์ฉ ๊ฐ๋ฅํ ๋ฐ์ดํฐ๊ฐ ํฌ์ํด์ง๋ค๋ ๊ฒ์ด๋ค. ์ ๋ขฐํ ์ ์๋ ๊ฒฐ๊ณผ๋ฅผ ์ป๊ธฐ ์ํด ํ์ํ ๋ฐ์ดํฐ์ ์์ด ์ฐจ์์ ๋ฐ๋ผ ๊ธฐํ๊ธ์์ ์ผ๋ก ์ฆ๊ฐํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค.
- ์ฐจ์ = ๋ณ์์ ์ = ์ถ์ ์
- ์ฐจ์์ด ๋์ด๋๋ค = ๋ณ์์ ์๊ฐ ๋ง์์ง๋ค = ์ถ์ ๊ฐ์๊ฐ ๋ง์์ง๋ค = ๋ฐ์ดํฐ์ ๊ณต๊ฐ์ด ์ปค์ง๋ค
- 1์ฐจ์ ๊ณต๊ฐ์์์ 1,000๊ฐ์ ๋ฐ์ดํฐ๊ฐ ์กด์ฌํ ๋, 1,000๊ฐ ์ ๋์ ๋ฐ์ดํฐ๋ง ์์ด๋ ๋น ๊ณณ์ด ์๋ค.
- 2์ฐจ์ ์์ญ์ ๋ค ์ฑ์ฐ๊ธฐ ์ํด์๋ 20,000๊ฐ์ ๋ฐ์ดํฐ๊ฐ ํ์
- 3์ฐจ์ ์์ญ์ ๋ค ์ฑ์ฐ๊ธฐ ์ํด์๋ 100,000๊ฐ์ ๋ฐ์ดํฐ๊ฐ ํ์
- ์ฐจ์ = ๋ณ์์ ์ = ์ถ์ ์
-
์ฐจ์์ ์ ์ฃผ ํด๊ฒฐ๋ฐฉ๋ฒ
- ๋ฐ์ดํฐ ์ถ๊ฐ ์์ง
- ๊ณต๊ฐ ๋ฒกํฐ์ ๊ฑฐ๋ฆฌ๋ฅผ ์ธก์ ํ ๋ Euclidean distance ๋์ Cosine Similarity ํ์ฉ
- ์ฐจ์ ์ค์ด๊ธฐ
- Forward-feature selection
- PCA/t-SNE
- ์ฐจ์์ ์ ์ฃผ(Curse of dimensionality)๋? - ์์ฐ์ด์ ์ฑ์ฅ์ผ๊ธฐ
- [๋น ๋ฐ์ดํฐ] ์ฐจ์์ ์ ์ฃผ(The curse of dimensionality)
- Curse of Dimensionality - A โCurseโ to Machine Learning
- ์ฐจ์์ ์ ์ฃผ
๐ก Dimension reduction์ Feature extraction, Feature selection ๋ ๊ฐ์ง๋ก ๋๋ ์ ์์ต๋๋ค.
Feature selection์ย ์ฅ์ ์ ์ ํํ ํผ์ฒ์ย ํด์์ด ์ฉ์ดํ๋ค๋ ์ ์ด๊ณ ย ๋จ์ ์ ํผ์ฒ๊ฐ ์๊ด๊ด๊ณ๋ฅผ ๊ณ ๋ คํ๊ธฐ ์ด๋ ต๋ค๋ ์ ์ ๋๋ค. filter, wrapper, embedded methods์ ๊ฐ์ ๋ฐฉ๋ฒ๋ค์ด ํด๋น๋ฉ๋๋ค.
Feature extraction์ย ์ฅ์ ์ ํผ์ฒ ๊ฐ ์๊ด๊ด๊ณ๋ฅผ ๊ณ ๋ คํ๊ธฐ ์ฉ์ดํ๊ณ ํผ์ฒ์ ๊ฐ์๋ฅผ ๋ง์ด ์ค์ผ ์ ์๋ค๋ ์ ์ด๊ณ ย ๋จ์ ์ ์ถ์ถ๋ ๋ณ์์ ํด์์ด ์ด๋ ต๋ค๋ ์ ์ ๋๋ค. ์ด๋ฌํ Feature extraction์ Linear, Non-Linear๋ก ๋ค์ ๋๋ฉ๋๋ค.
Feature selection
- Filter
- ํต๊ณ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก greedyํ๊ฒ ์ฐจ์์ ์ถ์ํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ์๋ฅผ ๋ค์ด ๋์๊ณผ์ ์๊ด๊ด๊ณ๊ฐ ๊ธฐ์ค์ด ๋ ์ ์์ต๋๋ค. ์ด ๋ฐฉ๋ฒ์ ๊ฐ์ฅ ๋น ๋ฅด๊ณ ๊ฐ๋จํ ๋ฐฉ๋ฒ์ ๋๋ค.
- Embedded
- ์์ธก ์๊ณ ๋ฆฌ์ฆ์ ์ผ๋ถ์ ๋๋ค. ์๋ฅผ ๋ค์ด, ํธ๋ฆฌ ๊ธฐ๋ฐ ์๊ณ ๋ฆฌ์ฆ์ ๋ณธ์ง์ ์ผ๋ก ๋ฐ์ดํฐ ์ธํธ ๊ธฐ๋ฅ์ ์ ์๋ฅผ ๋งค๊ธฐ๊ณ ์ค์๋์ ๋ฐ๋ผ ์์๋ฅผ ๋งค๊น๋๋ค.ย Lasso L1 ์ ๊ทํ๋ ๋ณธ์ง์ ์ผ๋ก ๊ฐ์ค์น๋ฅผ 0์ผ๋ก ๋จ์ด๋จ๋ฆผ์ผ๋ก์จ ์ค๋ณต ๊ธฐ๋ฅ์ ์ ๊ฑฐํฉ๋๋ค.
- Wrapper
- ๊ฐ์ฅ ์ ์ฉํ ๊ธฐ๋ฅ์ ์๋ณํ๊ธฐ ์ํด ๊ธฐ๋ฅ์ ํ์ ์งํฉ์ด ์๋ Validation set์์ ์์ธก ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํฉ๋๋ค.ย ์ต์ ์ ํ์ ์งํฉ์ ์ฐพ๋ ๋ฐ์ ๋ง์ ๊ณ์ฐ ๋น์ฉ์ด ์๊ตฌ๋ฉ๋๋ค.ย ๋ํผ ๋ฐฉ๋ฒ์ ์ญ๋ฐฉํฅ/์ ๋ฐฉํฅ ์ ํ๊ณผ ๊ฐ์ ํ์์ ์ธ ๊ฒฐ์ ์ ๋ด๋ฆฝ๋๋ค. ์ด ์ ํ์ ํผ์ณ๋ฅผ ์ฐจ๋ก๋ก ํ์์ค๋ฝ๊ฒ ์ ๊ฑฐ/์ ํํฉ๋๋ค.
Feature Projection
- Linear
- Original Feature๋ฅผ ์ ํ์ผ๋ก ๊ฒฐํฉํ์ฌ Original data set์ ๋ ์ ์ ์ฐจ์์ผ๋ก ์์ถํฉ๋๋ค.ย ์ผ๋ฐ์ ์ธ ๋ฐฉ๋ฒ์๋ ์ฃผ์ฑ๋ถ ๋ถ์(PCA), ์ ํ ํ๋ณ ๋ถ์(LDA) ๋ฐ ํน์ด๊ฐ ๋ถํด(SVD)๊ฐ ํฌํจ๋ฉ๋๋ค.
- Non-Linear
- ์ข๋ ๋ณต์กํ์ง๋ง Linear method๋ก๋ ํด๊ฒฐํ๊ธฐ ํ๋ค ๋ ์ ์ฉํ ์ฐจ์ ๊ฐ์๋ฅผ ์ฐพ์ ์ ์์ต๋๋ค.ย ๋น์ ํ ์ฐจ์ ๊ฐ์ ๋ฐฉ๋ฒ์๋ ์ปค๋ PCA, t-SNE, Autoencoders, Self-Organizing Maps, IsoMap ๋ฐ UMap์ด ํฌํจ๋ฉ๋๋ค.
- 11 Dimensionality reduction techniques you should know in 2021
- What Is Dimensionality Reduction? Meaning, Techniques, and Examples
- Applied Dimensionality Reduction โ 3 Techniques using Python
PCA๋ ์ฐจ์ ์ถ์ ๊ธฐ๋ฒ์ด๋ฉด์, ๋ฐ์ดํฐ ์์ถ ๊ธฐ๋ฒ์ด๊ธฐ๋ ํ๊ณ , ๋ ธ์ด์ฆ ์ ๊ฑฐ๊ธฐ๋ฒ์ด๊ธฐ๋ ํฉ๋๋ค. ์ ๊ทธ๋ฐ์ง ์ค๋ช ํด์ฃผ์ค ์ ์๋์?
๐ก PCA(Principal Component Analysis, ์ฃผ์ฑ๋ถ ๋ถ์)์ ๊ธฐ๋ณธ ๊ฐ๋ ์ ์ฃผ์ด์ง ๋ฒกํฐ์์ ์ ํ ๋ ๋ฆฝ์ธ ๊ณ ์ ๋ฒกํฐ๋ง์ ๋จ๊ฒจ๋๊ณ ์ฐจ์ ์ถ์๋ฅผ ํ๊ณ . ์ด๋ ์๊ด์ฑ์ด ๋์ ๋ ๋ฆฝ ๋ณ์๋ค์ N๊ฐ์ ์ ํ ์กฐํฉ์ผ๋ก ๋ง๋ค์ด ๋ณ์์ ๊ฐ์๋ฅผ ์์ฝ, ์์ถํ๋ ๋ฐฉ๋ฒ์ ๋๋ค.
์ฌ์ ํ ์๋ฐ์ดํฐ์ ๋ถ์ฐ์ ์ต๋ํ ๋ณด์ ํ ์ ์๋ ๊ธฐ์ ๋ฅผ ์ฐพ์ ์ฐจ์์ ์ค์ด๋ฏ๋ก ์ฐจ์ ์ถ์ ๊ธฐ๋ฒ์ด๋ฉฐ ๊ทธ ๊ฒฐ๊ณผ feature๋ค์ ์๊ฐ ๊ธฐ์กด๋ณด๋ค ์์์ง๊ธฐ ๋๋ฌธ์ ๋ฐ์ดํฐ ์์ถ ๊ธฐ๋ฒ์ ๋๋ค. PCA ์ดํ ์ ๋ณด ์ค๋ช ๋ ฅ์ด ๋์ ์ฃผ์ฑ๋ถ๋ค๋ง ์ ํํ๊ณ ์ ๋ณด ์ค๋ช ๋ ฅ์ด ๋ฎ์, ๋ ธ์ด์ฆ๋ก ๊ตฌ์ฑ๋ ๋ณ์๋ค์ ๋ฐฐ์ ํ๊ธฐ ๋๋ฌธ์ ๋ ธ์ด์ฆ ์ ๊ฑฐ ๊ธฐ๋ฒ์ด๊ธฐ๋ ํฉ๋๋ค. (๋ ธ์ด์ฆ๋ฅผ ์์ ์ ๊ฑฐํ์ง๋ ๋ชปํจ!)
- [์ ํ๋์ํ #6] ์ฃผ์ฑ๋ถ๋ถ์(PCA)์ ์ดํด์ ํ์ฉ
- [Machine learning] ์ฐจ์์ถ์, PCA, SVD, LSA, LDA, MF ๊ฐ๋จ์ ๋ฆฌ (day1 / 201009)
LSA, LDA, SVD ๋ฑ์ ์ฝ์๋ค์ด ์ด๋ค ๋ป์ด๊ณ ์๋ก ์ด๋ค ๊ด๊ณ๋ฅผ ๊ฐ์ง๋์ง ์ค๋ช ํ ์ ์๋์?
๐ก SVD๋ Singular Value Decomposition(ํน์ด๊ฐ๋ถํด)์ ์ฝ์๋ก ํ๋ ฌ์ ํฌ๊ธฐ์ ๊ด๊ณ ์์ด ๋ชจ๋ m x n ํ๋ ฌ์ ๋ํด ์ ์ฉ ๊ฐ๋ฅํ ํ๋ ฌ ๋ถํด ๋ฐฉ๋ฒ์ ๋๋ค. ํ๋ ฌ A๊ฐ m x n ํ๋ ฌ์ผ ๋
$A = U\Sigma V^T$ ๋ก ๋ถํดํ ์ ์์ต๋๋ค. ๋ํ, SVD๋ก ๋์จ ๋๊ฐํ๋ ฌ์ ๋๊ฐ ์์ ๊ฐ์ ํ๋ ฌ A์ ํน์ด๊ฐ(singular value)์ด๋ผ๊ณ ํฉ๋๋ค.LSA๋ Latent Semantic Analysis(์ ์ฌ์๋ฏธ๋ถ์)์ ์ฝ์๋ก SVD๋ฅผ ํ์ฉํด ๋ฌธ์์ ํจ์ถ๋ ์ฃผ์ ๋ฅผ ์ฐพ์๋ด๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. BoW์ ๊ธฐ๋ฐํ DTM, TF-IDF ํ๋ ฌ์ truncated SVD๋ฅผ ์ฌ์ฉํ์ฌ ์ฐจ์์ ์ถ์์ํค๊ณ , ๋จ์ด๋ค์ ์ ์ฌ์ ์ธ ์๋ฏธ๋ฅผ ๋์ด๋ธ๋ค๋ ์์ด๋์ด์ ๋๋ค. ๋ํ LSI(Latent Semantic Indexing)๋ก ํํํ๊ธฐ๋ ํฉ๋๋ค.
LDA๋ Latent Dirichlet Allocation(์ ์ฌ ๋๋ฆฌํด๋ ํ ๋น)๊ณผ Linear Discriminant Analysis(์ ํํ๋ณ๋ถ์) ๋ ๊ฐ์ง ๊ฐ๋ ์ ์ฝ์๊ฐ ๋ ์ ์์ต๋๋ค.
Latent Dirichlet Allocation(์ ์ฌ ๋๋ฆฌํด๋ ํ ๋น)์ ์ฃผ์ด์ง ๋ฌธ์์ ๋ํ์ฌ ๊ฐ ๋ฌธ์์ ์ด๋ค ์ฃผ์ ๋ค์ด ์กด์ฌํ๋์ง๋ฅผ ์์ ํ๋ ๊ฒ์ ๋ํ ํ๋ฅ ์ ํ ํฝ ๋ชจ๋ธ ๊ธฐ๋ฒ์ค ๋ํ์ ์ธ ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค. LDA ์ญ์ BoW์ ๊ธฐ๋ฐํ DTM, TF-IDF ํ๋ ฌ์ ์ ๋ ฅ์ผ๋ก ํ๊ณ , ๋จ์ด๊ฐ ํน์ ํ ํฝ์ ์กด์ฌํ ํ๋ฅ ๊ณผ ๋ฌธ์์ ํน์ ํ ํฝ์ด ์กด์ฌํ ํ๋ฅ ์ ๊ฒฐํฉํ๋ฅ ๋ก ์ถ์ ํ์ฌ ํ ํฝ์ ์ถ์ถํฉ๋๋ค.
Linear Discriminant Analysis(์ ํํ๋ณ๋ถ์)์ Classification(๋ถ๋ฅ๋ชจ๋ธ)๊ณผ Dimensional Reduction(์ฐจ์ ์ถ์)๊น์ง ๋์์ ์ฌ์ฉํ๋ ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค. ์ ๋ ฅ ๋ฐ์ดํฐ ์ธํธ๋ฅผ ์ ์ฐจ์ ๊ณต๊ฐ์ผ๋ก ํฌ์(projection)ํด ์ฐจ์์ ์ถ์ํ๋ ๊ธฐ๋ฒ์ด๋ฉฐ ์ง๋ํ์ต์์ ์ฌ์ฉ๋ฉ๋๋ค. LDA ๋๋ FDA(Fisher Discriminant Analysis, ์ ํํ๋ณ๋ถ์)์ผ๋ก๋ ํํํฉ๋๋ค.
LSA(Latent Semantic Analysis) ๋ฐ LDA(Latent Dirichlet Allocation) ๋ ๋ค truncated SVD๋ฅผ ํ์ฉํ ์ฐจ์ ์ถ์๋ฅผ ํตํด ์ ์ฌ ์๋ฏธ๋ฅผ ์ฐพ๊ณ ์ ํฉ๋๋ค. ๋จ, LDA์ ๊ฒฝ์ฐ LSA์์ ํ์๋ ํ๋ฅ ๋ชจ๋ธ์ธ pLSA๊ฐ ๊ฐ์ง ๋ฌธํ๋ณ ์ฃผ์ ๋ถํฌ๋ฅผ ํ์ ํ์ง ๋ชปํ๋ ์ ์ ๊ฐ์ ํ๊ธฐ ์ํด ๋ค๋ณ์ ํ๋ฅ ๋ณ์์ธ ๋๋ฆฌํด๋ ๋ถํฌ๋ฅผ ํ์ฉํ์ฌ ๋ฌธํ๋ณ ์ฃผ์ + ์ฃผ์ ๋ณ ๋จ์ด๋ถํฌ๋ฅผ ๊ณ ๋ คํฉ๋๋ค.
-
$A: m\times n$ rectangular matrix (์ง์ฌ๊ฐ ํ๋ ฌ) -
$U:m \times m$ orthogonal matrix (์ง๊ต ํ๋ ฌ) -
$\Sigma:m\times n$ diagonal matrix (๋๊ฐ ํ๋ ฌ) -
$V: n\times n$ orthogonal matrix (์ง๊ต ํ๋ ฌ) - BoW(Back of Words): ๋จ์ด ๋น๋ ์
- DTM(Document-Term Matrix): ๋ฌธ์ ๋จ์ด ํ๋ ฌ
- TF-IDF(Term Freqeuncy-Inverse Document Frequency): DTM์ ๋จ์ด์ ์ค์๋๋ฅผ ๊ฐ์ค์น๋ก ๋ถ์ฌ
- ๋๋ฆฌํด๋ ๋ถํฌ
- ์ ์ฌ ์๋ฏธ ๋ถ์(Latent Semantic Analysis, LSA) - ๋ฅ ๋ฌ๋์ ์ด์ฉํ ์์ฐ์ด ์ฒ๋ฆฌ ์ ๋ฌธ
- ์ ์ฌ ๋๋ฆฌํด๋ ํ ๋น(Latent Dirichlet Allocation, LDA) - ๋ฅ ๋ฌ๋์ ์ด์ฉํ ์์ฐ์ด ์ฒ๋ฆฌ ์ ๋ฌธ
- ํน์ด๊ฐ ๋ถํด(SVD) - ๊ณต๋์ด์ ์ํ์ ๋ฆฌ๋ ธํธ
- [ํ ํฝ ๋ชจ๋ธ๋ง] LSA์ LDA์ ๊ด๊ณ(+ LDA๋ผ๋ ์ด๋ฆ์ ์ ๋)
- 8.7 ๋ฒ ํ๋ถํฌ, ๊ฐ๋ง๋ถํฌ, ๋๋ฆฌํด๋ ๋ถํฌ
- ๋จธ์ ๋ฌ๋ - LDA (Linear Discriminant Analysis)
- [์ธ๊ณต์ง๋ฅ] Fisher Discriminant Analysis(์ ํํ๋ณ๋ถ์)
- NLP - 9. ํ ํฝ ๋ชจ๋ธ๋ง: ์ ์ฌ ์๋ฏธ ๋ถ์(LSA)
- ์ํค๋ฐฑ๊ณผ - ์ ์ฌ ๋๋ฆฌํด๋ ํ ๋น
๐ก Markov Chain์ ์ด์ฐ์ ์ธ ์๊ฐ์ ๋ฐ๋ผ ์์คํ ์ด ์ด๋ค ์ํ์์ ๋ค๋ฅธ ์ํ๋ก ๋์ด๊ฐ๊ฑฐ๋ ๊ฐ์ ์ํ๋ฅผ ์ ์งํ ๋, ์ํ ๋ณํ์ ํ๋ฅ ๊ณผ์ ์ ๋ฐ๋ก ์ ๋จ๊ณ์ ์ํ, ํน์ ๊ทธ ์ด์ ์ผ์ ๊ธฐ๊ฐ์ ์ํ์๋ง ์ํฅ์ ๋ฐ๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค.
์๋ฅผ ๋ค์ด, โ์ฌ๋๋ค์ ์ ๋ ๋จน์ ์์๊ณผ ์ ์ฌํ ์์์ ๋จน์ง ์์ผ๋ ค๊ณ ํ๋ค.โ ๋ผ๋ ๊ฐ์ ์์ ์ค๋์ ์์ ์ ํ์ด ์ด์ ์ ์์ ์ ํ์๋ง ์ํฅ์ ๋ฐ๊ณ , ๊ทธ์ ๊ป์ ์์ ์ ํ์๋ ์ํฅ์ ๋ฐ์ง ์๋๋ค๋ฉด ์ด ๊ณผ์ ์ Markov property๋ฅผ ๊ฐ์ง๋ค๊ณ ํ ์ ์์ผ๋ฉฐ, ์ด ํ๋ฅ ๊ณผ์ ์ Markov chain์ด๋ผ๊ณ ํ ์ ์์ต๋๋ค.
๋ํ, ์ด์ ์ ์์์๋ง ์ํฅ์ ๋ฐ๋๋ค๋ฉด 1์ฐจ Markov chain, ๊ทธ์ ๊ป๊น์ง์ ์์ ์ ํ์๋ง ์ํฅ์ ๋ฐ๋๋ค๋ฉด 2์ฐจ Markov chain์ ๋๋ค.
๋ค๋ฅธ ์๋ก๋ ํ ๋ํ์์์ ํ๋ ์ฌ์ดํด์ ์์คํ ์ผ๋ก ํํํ๋ฉด ์๋ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ต๋๋ค. ์ด๋ ์น์ํ์ ํ ํ์ ๋ค์ ์น์ํ์ ํ ํ๋ฅ ์ 0.3, ์ฐ๊ตฌ๋ฅผ ํ ํ๋ฅ ์ 0.5, ๋ ์๋ฅผ ํ ํ๋ฅ ์ 0.2์ ๋๋ค. ๋ฉ๋ชจ๋ฆฌ๊ฐ 1์ธ 1์ฐจ Markov chain์ด๋ผ๋ฉด ํ์ฌ ์์ ์ ์ํ๋ฐ์ ๊ธฐ์ตํ์ง ๋ชปํ๊ธฐ ๋๋ฌธ์ ์น์ํ์ ํ ์ํ์์๋ ์ ์ ์น์ํ์ ๋ช ๋ฒ์ ํ๋ ์ง ๋ค์ ์ํ๋ก์ ํ๋ฅ ์ ์ธ์ ๋ ์น์ํ์ 0.3, ์ฐ๊ตฌ๋ 0.5, ๋ ์๋ 0.2๊ฐ ๋ฉ๋๋ค.
ํ์ง๋ง ํ์ฌ ์น์ํ ๋ง์น๊ณ ๋ค์ ์ํ๋ก ๋์ด๊ฐ ๋ ํ์ฌ ์น์ํ ์ด์ ์ ๋ ์น์ํ์ ํด์ ์ฃ์ฑ ๊ฐ์ผ๋ก ๋ค์ ์น์ํ์ ํ ํ๋ฅ ์ด 0.1 ์ค์ด๋ค์ด ์น์ํ 0.2 ์ฐ๊ตฌ 0.6 ๋ ์ 0.2๊ฐ ๋๊ฑฐ๋ ์ง์ ์ ์ฐ๊ตฌ๋ฅผ ํ๊ณ ์น์ํ์ ํ์ฌ ์ฌ๊ณ ์ถ์ ๋ง์์ ์ฐ๊ตฌ ํ๋ฅ ์ด 0.1 ์ค์ด ๋ค์ ์ํ ํ๋ฅ ์ด ์น์ํ 0.4 ์ฐ๊ตฌ 0.4 ๋ ์ 0.3๊ฐ ๋๋ ๊ฒ์ ๋ฉ๋ชจ๋ฆฌ๊ฐ 2์ธ 2์ฐจ Markov chain ์ด๋ผ๊ณ ํ๊ณ ์ด๊ฒ์ ์ด์ ์ํ๊ฐ ํ์ฌ ์ํ์ ์ํฅ์ ์ค๋ค๊ณ ํ ์ ์์ต๋๋ค.
์ด๋ ๊ฒ ์ด์ ์ํ์ ๊ธฐ์ต์ ์ค๋ ๊ธฐ์ตํ ์๋ก 3์ฐจ, 4์ฐจ Markov chain์ด ๋ฉ๋๋ค.
์ด๋ฌํ Markov Chain์ MCMC(Markov Chain Monte Carlo sampling)์ ํ์ฉ๋ฉ๋๋ค.
- MCMC
- Markov Chain์ ์ด์ฉํ Monte Carlo ๋ฐฉ๋ฒ์ผ๋ก ์ด์ ์ ์ํ ์ถ์ถ์ด ๋ค์ ์ํ ์ถ์ถ์ ์ํฅ์ ๋ฏธ์นจ
- Markov chain์ ์ฐ์๋ฅผ ๋ฐ๋ณตํ๋ค ๋ณด๋ฉด ํ์ฌ ์ํ์ ํ๋ฅ ์ด ์ง์ ์ํ์ ํ๋ฅ ๊ณผ ์๋ ด
- ํํ ์ํ์ ๋๋ฌํ ํ๋ฅ ๋ถํฌ๋ฅผ ์ ์ ๋ถํฌ(Stationary Distribution)์ด๋ผ๊ณ ํจ
- ์ด๋ฌํ ์ ์ ๋ถํฌ๊ฐ ๋ชฉํ ๋ถํฌ(target distribution) p(x)๊ฐ ๋๋๋ก Markov chain์ ์ค์ ํ๋ ๊ฒ์ด MCMC ์ ๊ทผ๋ฒ
- Markov Chain Monte Carlo - ๊ณต๋์ด์ ์ํ์ ๋ฆฌ๋ ธํธ
- Markov Chain - MLWiki
- [Machine learning] Markov Chain, Gibbs Sampling, ๋ง๋ฅด์ฝํ ์ฒด์ธ, ๊น์ค ์ํ๋ง (day2 / 201010)
- Markov Chain Explained
- [๊ฐํํ์ต] ๋ง์ฝํ ํ๋ก์ธ์ค(=๋ง์ฝํ ์ฒด์ธ) ์ ๋๋ก ์ดํดํ๊ธฐ
- wikipedia - ๋ง๋ฅด์ฝํ_์ฐ์
ํ ์คํธ ๋๋ฏธ์์ ์ฃผ์ ๋ฅผ ์ถ์ถํด์ผ ํฉ๋๋ค. ์ด๋ค ๋ฐฉ์์ผ๋ก ์ ๊ทผํด ๋๊ฐ์๊ฒ ๋์?
๐ก ํ ์คํธ ๋ฐ์ดํฐ ๋ด ๋จ์ด๋ค์ ๋น๋๋ฅผ ํต๊ณ์ ์ผ๋ก ๋ถ์ํ์ฌ ์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ๊ดํตํ๋ ์ ์ฌ์ ์ฃผ์ , ์ฆ ํ ํฝ๋ค์ ์๋์ผ๋ก ์ถ์ถ ๋ถ๋ฅํ ์ ์์ต๋๋ค. ์ด๋ฌํ ๋ฐฉ๋ฒ๋ก ์ Topic Modeling์ด๋ผ๊ณ ํฉ๋๋ค. Topic Modeling์๋ Latent Semantic Analysis (LSA), Probabilistic LSA(pLSA), Latent Dirichlet Allocation(LDA), Correlated topic model(CTM), Structural topic model(STM) ๋ฑ์ด ์์ต๋๋ค.
- Latent Semantic Analysis(LSA, ๋นํ๋ฅ ์ ํ ํฝ ๋ถ์)
- Latent Semantic Indexing(LSI) ๋ผ๊ณ ๋ ๋ถ๋ฆฌ๋ฉฐ, SVD(ํน์ด๊ฐ ๋ถํด)๋ฅผ ํ์ฉํด ๋ฌธ์์ ํจ์ถ๋ ์ฃผ์ ๋ฅผ ์ฐพ์๋ด๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค
- LSA์ ๋จ์ ์ผ๋ก๋ ๋ฐ์ดํฐ์ ๋ด์ฌ๋ ์ค์ฐจ๋ฅผ ์ปจํธ๋กคํ ์ ์๊ณ ์๋ฏธ๊ณต๊ฐ์ ๊ฐ์ค์น๊ฐ ์์์ธ ๊ฒฝ์ฐ๊ฐ ๋ฐ์ํ์ฌ ํด์์ด ์ด๋ ต์ต๋๋ค
- Probabilistic LSA(pLSA, ํ๋ฅ ์ ํ ํฝ ๋ถ์)
- pLSA๋ ๋จ์ด๊ฐ ๋ฑ์ฅ ํ์ ๊ธฐ๋ฐ์ด ์๋ ๋ฑ์ฅ ํ๋ฅ ์ ๊ธฐ๋ฐ์ผ๋ก ๋ถ์ํ๋ ๋ฐฉ๋ฒ์ ๋๋ค
- ๋จ์ ์ผ๋ก๋ LSA์ ๊ฐ์ด ๋จ์ํ๊ฒ ๋ฌธํ-์ฉ์ด ํ๋ ฌ๋ง ์ ๋ ฅ๋ฐ๊ธฐ ๋๋ฌธ์ ๋ฌธํ ๋ด์ ์ฃผ์ ๊ฐ ์ด๋ป๊ฒ ๋ถํฌํ๋๊ฐ๋ ๊ณ ๋ คํ์ง ์์ต๋๋ค
- Latent Dirichlet Allocation(LDA, ์ ์ฌ ๋๋ฆฌํด๋ ํ ๋น)
- LDA๋ pLSA์ Bayesian ๋ฒ์ ์ผ๋ก ํ ํฝ์ ๋ํ ์ฌ์ ํ๋ฅ ๋ถํฌ๋ก Dirichlet prior๋ฅผ ์ด์ฉํฉ๋๋ค
- LDA๋ pLSA์ ๋จ์ ์ ๋ณด์ํ๊ธฐ ์ํด ๋ฌธํ๋ณ ์ฃผ์ ๋ถํฌ์ ์ฃผ์ ๋ณ ๋จ์ด ๋ถํฌ๋ฅผ ๊ณ ๋ คํฉ๋๋ค
- LDA์ ๋จ์ ์ผ๋ก๋ ๋ฌธ์์ ๋ํ ํ ํฝ๋ถํฌ์ ๋ชจ์(ํ ํฝ๋น์จ)๋ฅผ ๋๋ฆฌํด๋ ๋ถํฌ๋ก ์์ฑํ์ฌ ํ ํฝ๊ฐ ์ฐ๊ด์ฑ์ ๋ฐ์ํ์ง ๋ชปํฉ๋๋ค
- Correlated topic model(CTM, ์๊ด ํ ํฝ ๋ชจ๋ธ)
- CTM์ LDA์ ํ์ฅ ๋ฒ์ ์ผ๋ก ํ ํฝ๊ฐ ์ฐ๊ด์ฑ์ ๋ํ๋ด๋ ํ ํฝ๋น์จ์ ๋ค๋ณ๋์ ๊ท๋ถํฌ๋ฅผ ์ด์ฉํ์ฌ 2๋จ๊ณ๋ก ๋ชจํํ ํฉ๋๋ค
- Structural topic model(STM, ๊ตฌ์กฐ ํ ํฝ ๋ชจ๋ธ)
- STM์ LDA์์ ํ ํฝ๊ฐ์ ์ฐ๊ด์ฑ์ ๋ฐ์ํ์ง ๋ชปํ๋ ๋จ์ ์ ๋ณด์ํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ ๋๋ค.
- STM์ ๊ด๊ณ ์ถ์ ์ด ๊ฐ๋ฅํ ๋ก์ง์คํฑ ์ ๊ท๋ถํฌ๋ฅผ ์ฌ์ฉํ๊ฒ ๋ฉ๋๋ค.
- STM์ k๊ฐ ์ฃผ์ ๋ค์ ๋ฐ์ ํ๋ฅ ์ ์ข ์๋ณ์๋ก ์ค์ ํ๊ณ ๋ฌธ์์ ๋ฉํ์ ๋ณด๋ฅผ ๋ ๋ฆฝ๋ณ์๋ก ์ค์ ํ ํ ์ ํํ๊ท๋ชจํ์ผ๋ก ๊ด๊ณ๋ฅผ ์ค๋ช ํฉ๋๋ค.
- Topic Modeling Using Python****
- [ML] Topic Modeling(ํ ํฝ ๋ชจ๋ธ)์ธ LDA(Latent Dirichlet Allocation)
- ์ ์ฌ ๋๋ฆฌํด๋ ํ ๋น(Latent Dirichlet Allocation, LDA)
- #ํ ํฝ๋ถ์์ด๋
- ํ ์คํธ๋ง์ด๋ ํ ํฝ๋ชจ๋ธ, LDA(Latent Dirichlet Allocation)
- [ํ ํฝ ๋ชจ๋ธ๋ง] LSA์ LDA์ ๊ด๊ณ (+ LDA๋ผ๋ ์ด๋ฆ์ ์ ๋)
- 3:19 / 7:31 R์ ํ์ฉํ ๊ณ ๊ธํต๊ณ - (18) ๊ตฌ์กฐ์ ํ ํฝ ๋ชจ๋ธ๋ง(STM)(Structural Topic Modeling)
SVM์ ์ ๋ฐ๋๋ก ์ฐจ์์ ํ์ฅ์ํค๋ ๋ฐฉ์์ผ๋ก ๋์ํ ๊น์? SVM์ ์ ์ข์๊น์?
๐ก ์ฐจ์์ ๋ฐ๋ผ๋ณด๋ ๋ ๊ฐ์ง ์๊ฐ์ด ์กด์ฌํฉ๋๋ค. ํ๋๋ ์ฐจ์์ ๋ฎ์ถฐ์ ๋ฌธ์ ๋ฅผ ๋จ์ํ ์ํค๊ณ ์ ํ๋ ๊ฒ์ด๊ณ , ๋ค๋ฅธ ํ๋๋ ์ฐจ์์ ์ถ๊ฐํจ์ผ๋ก์จ ๋จ์ํ ์ํค๋ ๊ฒ์ ๋๋ค.
SVM์์๋ ํ์ฌ ์ฐจ์์์ ๋ฐ์ดํฐ๋ฅผ ์ ํ์ ์ผ๋ก ๋ถ๋ฅํ๊ธฐ ํ๋ ๊ฒฝ์ฐ์ ๋ฐ์ดํฐ์ ์ฐจ์์ ๊ณ ์ฐจ์์ผ๋ก ํ์ฅํ ํ ๊ฒฝ๊ณํ๋ฉด์ ์ฐพ๋ ์๋ฆฌ๊ฐ ์ฌ์ฉ๋ฉ๋๋ค.
๋จ, ์ค์ ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์ฐ์ฐ์ ํตํด ์ฐจ์์ ๋์ด๋ ๊ณผ์ ์ ํ์ค ๋ฐ์ดํฐ ํน์ฑ ์ ์ ๋ง์ ์ฐ์ฐ๋์ ์๊ตฌํ๊ธฐ ๋๋ฌธ์ Kernel Trick์ ํตํด์ ์ฐจ์์ ๋์ด์ง ์๊ณ margin์ ๊ทน๋ํ ํ๋ ์ํฌํธ ๋ฒกํฐ๋ฅผ ๊ตฌํฉ๋๋ค.
- ์ฅ์
- ๋ ธ์ด์ฆ ๋ฐ์ดํฐ์ ์ด์์น๋ฅผ ์ ์ฒ๋ฆฌํ ์ ์์ต๋๋ค
- ์ ํ ๋ถ๋ฆฌ๊ฐ ๋ถ๊ฐํด ๋ณด์ด๋ ๊ฒ๋ ๊ณ ์ฐจ์ ๋งคํ์ ํตํด ๋ถ๋ฆฌ๊ฐ ๊ฐ๋ฅํฉ๋๋ค
- ๊ณ ์ฐจ์์์๋ ํจ๊ณผ์ ์ด๋ผ๊ณ ์๋ ค์ ธ ์์ผ๋ฉฐ local optimum์ ๋น ์ง ์ ์๋ ๋ฅ๋ฌ๋ ๋ฐฉ์๊ณผ๋ ๋ฌ๋ฆฌ SVM์ global optimum์ ์ฐพ์ต๋๋ค
- model-based-learning์ผ๋ก ๋ชจ๋ธ์ด ๊ตฌ์ถ๋ ํ์ ์๋ก์ด ๋ฐ์ดํฐ์ ๋ํ ์์ธก ๋ฐ ๋ถ๋ฅ ์๋๊ฐ ์๋์ ์ผ๋ก ๋น ๋ฆ ๋๋ค
- ๋จ์
- ๋ถ๋ฅ ํด๋์ค๊ฐ ์ฌ๋ฌ ๊ฐ๊ฐ ๋๋ฉด ๋ถ๋ฅ๋ฅผ ํด์ผํ๋ ๊ฒฝ์ฐ์ ์๊ฐ ๋ง์์ง๊ธฐ ๋๋ฌธ์ ๋ชจ๋ธ์ ๊ตฌ์ถํ๋๋ฐ ์๊ฐ์ด ์ค๋ ๊ฑธ๋ฆฝ๋๋ค
- ์ต์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฐพ๋ ๊ณผ์ ์ ๊ฑฐ์น๊ธฐ ๋๋ฌธ์ ๋ชจํ ๊ตฌ์ถ ์๊ฐ์ด ์ค๋ ๊ฑธ๋ฆด ์ ์์ต๋๋ค
- ๊ฒฐ๊ณผ์ ๋ํ ์ค๋ช ๋ ฅ์ด ๋จ์ด์ง๋๋ค
- The Kernel Trick in Support Vector Classification
- ML #8: ๋จธ์ ๋ฌ๋ SVM ๊ธฐ๋ณธ ๊ฐ๋ ๊ณผ ์ฅ๋จ์
- ์ฐจ์์ ๋ฌธ์ - ๋คํฌ ํ๋ก๊ทธ๋๋จธ
- ๋ฌธ๊ณผ์๋ ์ดํดํ๋ SVM(support vector machine)
- Kernel-SVM
- Support Vector Machine (SVM, ์ํฌํธ ๋ฒกํฐ ๋จธ์ )
๋ค๋ฅธ ์ข์ ๋จธ์ ๋ฌ๋ ๋๋น, ์ค๋๋ ๊ธฐ๋ฒ์ธ ๋์ด๋ธ ๋ฒ ์ด์ฆ(naive bayes)์ ์ฅ์ ์ ์นํธํด๋ณด์ธ์.
๐ก ๋์ด๋ธ ๋ฒ ์ด์ฆ์ ์ฅ์
- ์กฐ๊ฑด๋ถ ํ๋ฅ (์ฐ๋, ์ฌํํ๋ฅ )๋ง ๊ณ์ฐํ๊ธฐ ๋๋ฌธ์ ๊ณ์ฐ๋์ด ์ ์ด์ ๋น ๋ฅด๊ฒ ๋์
- ๋ ธ์ด์ฆ ๋ฐ ๊ฒฐ์ธก ๋ฐ์ดํฐ์ ๊ฐ์ธ ํจ
- ๊ฐ ํผ์ณ๋ค์ด ๋ ๋ฆฝ์ธ ๊ฒฝ์ฐ ๋ค๋ฅธ ๋ชจ๋ธ ๋๋น ์ ์ ๋ฐ์ดํฐ๋ก ์ฑ๋ฅ์ด ์ ๋์ด
- ๋ฉํฐ ํด๋์ค, ์นดํ ๊ณ ๋ฆฌํ ์ ๋ ฅ ๋ฐ์ดํฐ๋ก ํ์ตํ ๊ฒฝ์ฐ ์ ํฉ
- Naive Bayes ํ์ฉ
- ์คํธ ํํฐ๋ง
- ๋น์ ์์ ์ธ ์ํฉ ๊ฐ์ง
- ์ฝ๊ณ ๊ฐ๋ ฅํ ๋จธ์ ๋ฌ๋, ๋์ด๋ธ ๋ฒ ์ด์ฆ ๋ถ๋ฅ (Naive Bayes Classification)
- ๋ฐ์ดํฐ๋ง์ด๋_ํ๋ฅ ๊ธฐ๋ฐ ๊ธฐ๊ณํ์ต_๋์ด๋ธ ๋ฒ ์ด์ฆ
- ๋์ด๋ธ ๋ฒ ์ด์ฆ ๋ถ๋ฅ๊ธฐ (Naive Bayes Classifier)
- Naive Bayes Explained: Function, Advantages & Disadvantages, Applications in 2023
๐ก ์ ์ ํ Metric
- ํ๊ท: ์ฐ์์ ์ธ ๊ฐ์ ์์ธกํ๊ธฐ ๋๋ฌธ์ ์ค์ ๊ฐ๊ณผ ์์ธกํ๋ ๊ฐ์ ์ฐจ์ด์ ๊ธฐ๋ฐ์ ๋ Metric์ ์ฌ์ฉํฉ๋๋ค. RSS(๋จ์ ์ค์ฐจ ์ ๊ณฑ ํฉ), MSE(ํ๊ท ์ ๊ณฑ ์ค์ฐจ), MAE(ํ๊ท ์ ๋๊ฐ ์ค์ฐจ),
$R^2$ (Coefficient of Determination ๊ฒฐ์ ๊ณ์)
- ๋ถ๋ฅ: ์ด์ฐ์ ์ธ ๊ฐ์ ์์ธกํ๊ธฐ ๋๋ฌธ์ ๊ฐ ํด๋์ค๋ฅผ ์ ์์ธกํ๋์ง๋ฅผ ํ๋ณํ ์ ์๋ Metric์ ํ์ฉํฉ๋๋ค. Confusion matrix๋ฅผ ํ์ฉํ accuracy, precision, recall, F1-score, ROC curve ๋ฑ์ด ์์ต๋๋ค.
- ํ๊ท Metric
- MAE (์์ธก ๋ณ์์ ๋ถํฌ๊ฐ ๊ฐ์ฐ์์์ผ ๊ฒฝ์ฐ ์ ๋ฆฌ)
:์ค์ ๊ฐ๊ณผ ์์ธก ๊ฐ์ ์ฐจ์ด๋ฅผ ์ ๋๊ฐ์ผ๋ก ์ทจํ ๊ฐ์ ํ๊ท ์ ๋๋ค. MSE์ ๋น์ทํ ์ญํ ์ ํ์ง๋ง, ์ด์์น(outlier)์ ๋ ๋ฏผ๊ฐํ๊ณ ํด์ํ๊ธฐ ์ฝ๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค. - MSE(์
๋ ฅ ๋ฐ์ดํฐ์ ์์๋ผ์ด์ด๊ฐ ๋ง์ ๊ฒฝ์ฐ ์ ๋ฆฌ)
:์ค์ ๊ฐ๊ณผ ์์ธก ๊ฐ์ ์ฐจ์ด๋ฅผ ์ ๊ณฑํ ๊ฐ์ ํ๊ท ์ ๋๋ค. ํ๊ท ๋ชจ๋ธ์์ ๊ฐ์ฅ ๋๋ฆฌ ์ฌ์ฉ๋๋ metric ์ค ํ๋์ ๋๋ค. MSE๊ฐ ์์์๋ก ๋ชจ๋ธ์ ์์ธก์ด ์ ํํ๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. -
$R^2$
:์ค์ ๊ฐ์ ๋ถ์ฐ ์ค ๋ชจ๋ธ๋ก ์ค๋ช ๊ฐ๋ฅํ ๋ถ๋ถ์ ๋ถ์ฐ์ ๋น์จ์ ๋๋ค. ์ฆ, ๋ชจ๋ธ์ด ์ ์ฒด ๋ถ์ฐ ์ค ์ผ๋ง๋ ์ค๋ช ํ ์ ์๋์ง๋ฅผ ๋ํ๋ด๋ ์งํ์ ๋๋ค. Rยฒ๊ฐ 1์ ๊ฐ๊น์ธ์๋ก ๋ชจ๋ธ์ ์์ธก์ด ๋์ ์ ํ๋๋ฅผ ๊ฐ์ง๋๋ค.
- MAE (์์ธก ๋ณ์์ ๋ถํฌ๊ฐ ๊ฐ์ฐ์์์ผ ๊ฒฝ์ฐ ์ ๋ฆฌ)
- ๋ถ๋ฅ Metric
- Accuracy (๋ฐ์ดํฐ๊ฐ ๋ถ๊ท ํํ ๊ฒฝ์ฐ ์ ์๋ํ์ง ์์)
: ์ ์ฒด ์ํ ์ค์์ ๋ชจ๋ธ์ด ์ ํํ๊ฒ ์์ธกํ ์ํ์ ๋น์จ์ ๋๋ค. ๋์์๋ก ์ข์ ๋ชจํ์ ๋๋ค. ์ด์ง ๋ถ๋ฅ์ ๋ค์ค ๋ถ๋ฅ ๋ฌธ์ ์์ ๋ชจ๋ ์ฌ์ฉํ ์ ์์ต๋๋ค. - Precision (FP๊ฐ ์ค์ํ ๋ฌธ์ ์์ ํ์ฉ)
: ๋ชจ๋ธ์ด Positive๋ก ์์ธกํ ์ํ ์ค์์ ์ค์ ๋ก Positive์ธ ์ํ์ ๋น์จ์ ๋๋ค. ์ฆ, ๋ชจ๋ธ์ด Positive๋ก ์์ธกํ ๊ฒ ์ค์์ ์ผ๋ง๋ ๋ง์๋์ง๋ฅผ ๋ํ๋ด๋ ์งํ์ ๋๋ค. - Recall (FN์ด ์ค์ํ ๋ฌธ์ ์์ ํ์ฉ)
: ์ค์ Positive์ธ ์ํ ์ค์์ ๋ชจ๋ธ์ด Positive๋ก ์์ธกํ ์ํ์ ๋น์จ์ ๋๋ค. ์ฆ, ๋ชจ๋ธ์ด ์ค์ Positive์ธ ๊ฒ์ ์ผ๋ง๋ ์ ์ฐพ์๋๋์ง๋ฅผ ๋ํ๋ด๋ ์งํ์ ๋๋ค. - F1 Score
: ์ ๋ฐ๋์ ์ฌํ์จ์ ์กฐํ ํ๊ท ์ ๋๋ค. ๋ถ๊ท ํํ ๋ฐ์ดํฐ์ ์์ ์ฌ์ฉ๋ฉ๋๋ค. ์ ๋ฐ๋์ ์ฌํ์จ์ ๋ชจ๋ ๊ณ ๋ คํ์ฌ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๋ ์งํ์ ๋๋ค. - AUC ROC (๋ฉํฐ ํด๋์ค ๋ฌธ์ ์๊ฐํ์ ์ ์ฉ)
: ๋ถ๋ฅ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์๊ฐ์ ์ผ๋ก ํ๊ฐํ๋ ๋ฐฉ๋ฒ ์ค ํ๋์ ๋๋ค. ROC ๊ณก์ ์ FPR(False Positive Rate)์ x์ถ์ผ๋ก, TPR(True Positive Rate)์ y์ถ์ผ๋ก ๋ํ๋ด๋ฉฐ, ๋ถ๋ฅ ๋ชจ๋ธ์ ์๊ณ๊ฐ(threshold)์ ๋ณ๊ฒฝํ๋ฉด์ TPR๊ณผ FPR์ ๋ณํ๋ฅผ ๋ํ๋ ๋๋ค. ๋ถ๋ฅ ๋ชจ๋ธ์ ์๊ณ๊ฐ์ด ๋์์๋ก TPR์ ๋ฎ์์ง๊ณ , FPR์ ๋์์ง๋๋ค. ๋ฐ๋๋ก ์๊ณ๊ฐ์ด ๋ฎ์์๋ก TPR์ ๋์์ง๊ณ , FPR์ ๋ฎ์์ง๋๋ค. ROC ๊ณก์ ์์ ์ข์ธก ์๋จ์ ๊ฐ๊น์ธ์๋ก ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ๋๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. ์ด๋ ROC ๊ณก์ ์๋์ชฝ ๋ฉด์ ์ AUC(Area Under the Curve)๋ผ๊ณ ํ๋ฉฐ, AUC๊ฐ 1์ ๊ฐ๊น์ธ์๋ก ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ๋๋ค๋ ๊ฒ์ ๋ํ๋ ๋๋ค.
- Accuracy (๋ฐ์ดํฐ๊ฐ ๋ถ๊ท ํํ ๊ฒฝ์ฐ ์ ์๋ํ์ง ์์)
- ํ๊ท / ๋ถ๋ฅ์ ์๋ง์ metric๊ณผ ๊ทธ์ ๋ํ ์ค๋ช
- ํ๊ท ๋ชจํ์ ํ๊ฐ ์งํ
- 5.4 ๋ถ๋ฅ ์ฑ๋ฅํ๊ฐ
- Metrics to Evaluate Classification and Regression Algorithms





