IT

[ML] ๋ฐ์ดํ„ฐ ๋ถ„์„ ๊ธฐ๋ณธ ํ”„๋กœ์„ธ์Šค (feat. ๋จธ์‹ ๋Ÿฌ๋‹, ๋ฐ์ดํ„ฐ๋งˆ์ด๋‹)

zi0_0 2025. 4. 20. 12:56

SKALA ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋ฏธ๋‹ˆ ํ”„๋กœ์ ํŠธ๋ฅผ ์ง„ํ–‰ํ•˜๋ฉด์„œ, 
์กฐ์›๋“ค์ด ๊ธฐ๋ณธ์ ์ธ ๋ฐ์ดํ„ฐ ๋ถ„์„ ํ”„๋กœ์„ธ์Šค๋‚˜ ์ „๋ฐ˜์ ์ธ ํ๋ฆ„์„ ๋งŽ์ด ์–ด๋ ค์›Œํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์•Œ๊ฒŒ ๋˜์—ˆ๋‹ค. 

 

์ „๊ณต ๋•Œ ๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹์„ ์ฒ˜์Œ ๋ฐฐ์šฐ๋Š” ๋‚ด ๋ชจ์Šต์ด ์ƒ๊ฐ๋‚˜๋ฉฐ,,,
ํŒ€์›๋“ค์„ ์œ„ํ•ด ๋‚ด๊ฐ€ ์ƒ๊ฐํ•˜๋Š” ํ”„๋กœ์„ธ์Šค๋ฅผ ์ •๋ฆฌํ•ด๋ดค๋‹ค. 

 

๋ฐ์ดํ„ฐ ๋ถ„์„์„ ์ฒ˜์Œ ๋ฐฐ์šฐ๋Š” ์‚ฌ๋žŒ๋“ค์—๊ฒŒ๋„ ๋„์›€์ด ๋  ๊ฒƒ ๊ฐ™์•„ ๋ณด์™„ํ•ด์„œ ๊ณต์œ ํ•ด ๋ณธ๋‹ค~!


๐ŸŒŠ ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋ฐ ๋จธ์‹ ๋Ÿฌ๋‹ ํ”„๋กœ์„ธ์Šค ๋ถ„์„ ํ”Œ๋กœ์šฐ 

โš ๏ธ ์ฐธ๊ณ  : ํ‹€๋ฆด ์ˆ˜ ์žˆ์Œ ์ฃผ์˜
์•„๋ž˜์˜ ํ”„๋กœ์„ธ์Šค๋Š” ์ œ๊ฐ€ ์ฃผ๋กœ ์ง„ํ–‰ํ•˜๋Š” ๋ถ„์„ ํ๋ฆ„์ž…๋‹ˆ๋‹ค. 
๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ์ด๋‚˜ ๋ฌธ์ œ ์ •์˜์— ๋”ฐ๋ผ ์ˆœ์„œ๋‚˜ ๊ธฐ๋ฒ•์ด ์œ ๋™์ ์œผ๋กœ ์กฐ์ •ํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค. 
๋‹จ, train/test ๋ถ„ํ•  ์ดํ›„์—๋งŒ ํ•ด์•ผ ํ•  ์ž‘์—… (์ƒ˜ํ”Œ๋ง, ์Šค์ผ€์ผ๋ง ๋“ฑ)์€ ๋ช…ํ™•ํ•˜๊ฒŒ ๊ตฌ๋ถ„ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

 

๐ŸŽฏ ์ „์ฒด ์ˆœ์„œ ๊ฐœ์š”

1. ๋ฐ์ดํ„ฐ ๊ตฌ์กฐ ๋ฐ ๊ธฐ๋ณธ ์ •๋ณด ํ™•์ธ
2. ํƒ์ƒ‰์  ๋ฐ์ดํ„ฐ ๋ถ„์„ (EDA)
3. ๊ฒฐ์ธก๊ฐ’ ์ฒ˜๋ฆฌ
4. ๋ฐ์ดํ„ฐ ํƒ€์ž… ์ •๋ฆฌ
5. ์ด์ƒ์น˜ ํƒ์ง€ ๋ฐ ์ฒ˜๋ฆฌ
6. ์ธ์ฝ”๋”ฉ
7. ํŒŒ์ƒ ๋ณ€์ˆ˜ ์ƒ์„ฑ
8. ๋ณ€์ˆ˜ ์„ ํƒ ๋ฐ ์ฐจ์› ์ถ•์†Œ
9. ๋ฐ์ดํ„ฐ ๋ถ„ํ• 
10. ๋ผ๋ฒจ ๋ถˆ๊ท ํ˜• ์ฒ˜๋ฆฌ
11. ์Šค์ผ€์ผ๋ง
12. ๊ต์ฐจ ๊ฒ€์ฆ
13. ๋ชจ๋ธ ํ•™์Šต ๋ฐ ํ‰๊ฐ€
14. ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ํŠœ๋‹
15. ์•™์ƒ๋ธ” ๋ฐ ์„ฑ๋Šฅ ํ–ฅ์ƒ ๊ธฐ๋ฒ•

 

1. ๋ฐ์ดํ„ฐ ๊ตฌ์กฐ ๋ฐ ๊ธฐ๋ณธ ์ •๋ณด ํ™•์ธ

๋ชฉ์  : ๋ฐ์ดํ„ฐ ๊ตฌ์กฐ ํŒŒ์•… ๋ฐ ์˜ค๋ฅ˜ ํƒ์ƒ‰ 

 

  • ํ–‰/์—ด ์ˆ˜, ๋ฐ์ดํ„ฐ ํƒ€์ž… ํ™•์ธ: `.info()`, `.shape`, `.dtypes`
  • ๊ธฐ์ดˆ ํ†ต๊ณ„ ์š”์•ฝ: `.describe()`

 

 

2. ํƒ์ƒ‰์  ๋ฐ์ดํ„ฐ ๋ถ„์„ (EDA)

๋ชฉ์  : ๋ณ€์ˆ˜ ๊ฐ„ ๊ด€๊ณ„๋‚˜ ๋ถ„ํฌ ํŒŒ์•…, ์ด์ƒ์น˜ ์‹œ๊ฐํ™” 

  • ํƒ€๊ฒŸ ๋ถ„ํฌ ํ™•์ธ 
  • ๋ฐ์ดํ„ฐ ๋ถ„ํฌ ์‹œ๊ฐํ™” 
  • ๋ณ€์ˆ˜ ๊ฐ„ ์ƒ๊ด€๊ด€๊ณ„ ๋ถ„์„ 
  • ํƒ€๊ฒŸ ๋ณ€์ˆ˜์™€ ๋‹ค๋ฅธ ๋ณ€์ˆ˜ ๊ฐ„ ๊ด€๊ณ„ ๋ถ„์„ 
  • ์ด์ƒ์น˜ ์‹œ๊ฐํ™” (๋ฐ•์Šคํ”Œ๋กฏ, ์‚ฐ์ ๋„)

 

3. ๊ฒฐ์ธก๊ฐ’ ์ฒ˜๋ฆฌ

  • ๊ฒฐ์ธก๊ฐ’ ํ™•์ธ : `.isna().sum()`
  • ์ฒ˜๋ฆฌ ๋ฐฉ๋ฒ• 
    • ๋Œ€์ฒด: ์ตœ๋นˆ๊ฐ’(`mode()`), ํ‰๊ท ๊ฐ’(`mean()`), ์ค‘์•™๊ฐ’(`median()`)
    • ์กฐ๊ฑด๋ถ€ ๋Œ€์ฒด(Conditional imputation): ํŠน์ • ๊ทธ๋ฃน๋ณ„ ํ†ต๊ณ„์น˜๋กœ ๋Œ€์ฒด
    • ์˜ˆ์ธก ๊ธฐ๋ฐ˜ ๋Œ€์ฒด: KNN, ํšŒ๊ท€ ๋ชจ๋ธ์„ ํ™œ์šฉํ•œ ์˜ˆ์ธก๊ฐ’์œผ๋กœ ๋Œ€์ฒด

 

4. ๋ฐ์ดํ„ฐ ํƒ€์ž… ์ •๋ฆฌ

๋ชฉ์  : ๋ชจ๋ธ์ด ๋ฐ์ดํ„ฐ๋ฅผ ์ •ํ™•ํžˆ ํ•ด์„ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋ณ€์ˆ˜ ํƒ€์ž… ๋ช…ํ™•ํžˆ ์„ค์ • 

  • ์ ์ ˆํ•œ ๋ฐ์ดํ„ฐ ํƒ€์ž…์œผ๋กœ ๋ณ€ํ™˜: `astype()`
  • ๋ฒ”์ฃผํ˜•/์—ฐ์†ํ˜• ๋ณ€์ˆ˜ ๊ตฌ๋ถ„
  • ๋‚ ์งœํ˜• ๋ฐ์ดํ„ฐ ๋ณ€ํ™˜: `pd.to_datetime()`

 

5. ์ด์ƒ์น˜ ํƒ์ง€ ๋ฐ ์ฒ˜๋ฆฌ

  • ํ™•์ธ ๋ฐฉ๋ฒ• 
    • IQR (box plot)
    • Z-score
    • scatter plot 
  • ์ฒ˜๋ฆฌ ๋ฐฉ๋ฒ•
    • ์ œ๊ฑฐ : ํ™•์‹คํ•œ ์˜ค๋ฅ˜์ธ ๊ฒฝ์šฐ, ๊ฒฐ์ธก๊ฐ’์ด ๋„ˆ๋ฌด ๋งŽ์€ ์—ด์ธ ๊ฒฝ์šฐ 
    • winsorizing : ์ƒ/ํ•˜ํ•œ๊ฐ’์œผ๋กœ ๋Œ€์ฒด 
    • ๋ณ€ํ™˜ : ๋กœ๊ทธ, ์ œ๊ณฑ๊ทผ ๋“ฑ์œผ๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ์˜ํ–ฅ ์ถ•์†Œ 
    • flag ๋ณ€์ˆ˜ ์ถ”๊ฐ€ : ํ•ด๋‹น ๊ฐ’์ด ์ด์ƒ์น˜์ธ์ง€๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ์ƒˆ๋กœ์šด ๋ณ€์ˆ˜ (์นผ๋Ÿผ)์„ ์ถ”๊ฐ€ 
์—ฌ๊ธฐ์„œ ๋‚œ ์˜์™ธ๋กœ scatter plot์„ ๋งŽ์ด ํ™œ์šฉํ•˜๋Š” ํŽธ์ด๋‹ค. 
๊ทธ๋Ÿผ ์ˆซ์ž์ƒ์œผ๋กœ ๋ณด์ด์ง€ ์•Š๋˜ ์ด์ƒ์น˜์˜ ์˜๋ฏธ๋ฅผ ์‰ฝ๊ฒŒ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ๋‹ค~!

 

6. ์ธ์ฝ”๋”ฉ

๋ชฉ์  : ๋ชจ๋ธ์ด ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋„๋ก ๋ฒ”์ฃผํ˜• ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์น˜ํ˜•์œผ๋กœ ๋ณ€ํ™˜

  • ๋ฒ”์ฃผํ˜• ๋ณ€์ˆ˜ ์ธ์ฝ”๋”ฉ:
    • One-Hot ์ธ์ฝ”๋”ฉ: `pd.get_dummies()`, `OneHotEncoder()`
    • ๋ผ๋ฒจ ์ธ์ฝ”๋”ฉ: `LabelEncoder()`
    • ํƒ€๊ฒŸ ์ธ์ฝ”๋”ฉ: ํƒ€๊ฒŸ ๋ณ€์ˆ˜์™€์˜ ๊ด€๊ณ„๋ฅผ ๋ฐ˜์˜ํ•œ ์ธ์ฝ”๋”ฉ

 

7. ํŒŒ์ƒ ๋ณ€์ˆ˜ ์ƒ์„ฑ

  • ๋„๋ฉ”์ธ ์ง€์‹ ํ™œ์šฉํ•œ ์ƒˆ๋กœ์šด ๋ณ€์ˆ˜ ์ƒ์„ฑ
  • ์ˆ˜ํ•™์  ๋ณ€ํ™˜: ๋กœ๊ทธ, ์ œ๊ณฑ, ์ œ๊ณฑ๊ทผ, ๋‹คํ•ญ์‹ ํŠน์„ฑ
  • ๋น„์œจ, ์ฐจ์ด, ํ•ฉ๊ณ„ ๋“ฑ ๋ณ€์ˆ˜๋“ค ๊ฐ„ ์กฐํ•ฉ
  • ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ์˜ ๊ฒฝ์šฐ: ์‹œ๊ฐ„ ๊ธฐ๋ฐ˜ ํŠน์„ฑ ์ถ”์ถœ (์š”์ผ, ์›”, ๊ณ„์ ˆ ๋“ฑ)
  • ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ: ๊ธธ์ด, ๋‹จ์–ด ์ˆ˜, TF-IDF ๋“ฑ

 

8. ๋ณ€์ˆ˜ ์„ ํƒ or ์ฐจ์› ์ถ•์†Œ

๋ชฉ์  : ๋ณ€์ˆ˜๊ฐ€ ๋„ˆ๋ฌด ๋งŽ์œผ๋ฉด ๊ณผ์ ํ•ฉ์ด ๋ฐœ์ƒํ•˜๊ฑฐ๋‚˜ ๋ชจ๋ธ์˜ ์„ค๋ช…๋ ฅ์ด ๋–จ์–ด์ง„๋‹ค. 

  • ์ค‘์š”๋„ ๋‚ฎ์€ ๋ณ€์ˆ˜ ์ œ๊ฑฐ: ํ†ต๊ณ„ ํ…Œ์ŠคํŠธ, ์ƒ๊ด€๊ด€๊ณ„ ๋ถ„์„, ๋ชจ๋ธ์˜ feature importance ํ™œ์šฉ 
  • ๋‹ค์ค‘๊ณต์„ ์„ฑ ์ฒ˜๋ฆฌ: VIF(Variance Inflation Factor) ํ™•์ธ
  • ์ฐจ์› ์ถ•์†Œ: PCA, LDA, t-SNE

 

9. ๋ฐ์ดํ„ฐ ๋ถ„ํ• 

  • ํ•™์Šต/ํ…Œ์ŠคํŠธ ์„ธํŠธ ๋ถ„๋ฆฌ: `train_test_split()`
  • ์ผ๋ฐ˜์ ์ธ ๋น„์œจ: 8:2, 7:3 (๋ฐ์ดํ„ฐ ํฌ๊ธฐ์— ๋”ฐ๋ผ ์กฐ์ •)
  • ์ธตํ™” ์ถ”์ถœ(stratified sampling): ๋ถˆ๊ท ํ˜• ๋ฐ์ดํ„ฐ๋ฉด `stratify=y` ํ•„์ˆ˜ 

 

10. ๋ผ๋ฒจ ๋ถˆ๊ท ํ˜• ์ฒ˜๋ฆฌ (* train ๋ฐ์ดํ„ฐ๋งŒ) 

  • ์˜ค๋ฒ„ ์ƒ˜ํ”Œ๋ง:
    • Random Over Sampling: `RandomOverSampler()`
    • SMOTE: `SMOTE()`
    • ADASYN: `ADASYN()`
  • ์–ธ๋” ์ƒ˜ํ”Œ๋ง (๋ฐ์ดํ„ฐ๊ฐ€ ์ถฉ๋ถ„ํ•  ๋•Œ):
    • Random Under Sampling: `RandomUnderSampler()`
    • NearMiss: `NearMiss()`
  • ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ฐฉ๋ฒ•: `SMOTETomek`, `SMOTEENN`
  • ๋น„์šฉ ๊ฐ€์ค‘์น˜ ์กฐ์ •: `class_weight` ํŒŒ๋ผ๋ฏธํ„ฐ ํ™œ์šฉ

* ๊ฐœ์ธ์ ์œผ๋กœ ์˜ค๋ฒ„/์–ธ๋” ์ƒ˜ํ”Œ๋ง ์ค‘์—์„œ๋Š” ์˜ค๋ฒ„ ์ƒ˜ํ”Œ๋งํ–ˆ์„ ๋•Œ ๋ชจ๋ธ ์„ฑ๋Šฅ์ด ์กฐ๊ธˆ ๋” ์ข‹์€ ๋“ฏ!

 

 

11. ์Šค์ผ€์ผ๋ง (* train ๋ฐ์ดํ„ฐ๋กœ fit, test ๋ฐ์ดํ„ฐ๋Š” transform๋งŒ)

  • min-max scaling
  • standard scaling
  • robust scaling
  • normal scaling

* ์ €๋Š” ๊ทธ๋ƒฅ ๋‹ค ํ•ด๋ณด๊ณ  ์„ฑ๋Šฅ ์ข‹์€ ๊ฑฐ ์ฑ„ํƒํ•˜๋Š” ํŽธ... (๋ฌผ๋ก  ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ์„ ์ ๋‹นํžˆ ๊ณ ๋ คํ•ด์•ผ ํ•จ~!)

๐Ÿšจ ์ค‘์š”: test ๋ฐ์ดํ„ฐ์—๋Š” `transform()`๋งŒ ์ ์šฉํ•ด์•ผ ํ•จ (๋ฐ์ดํ„ฐ ๋ˆ„์ˆ˜ ๋ฐฉ์ง€)

 

 

12. ๊ต์ฐจ ๊ฒ€์ฆ

๋ชฉ์  : ๋ชจ๋ธ์˜ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๊ฐ๊ด€์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ˜๋ณต์ ์œผ๋กœ ๋‚˜๋ˆ  ๊ฒ€์ฆ 

  • ์ผ๋ฐ˜์  : K-fold ๊ต์ฐจ ๊ฒ€์ฆ
  • ๋ผ๋ฒจ ๋ถˆ๊ท ํ˜• ๋Œ€์‘ : ์ธตํ™” K-fold ๊ต์ฐจ ๊ฒ€์ฆ
  • ์‹œ๊ณ„์—ด : TimeSeriesSplit
  • ์†Œ๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹ : LOOCV(Leave-One-Out Cross-Validation)

 

13. ๋ชจ๋ธ ํ•™์Šต ๋ฐ ํ‰๊ฐ€

  • Regression model : Linear Regression, Ridge/Lasso Regression ๋“ฑ...
  • Classification model : Logistic Regression, Decision Tree, RandomForest, SVM ๋“ฑ...  
  • ํ‰๊ฐ€ ์ง€ํ‘œ 
    • Regression ํ‰๊ฐ€ ์ง€ํ‘œ : MAE, MSE, RMSE ๋“ฑ...
    • Classification ํ‰๊ฐ€ ์ง€ํ‘œ : Accuracy, Precision, Recall, F1 Score, ROC-AUC ๋“ฑ...


14. ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ํŠœ๋‹

๋ชฉ์  : ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ์ตœ์ ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ํ•™์Šต๊ฐ’ ์กฐ์ • 

  • Grid Search
  • Random Search
  • BayesianOptimization
  • ์กฐ๊ธฐ ์ข…๋ฃŒ (Early Stopping) : ๊ณผ์ ํ•ฉ ๋ฐฉ์ง€ (LightGBM, XGBoost ๋“ฑ์—์„œ ๋‚ด์žฅ ์ง€์›

 

15. ์•™์ƒ๋ธ” ๋ฐ ์„ฑ๋Šฅ ํ–ฅ์ƒ ๊ธฐ๋ฒ•

๋ชฉ์  : ์—ฌ๋Ÿฌ ๋ชจ๋ธ์˜ ์˜ˆ์ธก์„ ๊ฒฐํ•ฉํ•ด ๊ฐœ๋ณ„ ๋ชจ๋ธ๋ณด๋‹ค ๋” ๋†’์€ ์˜ˆ์ธก ์ •ํ™•๋„์™€ ์•ˆ์ •์„ฑ ํ™•๋ณด 

 

  • ๋ณดํŒ…(Voting): `VotingClassifier()`
  • ๋ฐฐ๊น…(Bagging): `BaggingClassifier()`
  • ์Šคํƒœํ‚น(Stacking): `StackingClassifier()`
  • ๋ธ”๋ Œ๋”ฉ(Blending): ๊ฒ€์ฆ ์„ธํŠธ ํ™œ์šฉ

 

 

โš ๏ธ ๋ฐ์ดํ„ฐ ๋ถ„ํ•  ์ดํ›„ ์ ์šฉ ์ฃผ์˜์‚ฌํ•ญ 

  • Sampling : train ๋ถ„ํ•  ์ดํ›„ 
  • Scaling : train์—์„œ `fit()` → test์—๋Š” `transform()`๋งŒ
  • Encoding : ๋ฒ”์ฃผํ˜• ์ฒ˜๋ฆฌ ์‹œ train ๊ธฐ์ค€์œผ๋กœ ๋งž์ถ”๊ณ  test๋„ ๋™์ผ ๋ฐฉ์‹ ์ ์šฉ

* ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ๋Š” train ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ์ค€์œผ๋กœ ๋ณ€ํ™˜ํ•ด์•ผ ํ•จ (๋ฐ์ดํ„ฐ ๋ˆ„์ˆ˜ ๋ฐฉ์ง€)

๋‚˜๋Š” ์ดˆ๋ฐ˜์—๋Š” ์ „์ฒ˜๋ฆฌ์— ํฐ ํž˜์„ ๋“ค์ด์ง€ ์•Š๊ณ , 
์ผ๋‹จ 13๋ฒˆ๊นŒ์ง€ ๋น ๋ฅด๊ฒŒ ๋งŒ๋“ค๊ณ  7๋ฒˆ๋ถ€ํ„ฐ ๋ฐ˜๋ณต์ ์œผ๋กœ ์ง„ํ–‰ํ•˜๋ฉด์„œ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ๋†’์ด๋Š” ํŽธ์ด๋‹ค. 
(์•„๋ฌด๋ฆฌ ํ•ฉ๋ฆฌ์ ์œผ๋กœ ์ „์ฒ˜๋ฆฌ๋ฅผ ํ•ด๋„, ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์€ ์™œ์ธ์ง€ ๋‚ด๊ฐ€ ์˜๋„ํ•œ ๋Œ€๋กœ ๋‚˜์˜ค์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ...) 

 

โœ๏ธ ์ถ”๊ฐ€ ํŒ

1) ๋ฐ์ด์ฝ˜, ์บ๊ธ€ ํ™œ์šฉํ•˜๊ธฐ 

๋‚ด๊ฐ€ ํ•˜๋ ค๋Š” ๋จธ์‹ ๋Ÿฌ๋‹ ์ฃผ์ œ ๋Œ€๋ถ€๋ถ„์€ ์•„๋งˆ ๋ฐ์ด์ฝ˜์ด๋‚˜ ์บ๊ธ€์—์„œ ์ด๋ฏธ ์ง„ํ–‰ํ•œ ๊ฒฝ์šฐ๊ฐ€ ๋งŽ๋‹ค. 

๋”ฐ๋ผ์„œ ๋‚˜๋Š” ์ด๋Ÿฐ ๋Œ€ํšŒ์—์„œ ์šฐ์Šน์ž‘์ด๋‚˜ ์ƒ์œ„๊ถŒ ์‚ฌ๋žŒ๋“ค์ด ํ•œ ๋ฐฉ๋ฒ•์„ ๋ ˆํผ๋Ÿฐ์Šค ์‚ผ์•„ ๊ณต๋ถ€ํ•˜๊ณ , ๋‚ด ํ”„๋กœ์ ํŠธ์— ์ ์šฉํ•ด ๋ณธ๋‹ค. 

 

2) ์œ ํŠœ๋ธŒ์— ๋ฐ์ดํ„ฐ ๋ถ„์„ ๊ณต๋ชจ์ „ ์˜์ƒ ๋ณด๊ธฐ 

์œ ํŠœ๋ธŒ์— ๋ณด๋ฉด ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ ๋ถ„์„ ์ˆ˜์ƒ์ž‘๋“ค์ด ์˜ฌ๋ผ์˜จ๋‹ค. 

๋ฐ์ดํ„ฐ ๋ถ„์„ ํ๋ฆ„๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ฃผ์ œ์˜ ์ฐธ์‹ ํ•จ, ๋ถ„์„ ํ”Œ๋กœ์šฐ, ํ”ผํ”ผํ‹ฐ ๊ตฌ์„ฑ, ๋ฐœํ‘œ ์Šคํ‚ฌ ๋“ฑ 

์–ป์„ ์ˆ˜ ์žˆ๋Š” ๊ฒƒ๋“ค์ด ๋งค์šฐ ๋งŽ๋‹ค. 

 

3) ๋…ผ๋ฌธ ์ฐพ์•„๋ณด๊ธฐ 

๋‚ด๊ฐ€ ์•„๋ฌด๋ฆฌ ์‹ ๋ฐ•ํ•œ ์ฃผ์ œ๋ฅผ ์ฐพ์•„๋„, ๋…ผ๋ฌธ์„ ์ฐพ์•„๋ณด๋ฉด ์ด๋ฏธ ์ง„ํ–‰๋œ ์—ฐ๊ตฌ์ผ ํ™•๋ฅ ์ด ๋งค์šฐ ๋†’๋‹ค. 

1๋ฒˆ์ฒ˜๋Ÿผ ๋ ˆํผ๋Ÿฐ์Šค ์‚ผ์•„ ๋‚ด ๋ถ„์„ ์ฃผ์ œ๋ฅผ ์‹ฌํ™”ํ•˜๊ณ  ๋””๋ฒจ๋กญ์‹œํ‚ค๋Š”๋ฐ ๋งค์šฐ ์œ ์šฉํ•˜๋‹ค!

 

 

๐Ÿ”— ์ถ”์ฒœ ๋งํฌ 

 

๋ถ„๋ฅ˜ ๋ชจ๋ธ ํ‰๊ฐ€ ์ง€ํ‘œ ์ด์ •๋ฆฌ (feat. Confusion matrix and Roc Curve)

Confusion Matrix  True Positive (TP): ์‹ค์ œ๊ฐ’์ด Positive์ด๊ณ , ๋ชจ๋ธ๋„ Positive๋กœ ์˜ˆ์ธกํ•œ ๊ฒฝ์šฐTrue Negative (TN): ์‹ค์ œ๊ฐ’์ด Negative์ด๊ณ , ๋ชจ๋ธ๋„ Negative๋กœ ์˜ˆ์ธกํ•œ ๊ฒฝ์šฐFalse Positive (FP): ์‹ค์ œ๊ฐ’์ด Negative์ธ๋ฐ, ๋ชจ๋ธ์ด Po

thswldud.tistory.com

Copy