카테고리 없음

데이터 전처리 기법: Feature Scaling(모델별 스케일링 기법)

8353cc 2025. 4. 16. 10:42
반응형
Feature Scaling 완벽 가이드

Feature Scaling 완벽 가이드 (AI 전문가용)

1. 정의

Feature Scaling은 다양한 범위를 가진 특성들을 공통된 스케일로 변환하는 전처리 과정입니다.

2. 주요 목적

  • 경사하강법 기반 모델 수렴 속도 향상
  • 거리 기반 모델 정확도 향상
  • 피처 우선순위 왜곡 방지
  • PCA/LDA 같은 기법의 전처리

3. 주요 기법

기법수식설명예시
Min-Max Scaling(x - min) / (max - min)0~1 범위로 조정이미지 픽셀
Standard Scaling(x - 평균) / 표준편차평균 0, 분산 1선형 회귀
Robust Scaling(x - Q2) / (Q3 - Q1)중앙값 기준이상치 존재 시
MaxAbs Scalingx / |x|max-1~1 범위희소 데이터
L2 Normalizationx / ||x||벡터 길이 기준문서 벡터화

4. 실무 코드 예시 (Scikit-learn)

from sklearn.preprocessing import MinMaxScaler, StandardScaler, RobustScaler, MaxAbsScaler, Normalizer

X = [[1, 100], [2, 300], [3, 600]]

minmax = MinMaxScaler()
X_minmax = minmax.fit_transform(X)

standard = StandardScaler()
X_standard = standard.fit_transform(X)

robust = RobustScaler()
X_robust = robust.fit_transform(X)

maxabs = MaxAbsScaler()
X_maxabs = maxabs.fit_transform(X)

normalizer = Normalizer(norm='l2')
X_l2 = normalizer.fit_transform(X)

5. 장단점 비교

기법장점단점
MinMax직관적, 범용성이상치 민감
Standard정규분포 가정 모델에 적합이상치 민감
Robust이상치에 강건분포 왜곡 가능
MaxAbs희소 행렬 유지값 분포에 제한적
Normalizer문서 유사도 분석 적합절대값 손실

6. 기대 효과

  • 수렴 속도 향상
  • 모델 안정성 확보
  • 정확도 개선
  • 하이퍼파라미터 튜닝 효율 증가

7. 적용 시기

  • 훈련 직전
  • Cross-validation 이전
  • 이상치 제거 후
  • PCA 등 적용 전

8. 모델별 적합 기법

모델적합 기법설명
선형 회귀Standard정규분포 가정
SVM / KNNMinMax or Standard거리 기반
트리 계열불필요 or Robust스케일 불변
신경망MinMax / Standard수렴 향상
PCA / LDAStandard공분산 기반
희소 데이터MaxAbs형태 유지

9. 정리 비교표

기법분포 보존이상치 대응사용 빈도거리 기반 적합분류/회귀 적합희소 데이터 적합
MinMax낮음낮음★★★★★O
Standard높음낮음★★★★★O
Robust중간높음★★★☆☆O
MaxAbs낮음낮음★★★☆☆
Normalizer낮음낮음★★☆☆☆

10. 실무 팁

  • fit은 반드시 훈련셋에만!
  • GridSearchCV 사용 시 Pipeline 구성
  • 스케일링 종류 변경만으로도 성능 개선 가능
  • 이상치가 많다면 Robust부터 시작
반응형