반응형

데이터전처리 4

데이터 전처리 기법: Autoencoder를 활용한 차원 축소 및 특징 추출

Autoencoder를 활용한 차원 축소 및 특징 추출 1. 개념 Autoencoder는 입력 데이터를 압축한 뒤 다시 복원하는 비지도 신경망입니다. Encoder → Latent Space → Decoder 구조로 구성됩니다. ✅ 목표: 입력과 복원 데이터의 차이를 최소화하면서 중요한 특징만 추출하는 것 2. 적용 방법 목적설명 차원 축소고차원 데이터를 중요한 정보만 남기고 축소 특징 추출Encoder의 Latent Output을 새로운 Feature로 활용 3. 실무 코드 (PyTorch) import torchimport torch.nn as nnfrom torch.utils.data impor..

데이터전처리 2025.04.16

데이터 전처리 기법: Feature Interaction 완전 가이드

🧠 Feature Interaction 완전 정복: 변수 간 곱, 합 활용1. 개념Feature Interaction은 둘 이상의 변수 간의 곱(multiplicative), 합(additive) 등을 통해 새로운 의미 있는 피처를 생성하는 전처리 기법입니다.2. 원리기존의 독립적인 변수들이 결합되면 모델이 학습하기 어려운 패턴을 더 잘 표현할 수 있게 됩니다.예: 매출 = 가격 × 수량3. 사용 방법df['A_B_mul'] = df['A'] * df['B']df['A_B_add'] = df['A'] + df['B']4. 사용 시기모델 성능이 더 이상 개선되지 않을 때변수 간 상호작용이 의미가 있을 때 (도메인 지식 활용)트리 기반 모델 또는 DNN 사용 시5. 기대 효과모델 성능 향상 (정확도, AU..

데이터전처리 2025.04.16

데이터 전처리 기법: 고유값 분해

​🎲 고유값 분해는 뭐냐면…수학 문제 속에 숨은 비밀 지도를 찾는 거예요!우리가 정사각형 표처럼 생긴 수들의 모음을 "행렬(matrix)"이라고 부르는데요, 이 행렬은 마치 여러 방향으로 물건을 회전하거나 늘리고 줄이는 기계 같아요.🎡 예를 들어서 생각해보자!상상해봐요:원판 위에 여러 개의 점들이 있고,어떤 마법 기계를 돌리면, 이 점들이 특정 방향으로 길게 늘어지거나 짧아져요.그런데 신기하게도, 어떤 특정한 방향으로는 점들이 오직 길어지거나 짧아지기만 하고, 방향은 안 바뀌어요!👉 이때 그 방향을 "고유벡터"라고 부르고👉 얼마나 길어졌는지를 나타내는 숫자를 "고유값"이라고 불러요!🎯 고유값 분해는 이걸 찾는 거예요!어떤 행렬이 있다면,"이 행렬은 어떤 방향으로는 그냥 길어지거나 짧아지기만 할까..

데이터전처리 2025.04.14

데이터 전처리 기법: PCA 차원 축소 -02

PCA 응용분야(그림: ChatGPT4o 생성)아래에 PCA(주성분 분석)의 주요 응용 분야, 역할, 그리고 사용 이유 및 장점을 상세히 정리해드릴게요.​📌 PCA의 응용 분야 (Applications of PCA)1. 📊 데이터 시각화목적: 고차원 데이터를 2D 또는 3D로 줄여 그래프로 시각화예시:이미지 데이터 시각화 (예: MNIST 손글씨)텍스트 임베딩의 군집 형태 확인​2. 🧠 머신러닝 전처리목적: 모델 훈련 전 차원을 줄여 과적합 방지 및 속도 향상예시:SVM, k-NN 등 거리 기반 알고리즘의 성능 개선다중공선성 제거 (Multicollinearity 해결)​3. 🧬 유전자 데이터 분석 (Bioinformatics)목적: 수천 개 유전자 중 유의미한 패턴 추출예시:질병 유전자 식별샘플..

데이터전처리 2025.04.14
반응형