반응형

2025/04 12

Autoencoder 특화 아키텍처

특화 Autoencoder 아키텍처 실무 구현 및 실험1. Variational Autoencoder (VAE)# ... (VAE 코드 참조)2. Denoising Autoencoder (DAE)# ... (DAE 코드 참조)3. Convolutional Autoencoder (CAE)# ... (CAE 코드 참조)4. MNIST 데이터셋 연동 예시 (CAE 기준)from torchvision import datasets, transformsfrom torch.utils.data import DataLoadertransform = transforms.Compose([ transforms.ToTensor(),])train_data = datasets.MNIST(root='./data', train=T..

카테고리 없음 2025.04.16

데이터 전처리 기법: Autoencoder를 활용한 차원 축소 및 특징 추출

Autoencoder를 활용한 차원 축소 및 특징 추출 1. 개념 Autoencoder는 입력 데이터를 압축한 뒤 다시 복원하는 비지도 신경망입니다. Encoder → Latent Space → Decoder 구조로 구성됩니다. ✅ 목표: 입력과 복원 데이터의 차이를 최소화하면서 중요한 특징만 추출하는 것 2. 적용 방법 목적설명 차원 축소고차원 데이터를 중요한 정보만 남기고 축소 특징 추출Encoder의 Latent Output을 새로운 Feature로 활용 3. 실무 코드 (PyTorch) import torchimport torch.nn as nnfrom torch.utils.data impor..

데이터전처리 2025.04.16

데이터 전처리 기법: Feature Scaling(모델별 스케일링 기법)

Feature Scaling 완벽 가이드 (AI 전문가용) 1. 정의 Feature Scaling은 다양한 범위를 가진 특성들을 공통된 스케일로 변환하는 전처리 과정입니다. 2. 주요 목적 경사하강법 기반 모델 수렴 속도 향상 거리 기반 모델 정확도 향상 피처 우선순위 왜곡 방지 PCA/LDA 같은 기법의 전처리 3. 주요 기법 기법수식설명예시 Min-Max Scaling(x - min) / (max - min)0~1 범위로 조정이미지 픽셀 Standard Scaling(x - 평균) / 표준편차평균 0, 분산 1선형 회귀 Robust Scaling(x - Q2)..

카테고리 없음 2025.04.16

데이터 전처리 기법: 이미지 특징 추출

📷 CNN을 활용한 이미지 특징 추출 완전 정복안녕하세요! 오늘은 인공지능에서 이미지 데이터를 처리할 때 핵심 기술인 CNN 기반 이미지 특징 추출에 대해 정리해보려고 합니다. 딥러닝 입문자부터 실무 개발자까지 이해할 수 있도록 이론, 구조, 실무 코드까지 모두 소개하겠습니다.1. 이미지 특징 추출이란?이미지는 수많은 픽셀로 구성된 고차원 데이터입니다. 이 데이터를 압축하고 의미 있는 정보(선, 모양, 질감 등)만 추출해서 벡터(특징 벡터)로 표현하는 과정이 특징 추출입니다. 머신러닝/딥러닝 모델의 입력으로 쓰기 위해 반드시 필요합니다.2. 이미지 특징 추출 방법 종류전통적인 방법: SIFT, HOG, SURF 등딥러닝 기반 방법 (CNN)3. CNN(Convolutional Neural Network..

카테고리 없음 2025.04.16

데이터 전처리 기법: >TF-IDF와 Word2Vec 경험 기반 완전 정리

📝 자연어처리 실무 회고록: TF-IDF와 Word2Vec 정복기안녕하세요! 오늘은 제가 실제 텍스트 분류 프로젝트에서 사용한 TF-IDF와 Word2Vec에 대해 정리해보려 합니다. 처음 자연어처리를 시작할 때 막막했던 기억이 있어, 같은 길을 걷는 분들께 조금이나마 도움이 되길 바라며 이 글을 씁니다.1. 텍스트 데이터 벡터화란?텍스트는 숫자가 아니기 때문에 머신러닝 모델이 직접 처리할 수 없습니다. 따라서 단어 또는 문장을 벡터로 표현하는 작업이 필요합니다. 이때 사용하는 대표적인 기법이 바로 TF-IDF와 Word2Vec입니다.2. 종류 TF-IDF (Term Frequency-Inverse Document Frequency) Word2Vec (단어 임베딩) CBOW (Con..

카테고리 없음 2025.04.16

데이터 전처리 기법: Feature Interaction 완전 가이드

🧠 Feature Interaction 완전 정복: 변수 간 곱, 합 활용1. 개념Feature Interaction은 둘 이상의 변수 간의 곱(multiplicative), 합(additive) 등을 통해 새로운 의미 있는 피처를 생성하는 전처리 기법입니다.2. 원리기존의 독립적인 변수들이 결합되면 모델이 학습하기 어려운 패턴을 더 잘 표현할 수 있게 됩니다.예: 매출 = 가격 × 수량3. 사용 방법df['A_B_mul'] = df['A'] * df['B']df['A_B_add'] = df['A'] + df['B']4. 사용 시기모델 성능이 더 이상 개선되지 않을 때변수 간 상호작용이 의미가 있을 때 (도메인 지식 활용)트리 기반 모델 또는 DNN 사용 시5. 기대 효과모델 성능 향상 (정확도, AU..

데이터전처리 2025.04.16

데이터 전처리 기법: 고유값 분해

​🎲 고유값 분해는 뭐냐면…수학 문제 속에 숨은 비밀 지도를 찾는 거예요!우리가 정사각형 표처럼 생긴 수들의 모음을 "행렬(matrix)"이라고 부르는데요, 이 행렬은 마치 여러 방향으로 물건을 회전하거나 늘리고 줄이는 기계 같아요.🎡 예를 들어서 생각해보자!상상해봐요:원판 위에 여러 개의 점들이 있고,어떤 마법 기계를 돌리면, 이 점들이 특정 방향으로 길게 늘어지거나 짧아져요.그런데 신기하게도, 어떤 특정한 방향으로는 점들이 오직 길어지거나 짧아지기만 하고, 방향은 안 바뀌어요!👉 이때 그 방향을 "고유벡터"라고 부르고👉 얼마나 길어졌는지를 나타내는 숫자를 "고유값"이라고 불러요!🎯 고유값 분해는 이걸 찾는 거예요!어떤 행렬이 있다면,"이 행렬은 어떤 방향으로는 그냥 길어지거나 짧아지기만 할까..

데이터전처리 2025.04.14

데이터 전처리 기법: PCA 차원 축소 -01

PCA 개념과 특성🟦 PCA (주성분 분석) ✅ 1. 개념PCA는 고차원의 데이터를 저차원으로 축소하는 차원 축소 기법입니다. 데이터의 분산(정보량)이 가장 큰 방향을 주성분으로 찾아 새로운 축으로 데이터를 표현합니다.✅ 2. 원리공분산 행렬을 계산하여 데이터가 가장 많이 퍼진 방향(분산이 큰 방향)을 찾음고유값 분해 또는 SVD(Singular Value Decomposition)를 사용하여 주성분 축을 구함 (고유값 분해에 대한 자세한 설명은 데이터 전처리 기법 -33에서 참조)데이터를 이 주성분 방향으로 투영하여 차원을 축소✅ 3. 수식✅ 4. 사용 시기변수 간 상관관계가 높을 때시각화를 위해 2D 또는 3D로 차원을 줄일 때노이즈 제거 및 데이터 압축이 필요할 때✅ 5. 예시 코드 (Pytho..

카테고리 없음 2025.04.14

데이터 전처리 기법: PCA 차원 축소 -02

PCA 응용분야(그림: ChatGPT4o 생성)아래에 PCA(주성분 분석)의 주요 응용 분야, 역할, 그리고 사용 이유 및 장점을 상세히 정리해드릴게요.​📌 PCA의 응용 분야 (Applications of PCA)1. 📊 데이터 시각화목적: 고차원 데이터를 2D 또는 3D로 줄여 그래프로 시각화예시:이미지 데이터 시각화 (예: MNIST 손글씨)텍스트 임베딩의 군집 형태 확인​2. 🧠 머신러닝 전처리목적: 모델 훈련 전 차원을 줄여 과적합 방지 및 속도 향상예시:SVM, k-NN 등 거리 기반 알고리즘의 성능 개선다중공선성 제거 (Multicollinearity 해결)​3. 🧬 유전자 데이터 분석 (Bioinformatics)목적: 수천 개 유전자 중 유의미한 패턴 추출예시:질병 유전자 식별샘플..

데이터전처리 2025.04.14
반응형