데이터 전처리 기법: 이미지 특징 추출

8353cc 2025. 4. 16. 10:09

2025. 4. 16. 10:09

728x90

SMALL

📷 CNN을 활용한 이미지 특징 추출 완전 정복

안녕하세요! 오늘은 인공지능에서 이미지 데이터를 처리할 때 핵심 기술인 CNN 기반 이미지 특징 추출에 대해 정리해보려고 합니다. 딥러닝 입문자부터 실무 개발자까지 이해할 수 있도록 이론, 구조, 실무 코드까지 모두 소개하겠습니다.

1. 이미지 특징 추출이란?

이미지는 수많은 픽셀로 구성된 고차원 데이터입니다. 이 데이터를 압축하고 의미 있는 정보(선, 모양, 질감 등)만 추출해서 벡터(특징 벡터)로 표현하는 과정이 특징 추출입니다. 머신러닝/딥러닝 모델의 입력으로 쓰기 위해 반드시 필요합니다.

2. 이미지 특징 추출 방법 종류

전통적인 방법: SIFT, HOG, SURF 등
딥러닝 기반 방법 (CNN)

3. CNN(Convolutional Neural Network)의 개념

CNN은 이미지 처리에 특화된 구조로, 이미지에서 공간적 패턴(엣지, 모서리, 패턴 등)을 자동으로 학습합니다. Conv Layer와 Pooling Layer를 반복하며 점점 추상적인 특징을 뽑아냅니다.

4. CNN 기반 특징 추출 방법의 종류 및 정의

구분	정의	특성
1. ConvNet 직접 구성	Conv2D와 Pooling 레이어로 직접 구조 설계	유연하나 많은 학습 데이터 필요
2. 사전학습 모델 전이학습	ResNet, VGG 등 기존 모델에서 중간층 추출	적은 데이터로도 우수한 성능
3. Feature Extractor로 CNN만 사용	Fully connected layer 제거, conv feature만 추출	분류 대신 특징 벡터만 사용

5. 실무 예제: 사전학습된 ResNet을 활용한 특징 추출

from torchvision import models, transforms
from PIL import Image
import torch
import numpy as np

# 1. 이미지 전처리
transform = transforms.Compose([
    transforms.Resize((224, 224)),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406],
                         std=[0.229, 0.224, 0.225])
])

# 2. 이미지 불러오기
img = Image.open("cat.jpg").convert("RGB")
img_tensor = transform(img).unsqueeze(0)  # 배치 차원 추가

# 3. 모델 로딩 및 특징 추출 (fc 제거)
resnet = models.resnet50(pretrained=True)
feature_extractor = torch.nn.Sequential(*list(resnet.children())[:-1])
feature_extractor.eval()

# 4. 특징 벡터 추출
with torch.no_grad():
    features = feature_extractor(img_tensor)
    features = features.view(features.size(0), -1)  # Flatten
    print("특징 벡터 shape:", features.shape)

6. CNN 특징 추출 방식별 장단점

방법	장점	단점
직접 구성	자유로운 설계, 도메인 맞춤 가능	많은 데이터와 시간 필요
사전학습 모델	빠른 적용, 소량 데이터로 가능	유연성 부족, 모델 크기 큼
Conv layer만 사용	특징 추출에 최적, 다운스트림에 활용 쉬움	분류기 직접 설계 필요

7. 기타 실무 팁

❗ 데이터 정규화: 반드시 학습된 모델에 맞는 평균/표준편차 사용
📦 특징 벡터 저장: 벡터를 .npy 등으로 저장 후 별도 분석 추천
🧠 클러스터링, 유사도 분석: 추출된 벡터로 군집화나 검색 시스템 구현 가능
💡 시각화 도구: t-SNE, PCA 등으로 벡터 분포를 시각화하면 유용함

8. 마무리

CNN은 이미지 데이터를 다룰 때 가장 강력한 도구입니다. 단순한 분류를 넘어서, CNN의 중간 출력값(특징 벡터)을 활용하면 추천 시스템, 검색 엔진, 군집화, 이상탐지 등 다양한 영역으로 확장할 수 있습니다.

오늘 소개한 코드는 실제 프로젝트에서도 그대로 사용할 수 있으며, 다양한 사전학습 모델을 활용해 더 넓은 작업에 응용할 수 있습니다. 다음 글에서는 추출한 특징 벡터를 활용한 유사 이미지 검색 시스템도 다뤄볼게요!