본업개발

Vision AI의 변천사 : 이미지 처리 AI 모델의 발전

githerb 2025. 2. 24. 22:24

 

안녕하세요, 요즘 AI가 여러 분야에서 주목을 받고 있습니다. 

AI 개발을 하면서 제가 대학교부터 공부했던 Vision AI들을 생각해보니, 뭔가 변천사도 있고 트렌드 및 미래 방향성을 조금 정리해 봤습니다. 

 

길더라도 거대한 Vision AI를 조금이나마 이해가 쉬워졌으면 좋겠습니다. 

 

 

제가 공부하면서 느꼈던 개인적인 의견으로 참고만 하세요

 

1. 딥러닝과 학습의 시초

Vision AI의 역사는 딥러닝과 신경망의 발전과 함께 시작되었습니다. 초기에는 전통적인 머신러닝 기법을 사용해 이미지의 특징을 추출하고 분류했지만, 인공신경망(ANN)의 발전과 함께 딥러닝 기반 학습 방법이 도입되었습니다.

딥러닝 이전: 전통적인 이미지 인식 기법

초기의 Vision AI는 SIFT(Scale-Invariant Feature Transform), HOG(Histogram of Oriented Gradients) 등의 전통적인 특징 추출 기법을 사용하여 이미지를 분석했습니다. 이러한 기법들은 사전에 정의된 알고리즘을 기반으로 이미지의 특정 패턴을 찾았지만, 복잡한 이미지 데이터에서는 한계를 보였습니다.

신경망과 데이터셋의 등장

1980~90년대, 인공신경망(ANN)이 연구되었지만, 당시에는 데이터가 부족하고 연산 성능이 제한적이어서 큰 발전이 없었습니다. 그러나 2000년대 이후, 대량의 데이터셋과 GPU 성능의 향상으로 인해 딥러닝이 실용화되기 시작했습니다.

초기의 Vision AI 모델들은 손글씨 숫자 데이터셋(MNIST) 같은 간단한 데이터로 학습되었습니다. MNIST는 흑백 숫자 이미지(28x28 크기)를 포함하며, 신경망이 이미지 패턴을 인식하고 숫자를 분류하는 데 사용되었습니다. 이후, 더욱 복잡한 CIFAR-10, ImageNet 등의 대규모 데이터셋이 등장하면서 신경망 모델도 더욱 발전하게 됩니다.

딥러닝의 부흥: ImageNet의 등장

2009년, ImageNet 데이터셋이 공개되면서 본격적인 Vision AI 연구가 시작되었습니다. ImageNet은 1000개 이상의 객체 클래스를 포함한 수백만 개의 이미지로 구성된 대규모 데이터셋으로, 딥러닝 모델이 실질적인 이미지 인식 성능을 평가하는 데 사용되었습니다. 이후 ImageNet 챌린지(ILSVRC)가 열리면서 Vision AI 모델들이 급격히 발전하기 시작했습니다.


2. 이미지 이해를 위한 CNN의 등장

기존의 신경망은 이미지 데이터를 다루는 데 한계가 있었습니다. 이를 극복하기 위해 Convolutional Neural Network(CNN)가 등장했습니다.

CNN의 핵심 원리:

  • 합성곱(Convolutional) 연산을 사용해 이미지의 특징을 추출
  • 풀링(Pooling)을 이용해 불필요한 정보를 줄이고 연산량 감소
  • 심층 네트워크(Deep Network) 구조를 통해 복잡한 패턴 학습 가능

 

AI를 공부했던 사람이라면 수천번을 봤을법한 그림

 

 

 

CNN은 이미지의 공간적 구조를 보존하면서 학습할 수 있어, 기존 Fully Connected Neural Network보다 훨씬 더 강력한 성능을 보였습니다.


3. AlexNet: CNN 시대의 시작

2012년 ImageNet 대회(ILSVRC)에서 AlexNet이 등장하며 Vision AI의 성능이 획기적으로 향상되었습니다.

AlexNet의 특징:

  • 깊은 CNN 구조(8개의 레이어)
  • ReLU 활성화 함수 사용으로 학습 속도 개선
  • Dropout 기법으로 과적합 방지
  • GPU를 이용한 학습을 최초로 시도하여 대규모 데이터셋을 학습 가능하게 함

AlexNet의 등장으로 Vision AI는 본격적으로 딥러닝 기반으로 발전하기 시작했습니다.

 

Alexnet,아주 기본적인 CNN

 


4. VGGNet: 단순하지만 강력한 모델

2014년, VGGNet이 등장하며 CNN 모델의 설계 방식이 더욱 정교해졌습니다.

VGGNet의 특징:

  • 3x3 합성곱 필터를 반복적으로 사용해 깊이 있는 모델 설계
  • 단순한 구조이지만 성능이 뛰어나며, 이후 여러 CNN 모델의 기본 구조로 활용됨
  • 대량의 파라미터를 가짐으로써 연산량이 크지만, 뛰어난 일반화 성능을 보여줌

VGGNet은 이후 ResNet과 같은 더 발전된 모델들의 기초적인 CNN 구조로 널리 사용됩니다.

 

VGGNet-16, 단순하지만 깊게 만들어서 높은 성능을 만들 수 있음을 알려줬다

 

ResNet: 딥러닝의 새로운 패러다임

2015년, ResNet(Residual Network)이 등장하면서 딥러닝 모델이 한층 더 발전하게 됩니다.

ResNet의 핵심 개념:

  • Residual Learning(잔차 학습)을 도입하여 매우 깊은 신경망에서도 학습이 가능하게 함
  • Skip Connection(단축 연결)을 활용하여 기울기 소실(Vanishing Gradient) 문제 해결
  • 50, 101, 152 등 다양한 깊이의 버전이 있으며, 기존 모델보다 뛰어난 성능을 보임

ResNet의 등장 이후, 딥러닝 모델들은 점점 더 깊고 강력한 구조로 발전하며, 다양한 분야에서 사용되기 시작했습니다.

 

 

아주아주 깊게 만들어도 학습이 가능한 Skip Connection

 


5. Vision AI의 다양한 분야

 

이전까지는 데이터셋 종류로 인해 Vision AI의 문제가 Classification 이 많았지만, 점차 Vision AI가 발전하면서 다양한 문제 해결을 위한 모델이 만들어지기 시작합니다. 

  • Image Classification: 입력 이미지가 어떤 클래스에 속하는지 분류 (예: AlexNet, VGGNet)
  • Image Segmentation: 이미지 내 각 픽셀 단위로 분할 (예: U-Net, DeepLab)
  • Object Detection: 이미지에서 여러 객체를 찾고 위치를 탐지 (예: YOLO, Faster R-CNN)
  • Image Restoration: 손상된 이미지를 복원 (예: DnCNN, Restormer)
  • Super Resolution: 저해상도 이미지를 고해상도로 변환 (예: SRGAN, ESRGAN)
  • 기타: Face Recognition, Style Transfer, Scene Understanding 등

6. 각 분야에서 커다란 업적을 이룬 모델들

  • Object Detection: Faster R-CNN, YOLO, SSD
  • Image Segmentation: U-Net, DeepLab, Mask R-CNN
  • Super Resolution: SRGAN, ESRGAN
  • Image Classification: ResNet, EfficientNet

이들 모델은 각각의 Vision AI 분야에서 뛰어난 성과를 보이며 기술 발전을 이끌었습니다.


7. Transformer와 Attention: "Attention is all you need"

 

2017년, "Attention is All You Need" 논문이 등장하면서 Transformer 모델이 NLP 분야를 혁신적으로 변화시켰습니다.

이 구조는 전세계를 놀라게 만든 GPT의 시초가 되는 모델입니다. 

 

 

Transformer의 핵심 요소:

  • Self-Attention Mechanism: 문장의 각 단어가 다른 단어들과의 관계를 학습
  • Multi-Head Attention: 다양한 표현 학습 가능
  • Feed Forward Network: 학습된 정보를 최적화하여 변환

이제 이 기술이 Vision AI에도 적용되기 시작합니다.

 

수백번 봤을 법한 Transformer 모델 구조


8. ViT(Vision Transformer): Attention을 Vision AI에 적용

2020년, Google은 "ViT(Vision Transformer)" 논문을 발표하며 이미지 처리에 Transformer를 적용했습니다.

ViT의 핵심 아이디어:

  • 이미지를 작은 패치(Patch) 단위로 분할하여 Transformer 모델로 학습
  • CNN 없이 Self-Attention을 통해 장거리 의존성을 학습
  • 기존 CNN보다 더 적은 데이터로도 높은 성능을 달성 가능

ViT의 성공으로 Vision AI 분야에서도 Transformer 기반 모델들이 점점 더 도입되고 있습니다.

 

Patch + Position Embedding된 encoder를 통해 성능을 좋게


9. Transformer 기반 Vision 모델을 위한 인코딩 연구

Transformer를 이미지 모델에 적용하기 위해 다양한 인코딩 방법이 연구되었습니다. 대표적인 논문 중 하나는 "Data-efficient Image Transformers (DeiT)"입니다.

DeiT (Data-efficient Image Transformer)

  • Facebook AI Research (FAIR)에서 발표한 모델로, 적은 데이터로도 효율적인 Vision Transformer 학습을 목표로 함
  • Distillation (지식 증류) 기법을 사용하여 CNN 기반 모델과 함께 훈련 가능
  • 기존 ViT 모델보다 더 빠르고 효율적인 학습이 가능

또한, CNN과 Transformer를 결합한 Swin Transformer 역시 이미지 인코딩 방법을 개선한 중요한 연구 중 하나입니다.

Swin Transformer

  • Hierarchical Feature Learning (계층적 특징 학습)을 도입하여 다중 해상도 정보 활용
  • 기존 Transformer 모델보다 연산량이 적고 성능이 뛰어남
  • Object Detection, Image Segmentation 등의 다양한 Vision AI 분야에서 뛰어난 성능을 기록

이러한 연구들은 Transformer가 Vision AI에서 CNN을 대체할 수 있도록 도와주는 중요한 역할을 했습니다.


 

10. Vision AI의 미래: Transformer와 Attention의 결합

 

현재 Vision AI는 점점 더 Transformer 기반의 Attention 모델을 활용하고 있습니다. 초기에는 CNN 기반 모델이 주를 이루었지만, ViT와 같은 혁신적인 모델들이 등장하면서 더 강력한 성능을 가진 하이브리드 모델들이 연구되고 있습니다.

 

이제 Vision AI는 이미지 분류를 넘어 다양한 문제를 해결하는 통합된 AI 모델로 발전하고 있으며, 앞으로도 더 효율적이고 정교한 모델들이 등장할 것입니다.

 

엄청난 양의 데이터를 통해 GPT를 학습시키듯이, 엄청난 양의 이미지 모델을 학습시킨다면 정말 인간보다 더 뛰어난 Vision AI가 생겨날 것 같습니다. 

 

 

 

정리 

 

  • Vision AI는 초기에는 SIFT와 HOG 같은 전통적인 특징 추출 기법을 사용했지만, 딥러닝과 신경망이 발전하면서 새로운 방식이 도입되었다.
  • 2000년대 이후 대량의 데이터와 GPU 발전으로 인해 딥러닝이 실용화되었고, ImageNet 데이터셋이 공개되면서 Vision AI 연구가 본격적으로 진행되었다.
  • CNN(Convolutional Neural Network)은 이미지의 공간적 구조를 유지하면서 특징을 추출하는 기법으로, 이미지 인식을 크게 발전시켰다.
  • 2012년 AlexNet이 등장하면서 CNN 기반 모델이 본격적으로 주류가 되었으며, GPU를 이용한 학습으로 뛰어난 성능을 보였다.
  • 2014년 VGGNet이 3x3 합성곱 필터를 사용하여 깊은 네트워크 구조를 설계하며 CNN 모델의 발전을 이끌었다.
  • 2015년 ResNet이 Skip Connection을 도입하여 기울기 소실 문제를 해결하며 더 깊은 신경망 학습을 가능하게 했다.
  • Vision AI는 이미지 분류뿐만 아니라 Object Detection, Image Segmentation, Image Restoration 등의 다양한 문제를 해결하는 방향으로 발전했다.
  • 2017년 Transformer 모델이 NLP에서 주목받으며, Attention 기반 학습 기법이 Vision AI에도 도입되기 시작했다.
  • 2020년 Vision Transformer(ViT)가 등장하면서 CNN 없이 Self-Attention을 활용한 이미지 인식 모델이 가능해졌다.
  • 현재 Vision AI는 Transformer 기반 모델과 CNN의 장점을 결합하는 방향으로 연구가 진행되며, 더 정교한 이미지 이해 모델들이 등장하고 있다.