본문 바로가기
CE

[DL] GPU Acceleration 기술 소개

by ds31x 2025. 2. 28.

1. 대표적 GPU 가속 기술

현재 가장 많이 사용되고 있는 GPU기반의 가속기술은 다음과 같음:

  • Compute Unified Device Architecture (CUDA): NVIDIA
  • Metal Performance Shaders (MPS): Apple
  • Radeon Open Compute (ROCm): AMD
  • Direct Machine Learning (DirectML): Microsoft

Deep Learning에서 가장 많이 애용되고 있는 Framework는 바로 PyTorch와 TensorFlow임.
이들에서 위의 가속기술의 지원과 이들 기술 비교는 다음과 같음.


2. 주요 GPU 가속기술 개요

기술 제조사 등장
연도
현재
버전
PyTorch
지원
TensorFlow
지원
지원 환경 선호도
활용도
CUDA NVIDIA 2007년 12.8
(2025년)
2016년부터
완벽 지원
2015년부터
완벽 지원
Win, Linux,
macOS (~2020)
1위
ROCm AMD 2016년 6.3
(2025년)
2020년부터
제한적
2020년부터
제한적
Linux 중심,
Win (5.5+, 2023년~)
2위
MPS Apple 2016년 Metal 3.1
(2025년)
2022년(1.12+)
거의 완벽
제한적 Apple Silicon,
macOS
3위
DirectML Microsoft 2019년 1.15.2
(2025년)
비공식
(플러그인)
비공식
(플러그인)
Win 4위

3. GPU 가속기술별 상세 특징 및 발전 과정

3-1. CUDA (Compute Unified Device Architecture)

  • 강점:
    • 가장 성숙한 생태계와 최적화된 성능 제공
    • 방대한 라이브러리와 완벽한 문서화
    • 대규모 커뮤니티 지원
    • 딥러닝 프레임워크의 사실상 표준 기술로 자리매김
  • 한계:
    • NVIDIA GPU에서만 작동
    • 비공개 소프트웨어
  • 발전 과정:
    • 2007년 최초 등장으로 GPU 컴퓨팅의 선구자 역할
    • 딥러닝 프레임워크 초기부터 기본 가속 기술로 채택
  • 공식 사이트: https://developer.nvidia.com/cuda-toolkit

3-2. ROCm (Radeon Open Compute)

  • 강점:
    • 오픈소스 플랫폼
    • 비용 효율성
    • HPC 환경 최적화
    • CUDA의 주요 대안으로 성장 중
  • 한계:
    • 제한적인 지원 기능
    • AMD GPU만 지원 (Open Source이므로 확대가 기대되나 아직 다른 GPU에서 지원되는 경우 없음)
    • 생태계가 CUDA보다 덜 성숙함 (어떤 기술도 CUDA보다 성숙한 생태계 존재하지 않음)
  • 발전 과정:
    • 2016년 오픈소스 GPU 컴퓨팅 플랫폼으로 등장
    • 2020년 주요 딥러닝 프레임워크 지원 시작
    • 2023년(ROCm 5.5)부터 Windows 환경 제한적 지원 추가
  • 공식 사이트: https://www.amd.com/en/graphics/servers-solutions-rocm

3-3. MPS (Metal Performance Shaders)

  • 강점:
    • Apple 하드웨어에 최적화
    • 높은 전력 효율성
    • Apple Silicon에 한정되나 매우 뛰어난 성능과 지원을 보임.
  • 한계:
    • Apple 기기에서만 사용 가능
    • 일부 고급 기능 제한 (하지만, CUDA를 제외하면 가장 많은 기능을 지원)
  • 발전 과정:
    • 2016년 Metal Performance Shaders 기술 도입
    • 2022년 PyTorch 1.12부터 MPS 백엔드 공식 지원
    • Apple Silicon 환경에서 빠르게 발전 중 - 개인용과 같은 소규모 장비 위주
  • 공식 사이트: https://developer.apple.com/metal/

3-4. DirectML (Direct Machine Learning)

  • 강점:
    • 다양한 GPU 하드웨어(NVIDIA, AMD, Intel) 지원
    • Windows 환경과의 통합
  • 한계:
    • 공식 프레임워크에 통합 부족. (공식 지원이 아닌 MS가 단독으로 제공 중)
    • 최적화 수준이 상대적으로 낮음.
    • 지원되는 하드웨어의 다양성과 달리, MS만 밀고 있는 제한된 생태계가 단점.
  • 발전 과정:
    • 2019년 다양한 GPU 지원을 위해 등장
    • 2020년 별도 플러그인을 통해 딥러닝 프레임워크 비공식 지원
    • Windows 환경에서 제한적으로 사용
  • 공식 사이트: https://github.com/microsoft/DirectML

4. 업계 현황 및 전망

  • CUDA는 여전히 업계 표준으로 연구, 기업, 클라우드 환경에서 가장 널리 사용됨
  • ROCm은 오픈소스 대안으로 부상 중이며, 특히 HPC 및 비용 효율적인 솔루션을 찾는 조직에서 관심 증가
  • MPS는 Apple 생태계 내에서 빠르게 발전하며 개인 개발자와 소규모 팀에서 활용 증가
  • DirectML은 Windows 기반 소규모 머신러닝 프로젝트에서 제한적으로 사용
  • 위의 GPU 가속 기술은 병렬 컴퓨팅 능력을 활용한 고성능 계산에 초점을 맞추고 있음

같이 보면 좋은 자료들

https://dsaint31.me/mkdocs_site/CE/colab/gpu/

 

BME

Colab: GPU 사용하기 런타임 → 런타임 유형 변경 → 하드웨어 가속기를 GPU로 변경 유의사항 – GPU는 최대 12시간 실행을 지원 12시간 실행 이후에는 런타임 재시작으로 VM을 교체해야 함 GPU가속을

dsaint31.me