본문 바로가기
Python

[Term] ETL Tools

by ds31x 2024. 1. 10.

"ETL Tools" 에서 ETL은

  • Extract,
  • Transform,
  • Load

의 약자로, 데이터를 다루는 세 가지 주요 과정을 의미함.

 

이들은 대규모 데이터를 다루는데 사용되는 Tool로써 다음과 같은 세가지 과정을 효과적으로 수행할 수 있게 해주는 도구를 가르킴.

  1. Extract (추출):
    • 데이터를 원본 소스(예: 데이터베이스, CRM 시스템, 파일 등)에서 가져오는 과정.
    • 이 과정에서 다양한 형식과 구조를 가진 데이터를 수집.
  2. Transform (변환):
    • 추출된 데이터를 필요에 맞게 변환하는 과정.
    • 데이터를 정제, 표준화, 결합, 분리 등의 작업을 통해 분석 가능한 형태로 만.
    • 이는 데이터의 품질을 향상시키고, 분석에 적합하게 데이터를 조정하는 과정을 포함.
  3. Load (로드):
    • 변환된 데이터를 최종적인 목적지에 저장하는 과정입니다.
    • 데이터가 저장된 후에는 분석, 보고, 의사 결정 지원 등 다양한 목적으로 사용될 수 있습니다.
    • Pandas를 예로 든다면, ETL을 수행하고 python의 기계학습 또는 딥러닝 작업에 사용할 수 있도록 딥러닝 시스템에 로드를 시키는 것이라고 볼 수 있음.

ETL 도구는 이 세 과정을 자동화하여 데이터 관리를 용이하게 하며, 대규모의 복잡한 데이터 세트를 효과적으로 처리할 수 있도록 도와줌. 즉, ETL Tool은 다양한 데이터 중심 작업에서 핵심적인 역할을 함.

ETL 프로세스의 Load 단계는 실제로
데이터를 최종 목적지 저장소에 '로딩'하는 과정을 의미.
이 단계에서는 이미 '추출'하고 '변환'한 데이터를
대상 시스템이나 저장소에 영구적으로 '로드'시키는 것으로
대상 시스템이나 저장소에서 다룰 수 있도록 저장하는 것이라고 본다.

 

References

https://www.ibm.com/kr-ko/topics/etl

 

ETL(Extract, Transform, Load)이란? | IBM

ETL은 다양한 소스에서 데이터를 추출, 변환하고 이를 데이터 웨어하우스 또는 기타 통합 데이터 저장소에 로드하는 프로세스입니다.

www.ibm.com