"ETL Tools" 에서 ETL은
- Extract,
- Transform,
- Load
의 약자로, 데이터를 다루는 세 가지 주요 과정을 의미함.
이들은 대규모 데이터를 다루는데 사용되는 Tool로써 다음과 같은 세가지 과정을 효과적으로 수행할 수 있게 해주는 도구를 가르킴.
- Extract (추출):
- 데이터를 원본 소스(예: 데이터베이스, CRM 시스템, 파일 등)에서 가져오는 과정.
- 이 과정에서 다양한 형식과 구조를 가진 데이터를 수집.
- Transform (변환):
- 추출된 데이터를 필요에 맞게 변환하는 과정.
- 데이터를 정제, 표준화, 결합, 분리 등의 작업을 통해 분석 가능한 형태로 만.
- 이는 데이터의 품질을 향상시키고, 분석에 적합하게 데이터를 조정하는 과정을 포함.
- Load (로드):
- 변환된 데이터를 최종적인 목적지에 저장하는 과정입니다.
- 데이터가 저장된 후에는 분석, 보고, 의사 결정 지원 등 다양한 목적으로 사용될 수 있습니다.
- Pandas를 예로 든다면, ETL을 수행하고 python의 기계학습 또는 딥러닝 작업에 사용할 수 있도록 딥러닝 시스템에 로드를 시키는 것이라고 볼 수 있음.
ETL 도구는 이 세 과정을 자동화하여 데이터 관리를 용이하게 하며, 대규모의 복잡한 데이터 세트를 효과적으로 처리할 수 있도록 도와줌. 즉, ETL Tool은 다양한 데이터 중심 작업에서 핵심적인 역할을 함.
ETL 프로세스의 Load 단계는 실제로
데이터를 최종 목적지 저장소에 '로딩'하는 과정을 의미.
이 단계에서는 이미 '추출'하고 '변환'한 데이터를
대상 시스템이나 저장소에 영구적으로 '로드'시키는 것으로
대상 시스템이나 저장소에서 다룰 수 있도록 저장하는 것이라고 본다.
References
https://www.ibm.com/kr-ko/topics/etl
'Python' 카테고리의 다른 글
[pandas] merge 예제. (0) | 2024.01.12 |
---|---|
[pandas] DataFrame 합치기 : concat 과 merge (0) | 2024.01.12 |
[pandas] dropna : missing value 처리 (삭제) (0) | 2024.01.09 |
[pandas] Column (or rows) 제거하기 (0) | 2024.01.09 |
[Term] Agile Programming Language : Agile Development (=Programming) (0) | 2024.01.06 |