Exploratory Data Analysis (탐색적 데이터 분석, EDA)
- EDA(탐색적 데이터 분석)은 실험 또는 데이터 프로젝트에서 데이터를 분석하는 첫 번째 단계임.
- EDA를 통해 분석가들은 데이터를 이해하고, 가설을 세움
- EDA를 통해 더 정형화된 분석 방법으로 넘어가기 전에 주어진 가정을 확인.
탐색적 데이터 분석(EDA)의 주요 구성 요소
- Descriptive Statistics (기술 통계) :
- Measures of Central Tendency(중심 경향의 척도: mean, median, mode).
- Measures of Dispersion(분산 척도: variance, std, range, interquatile range).
- Skewness(왜도)와 Kurtosis(첨도).
- Data Visualization (데이터 시각화):
- Histogram (히스토그램): 데이터의 분포를 확인.
- Box Plots (박스 플롯): outlier(이상치)와 spread of data를 확인.
- Scatter plots(산점도): 변수 간의 correlation(상관관계)를 검색.
- Bar Charts(막대 그래프) 및 Pie Charts(파이 차트): Categorical Data(범주형 데이터)에 적용.
- Data Quality Assessment (데이터 품질 평가):
- Missing Values(결측치) 확인.
- 데이터의 오류나 이상치 식별.
- 각 변수의 데이터 유형 평가(예: numerical, categorical).
- Colleation Analysis (상관 분석):
- 변수 간의 관계 확인.
- 상관 계수를 사용하여 (선형적) 상관관계의 정도를 정량화합니다.
- Initial Data Preparation (~Data Preporcessing):
- Data clearning(handling missing values, removing duplicates).
- Data transformation(normalization, scaling).
- Feature Engineering (and/or Feature Selection).
EDA의 목적
EDA의 주요 목표는 다음과 같음:
- 데이터 세트에 대한 insight(통찰력)을 극대화.
- Underlying structure(기저 구조)를 발견.
- Important factors (~independent variables)중요 변수를 추출.
- outliers 및 anomalies 을 검출.
- Test underlying assumptions.