본문 바로가기
카테고리 없음

[ML] Exploratory Data Analysis (EDA)

by ds31x 2024. 5. 18.

Exploratory Data Analysis (탐색적 데이터 분석, EDA)

  • EDA(탐색적 데이터 분석)은 실험 또는 데이터 프로젝트에서 데이터를 분석하는 첫 번째 단계임.
  • EDA를 통해 분석가들은 데이터를 이해하고, 가설을 세움
  • EDA를 통해 더 정형화된 분석 방법으로 넘어가기 전에 주어진 가정을 확인.

탐색적 데이터 분석(EDA)의 주요 구성 요소

  1. Descriptive Statistics (기술 통계) :
    • Measures of Central Tendency(중심 경향의 척도: mean, median, mode).
    • Measures of Dispersion(분산 척도: variance, std, range, interquatile range).
    • Skewness(왜도)와 Kurtosis(첨도).
  2. Data Visualization (데이터 시각화):
    • Histogram (히스토그램): 데이터의 분포를 확인.
    • Box Plots (박스 플롯): outlier(이상치)와 spread of data를 확인.
    • Scatter plots(산점도): 변수 간의 correlation(상관관계)를 검색.
    • Bar Charts(막대 그래프) 및 Pie Charts(파이 차트): Categorical Data(범주형 데이터)에 적용.
  3. Data Quality Assessment (데이터 품질 평가):
    • Missing Values(결측치) 확인.
    • 데이터의 오류나 이상치 식별.
    • 각 변수의 데이터 유형 평가(예: numerical, categorical).
  4. Colleation Analysis (상관 분석):
    • 변수 간의 관계 확인.
    • 상관 계수를 사용하여 (선형적) 상관관계의 정도를 정량화합니다.
  5. Initial Data Preparation (~Data Preporcessing):
    • Data clearning(handling missing values, removing duplicates).
    • Data transformation(normalization, scaling).
    • Feature Engineering (and/or Feature Selection).

EDA의 목적

EDA의 주요 목표는 다음과 같음:

  • 데이터 세트에 대한 insight(통찰력)을 극대화.
  • Underlying structure(기저 구조)를 발견.
  • Important factors (~independent variables)중요 변수를 추출.
  • outliers 및  anomalies 을 검출.
  • Test underlying assumptions.