본문 바로가기
Python

[pandas] dropna : missing value 처리 (삭제)

by ds31x 2024. 1. 9.

nanot available 로서 값이 비어있거나 숫자가 아니거나(nan: not a number) 등등으로
특정 cell에 값이 유효하지 않아 사실상 비어있는 경우를 의미함.


dropnana값을 가지고 있는 row나 column을 제거하는데 사용된다.

  • axis 라는 parameter 의 값이 0 이면 row 를 1 이면 column 을 제거.
  • how 라는 parameter 의 값이
    • 'any' 로 주어지면 하나라도 na 가 존재하면 행 또는 열에 drop(제거)이 이루어지며,
    • 'all' 인 경우엔 해당 행 또는 열이 모두 na 로 구성될 경우에 삭제됨.
  • 행을 지우는데 특정 column에서 na 의 존재하는 경우에만 지워지게(drop) 하려면,
    subset 이라는 parameter에 na 를 점검하는 columns 로 구성된 list 를 할당하면 됨.

다음 예를 살펴볼 것.

import pandas as pd

# 데이터프레임 생성
data = {'Name': ['Anna', 'Bob', 'Charlie'],
        'Age': [24, None, 30],
        'City': ['New York', 'Los Angeles', None]}
df = pd.DataFrame(data)

a = df.dropna(subset=['City'])
b = df.dropna()
728x90