na
는 not available 로서 값이 비어있거나 숫자가 아니거나(nan
: not a number) 등등으로
특정 cell에 값이 유효하지 않아 사실상 비어있는 경우를 의미함.
dropna
는 na
값을 가지고 있는 row나 column을 제거하는데 사용된다.
axis
라는 parameter 의 값이 0 이면 row 를 1 이면 column 을 제거.how
라는 parameter 의 값이'any'
로 주어지면 하나라도na
가 존재하면 행 또는 열에 drop(제거)이 이루어지며,'all'
인 경우엔 해당 행 또는 열이 모두na
로 구성될 경우에 삭제됨.
- 행을 지우는데 특정 column에서
na
의 존재하는 경우에만 지워지게(drop) 하려면,subset
이라는 parameter에na
를 점검하는 columns 로 구성된 list 를 할당하면 됨.
다음 예를 살펴볼 것.
import pandas as pd
# 데이터프레임 생성
data = {'Name': ['Anna', 'Bob', 'Charlie'],
'Age': [24, None, 30],
'City': ['New York', 'Los Angeles', None]}
df = pd.DataFrame(data)
a = df.dropna(subset=['City'])
b = df.dropna()
'Python' 카테고리의 다른 글
[pandas] DataFrame 합치기 : concat 과 merge (0) | 2024.01.12 |
---|---|
[Term] ETL Tools (0) | 2024.01.10 |
[pandas] Column (or rows) 제거하기 (0) | 2024.01.09 |
[Term] Agile Programming Language : Agile Development (=Programming) (0) | 2024.01.06 |
[Python] Debugging : Traceback, Stacktrace, Backtrace ... (0) | 2023.12.25 |