본문 바로가기
728x90
반응형

pandas31

[Pandas] Boolean Mask 와 where()/mask() Boolean Mask란:Boolean mask는 True 또는 False로 구성(=boolean)된 시퀀스(Series/DataFrame/ndarray/list) 객체를 이용하여 Pandas에서 특정 데이터를 선택하는 등의 마스킹(masking)을 하는 것을 가리킴.사용방식:Series mask :column 또는 row 필터링: 특정 condition(True/Flase로 치환되는 expression)을 통해 False가 되는 row 또는 column을 제거.Series mask 에서 반환값에는 NA 생성없음 (=제거됨).DataFrame mask :cell 마스킹에 사용됨.Boolean mask에서 False에 해당하는 위치의 cell의 값을 NA 로 치환NA로 치환되는 cell의 값은 실제로 반환.. 2025. 8. 28.
[Pandas] index 와 columns- 관련 메서드: rename(), set_index(), reset_index() DataFrame과 Series의 index, DataFrame의 columnsSeries.index, DataFrame.index, DataFrame.columns는 모두 pandas.Index 객체로, 각각 row labels 또는 column labels의 집합을 나타냄.이들은 immutable하여 개별 원소 수정은 불가능하지만,새로운 Index 객체로 전체 교체가 가능하며,집합 연산(union, intersection 등)등을 지원함.1. Series객체의 index 속성정의: Series의 row labels 를 담는 객체자료형: pandas.Index특징:immutable 성질을 가지므로 개별 원소 수정은 불가하지만 새로운 Index 객체로 전체 교체는 가능집합 연산 지원 (교집합, 합집합 등.. 2025. 8. 24.
[Pandas] melt() 메서드 DataFrame.melt()란?melt() 메서드는 스프레드시트와 같이 wide-form (or wide format) 로 정리된 데이터를 통계 분석이나 시각화에 적합한 long-form (or long format) 로 변환하는 데 사용.이 과정은마치 넓게 펼쳐진 시트를 녹여(melt)길쭉한 막대 모양으로 만드는 것과 유사하여해당 이름이 지어짐. 데이터 분석에서는 이 long form을 Tidy Data, Stacked Data 라고 부르기도 함. Wide format 과 Long format 에 대한 좀 더 자세한 건 다음을 참고:https://ds31x.tistory.com/521#4.-long-format-vs-wide-format-%EB%A7%8E%EC%9D%B4-%EC%93%B0%EC%9D%.. 2025. 8. 24.
[Pandas] missing value 확인: 결측치 확인 Pandas 는 missing value (정확하게는 NA) 여부를 확인하는 다음의 메서드를 지원:isnull()isna()Note:isnull() 과 isna()는 기능적으로 동일함: NumPy의 ndarray가 지원하는 isnan() 기반.Pandas 0.20.0 버전부터 isnull()의 별칭(alias)으로 isna()가 추가됨.결측치 타입Pandas는 NumPy의 ndarray에 기반을 두고 있기 때문에 float64의 실수 데이터의 경우 missing value를 np.nan으로 처리함.단, Pandas 1.0+ 에서 사용가능한 pd.NA ( __repr__()메서드로 라고 출력됨) 가 Pandas에서 일관된 결측치 처리에 보다 유용함.pd.NA는 Pandas의 확장 dtype인 (Int64,.. 2025. 8. 24.
[Pandas] unique(), value_counts(), nunique() 범주형(categorical) 데이터 전처리 상황에서 많이 사용되는 메서드들임. 종류가 적은 값을 가지는 데이터들을 분석하는데 주로 이용됨.unique(): 고유값 배열 반환.value_counts(): 고유값과 빈도 를 확인 가능케 함.nunique(): 고유값 개수를 반환.범주형 데이터에는 예상치 못한 값이 섞여 있을 수 있으므로 반드시 확인 후 Data Cleaning이 필요0. Create Sample DataFrame (샘플 DataFrame 생성)import pandas as pd# DataFrame 생성data = { "Name": ["Alice", "Bob", "Charlie", "Alice", "David", "Bob"], "Gender": ["Female", "Male", ".. 2025. 8. 23.
[Pandas] stack() 과 unstack() stack():DataFrame의 columns(컬럼)을 rows(행)로 변환하여Wide format(넓은 형태)을 Long format(긴 형태)으로 만드는 메서드unstack():MultiIndex의 특정 level(레벨)을 columns(컬럼)으로 변환하여Long format(긴 형태)을 Wide format(넓은 형태)로 만드는 메서드2025.08.20 - [Python/pandas] - [Term] pivot 이란? [Term] pivot 이란?1. pivot 이란?Pandas에서 pivot은 데이터의 모양(shape)을 바꾸는 기능 을 가리킴: reshaping특정 column의 값들을 row 인덱스(index)로,또 다른 column의 값들을 열(columns)로지정하는 테이블을 만들고, 해.. 2025. 8. 23.
728x90
반응형