본문 바로가기
728x90
반응형

Python286

[Pandas] unique(), value_counts(), nunique() 범주형(categorical) 데이터 전처리 상황에서 많이 사용되는 메서드들임. 종류가 적은 값을 가지는 데이터들을 분석하는데 주로 이용됨.unique(): 고유값 배열 반환.value_counts(): 고유값과 빈도 를 확인 가능케 함.nunique(): 고유값 개수를 반환.범주형 데이터에는 예상치 못한 값이 섞여 있을 수 있으므로 반드시 확인 후 Data Cleaning이 필요0. Create Sample DataFrame (샘플 DataFrame 생성)import pandas as pd# DataFrame 생성data = { "Name": ["Alice", "Bob", "Charlie", "Alice", "David", "Bob"], "Gender": ["Female", "Male", ".. 2025. 8. 23.
[Pandas] stack() 과 unstack() stack():DataFrame의 columns(컬럼)을 rows(행)로 변환하여Wide format(넓은 형태)을 Long format(긴 형태)으로 만드는 메서드unstack():MultiIndex의 특정 level(레벨)을 columns(컬럼)으로 변환하여Long format(긴 형태)을 Wide format(넓은 형태)로 만드는 메서드2025.08.20 - [Python/pandas] - [Term] pivot 이란? [Term] pivot 이란?1. pivot 이란?Pandas에서 pivot은 데이터의 모양(shape)을 바꾸는 기능 을 가리킴: reshaping특정 column의 값들을 row 인덱스(index)로,또 다른 column의 값들을 열(columns)로지정하는 테이블을 만들고, 해.. 2025. 8. 23.
[Pandas] 값 변경하기 - replace 1. replace() 메서드Value-based Replacement(값 기반 치환) 임을 기억!: Index-based 아님Scope(적용 범위):DataFrameSeries주요 활용:Data Cleaning(데이터 정제),Missing Value Handling(결측치 처리),Label Normalization(라벨 통일),Outlier Handling(이상치 처리)Return Value:기본적으로 New Object(새 객체) 반환inplace=True 지정 시 Original Object(원본 객체) 수정 2. SignatureDataFrame.replace( to_replace=None, value=None, inplace=False, limit=None, regex.. 2025. 8. 22.
[Pandas] Indexer - loc, iloc, at, iat Pandas의 Indexer란?Indexer(인덱서)는"값(value) 그 자체를 조건으로 삼아 접근하거나 필터링하는 방식"과는 달리,라벨(label)이나 정수 위치(index 번호)를 기반으로 해석하여 데이터를 선택하거나 필터링하는 도구임.다시 말해, DataFrame/Series에 부착된 indexing에 사용되는 일종의 accessor로,라벨(label)이나 정수 위치(index 번호)를 해석해 데이터를 선택하거나 필터링하는 데 사용(indexing)된다.주요 역할: 사용자가 지정한 키(key)를 어떤 규칙(라벨 기반 또는 위치 기반)으로 해석할지 결정.종류: loc, iloc, at, iat 등이 있으며, 각각 라벨 기반/위치 기반, 단일/다중 접근 용도로 나뉨. Pandas의 공식 문서 기준으로.. 2025. 8. 22.
[Pandas] Reduction 과 Aggregation 0. Reduction 과 Aggregation — Pandas에서의 개념 차이Reduction (축소형 집계)여러 값을 하나의 값으로 줄이는 연산.예: sum, mean, min, max, std, median, skew, kurt, sem, quantile특징:단일 함수로 단일 결과 산출Aggregation의 부분집합.Aggregation (종합 집계)데이터를 모아 요약하는 더 큰 개념.여러 Reduction 함수를 동시에 적용하거나, 그룹별 요약 포함.예: agg, groupby(...).agg(...), describe.특징:다양한 Reduction을 조합, 그룹 단위 집계 가능reduction을 포함하는 상위 개념.Note : Aggregation ⊃ Reduction즉, 모든 Reduction.. 2025. 8. 21.
[Pandas] DataFrame : Basic Attributes and Exploration Methods pandas의 DataFrame객체는 2차원 데이터 구조(2D tabular structure)로, 데이터 분석에서 가장 자주 사용되는 객체임.일반적으로 데이터에서 수백 ~ 수십만의 row (case) 및 column (feature, attribute)이 존재일부 데이터를 출력하거나 통계치로서 데이터를 살펴보는 과정 필요. ← Descriptive Statistics 이같은 DataFrame 객체의 구조 및 내용을 빠르게 파악하기 위한 주요 attributes와 exploration methods를 소개한다.1. DataFrame 기본 속성 (Attributes)DataFrame 객체는 NumPy 배열처럼 몇 가지 기초 속성을 바로 확인할 수 있음shape, ndim, dtype 등을 손쉽게 확인 가능.. 2025. 8. 21.
728x90
반응형