본문 바로가기
728x90
반응형

Python288

[Pandas] Reduction 과 Aggregation 0. Reduction 과 Aggregation — Pandas에서의 개념 차이Reduction (축소형 집계)여러 값을 하나의 값으로 줄이는 연산.예: sum, mean, min, max, std, median, skew, kurt, sem, quantile특징:단일 함수로 단일 결과 산출Aggregation의 부분집합.Aggregation (종합 집계)데이터를 모아 요약하는 더 큰 개념.여러 Reduction 함수를 동시에 적용하거나, 그룹별 요약 포함.예: agg, groupby(...).agg(...), describe.특징:다양한 Reduction을 조합, 그룹 단위 집계 가능reduction을 포함하는 상위 개념.Note : Aggregation ⊃ Reduction즉, 모든 Reduction.. 2025. 8. 21.
[Pandas] DataFrame : Basic Attributes and Exploration Methods pandas의 DataFrame객체는 2차원 데이터 구조(2D tabular structure)로, 데이터 분석에서 가장 자주 사용되는 객체임.일반적으로 데이터에서 수백 ~ 수십만의 row (case) 및 column (feature, attribute)이 존재일부 데이터를 출력하거나 통계치로서 데이터를 살펴보는 과정 필요. ← Descriptive Statistics 이같은 DataFrame 객체의 구조 및 내용을 빠르게 파악하기 위한 주요 attributes와 exploration methods를 소개한다.1. DataFrame 기본 속성 (Attributes)DataFrame 객체는 NumPy 배열처럼 몇 가지 기초 속성을 바로 확인할 수 있음shape, ndim, dtype 등을 손쉽게 확인 가능.. 2025. 8. 21.
[Pandas] DataFrame 생성-다른 데이터 타입의 객체로부터 DataFramepandas의 핵심 데이터 구조엑셀 시트처럼 행(row)과 열(column)으로 구성된 labeled 2차원 tabular data를 관리Row : a case of sample (=single instance)흔히, 0부터 시작하는 index를 통해 접근: .iloc또는 index로 할당된 label을 통해 접근: .locColumn : a feature(or attribute).DataFrame 에서 각각의 Column은 문자열 이름을 가진 Series 라고 볼 수 있음.참고로 Series 는 1D labeled data structure로 하나의 row 또는 하나의 column을 추상화하고 있는 클래스임.참고사항 0 :pandas 2.0부터는DataFrame.append()와 Ser.. 2025. 8. 21.
[Pandas] 중복 데이터 삭제-drop_duplicates() 메서드 drop_duplicates는 DataFrame에서 중복된 행(row) 을 제거할 때 사용하는 메서드.기본적으로 전체 row 전체를 기준 으로 중복을 판별.subset 파라미터를 사용하면 특정 column 하나 혹은 여러 columns을 기준으로 중복을 판별하여 제거할 수 있음.예제예제를 위한 간단한 DataFrame생성import pandas as pd# 간단한 DataFrame 생성df = pd.DataFrame({ "Name": ["Alice", "Bob", "Charlie", "Alice", "Bob"], "Sex": ["F", "M", "M", "F", "M"], "Age": [25, 30, 30, 25, 40]})print("원본 DataFrame:")print(df)기본 사용.. 2025. 8. 21.
[Pandas] .map() 과 .apply() 메서드 1) DataFrame.map() 메서드: element-wise(요소 단위) 적용목적:DataFrame의 각 스칼라 요소에 함수를 적용element-wise 변환.반환:입력과 동일한 shape의 DataFrame.주요 파라미터func: 각 요소에 적용할 함수(호출 가능 객체).na_action='ignore': 결측값(NA)에는 함수를 적용하지 않음.na_action=None:기본값으로, 이 경우 NA값에도 함수 적용이 되며,보통 NaN이 반환되지만 에러가 날 수도 있음.비고:이전에 사용되던 applymap은 deprecated.새 코드에서는 반드시 map 사용해야 함.import pandas as pdimport numpy as npdf = pd.DataFrame({"A": [1, 2, np.nan].. 2025. 8. 20.
[Pandas] groupby() 메서드 groupby() 메서드는 DataFrame의 데이터를 하나 이상의 키를 기준으로 그룹화(grouping) 하여, 각 그룹에 대해 집계(aggregation)·변환(transform)·필터(filter) 연산을 적용할 수 있게 해주는 도구임.Split–Apply–Combine 패턴: 데이터를 나누고(split) → 그룹별 연산을 적용(apply) → 결과를 결합(combine)groupby 자체는 DataFrameGroupBy 또는 SeriesGroupBy 객체를 반환하며, 집계(aggregation), 변환(transform), 필터(filter) 같은 후속 연산(주로 aggregate function임)이 필요참고로, DataFrameGroupBy의 obj 속성은 대상이 되었던 원본 데이터프레임을 가.. 2025. 8. 20.
728x90
반응형