본문 바로가기
728x90
반응형

pandas31

Series : 1D data구조 for Pandas Seriespandas의 1D data를 위한 핵심 데이터 구조인덱스(index)와 값(value)으로 구성된 labeled 1차원 데이터 구조를 관리Index : 각 데이터 포인트의 레이블흔히, 0부터 시작하는 정수 index로 접근: .iloc또는 명시적으로 할당된 label을 통해 접근: .locValue : 실제 데이터 값모든 값은 동일한 데이터 타입(dtype)을 가짐선택적으로 Series는 name 속성을 가질 수 있음 (Series를 가리키는 이름임.)참고로 DataFrame은 2D labeled tabular data structure로, 여러 개의 Series가 열(column)로 결합된 형태라고 볼 수 있음. 즉, DataFrame의 각 column은 하나의 Series임.1. Seri.. 2025. 10. 3.
Pandas - Iteration DataFrame의 record(or row)를 순회(iteration)하는 방법:1. iterrows()각 행을 (index, Series) 형태로 반환:import pandas as pddf = pd.DataFrame({ "name": ["Kim", "Lee", "Park"], "age": [28, 34, 29]})for idx, row in df.iterrows(): print(idx, row["name"], row["age"])장점: 직관적, 사용이 간단단점: 각각의 row를 Series로 반환 -> 성능 느림 (특히 큰 DataFrame 객체의 경우)각 열 단위로 비슷하게 iteration하는 것으로 iteritems()가 있음.2. itertuples()각 row를 namedt.. 2025. 9. 29.
DataFrame객체를 파일로 저장하기-csv-excel-json pandas Data 저장 튜토리얼 (CSV / Excel / JSON)0. 개요: pandas는 다양한 포맷으로 저장 가능pandas는 텍스트·스프레드시트·이진·열지향·데이터베이스 등의여러 형식으로 데이터를 저장할 수 있음 (저장보다 export라는 용어가 보다 애용됨).메서드포맷/용도특징to_csvCSV (텍스트)가장 범용, Excel·타 프로그래밍 언어와 호환 쉬움to_excelXLSX (스프레드시트)보고서/공유용, 여러 시트 가능to_jsonJSON웹·API·네트워크 전송에 적합to_parquetParquet대용량·고성능 분석(Spark, Hadoop)to_picklePython 전용 바이너리Python 전용to_sql관계형 DB직접 테이블로 저장/적재 이 문서에서는 CSV / Excel / JS.. 2025. 9. 26.
pandas.read_excel() 함수: 엑셀 파일(.xlsx)을 DataFrame으로 읽어들이는 함수임. 참고: pandas에서 Excel을 다루려면 openpyxl 라이브러리가 필요함: pip install openpyxl기본 사용법import pandas as pd# 엑셀 파일을 DataFrame으로 읽기df = pd.read_excel("파일경로.xlsx")print(df.head())key parameterssheet_name: 불러올 sheet(시트) 지정 (기본값은 첫 번째 시트)df = pd.read_excel("파일경로.xlsx", sheet_name="Sheet1")usecols: 특정 column(열)만 불러오기df = pd.read_excel("파일경로.xlsx", usecols="A:C") # A~C 열만df = pd.. 2025. 9. 26.
[Pandas] 차트 그리기-plot DataFrame Plot 주요 차트Line/Bar/Area : trend & 비교Hist/Box : 분포Scatter : 상관관계Pie : 비율DataFrame.plot.* 과 Series.plot.*는 같은 백엔드(matplotlib)를 사용.line, bar, barh, hist, box, area, pie는 Series에도 동일하게 사용 가능.단, scatter는 Series에는 없음 (왜냐하면 scatter는 최소 2개 축(x, y)이 필요하기 때문).아래에 나온 방식외에도 다음의 방식도 사용되기도함:# df.iloc[:20, :4].plot(title="Default df.plot() = Line Plot")df.plot(kind="line") # 선 그래프 (기본값)df.plot(k.. 2025. 9. 5.
[Pandas] isin() 메서드: 가독성 높은 boolean mask 만들기. isin() 메서드란?isin() 메서드는 Series나 DataFrame의 각 element(or item)가 지정된 값 목록에 포함되어 있는지 확인하여 boolean mask를 반환하는 메서드임반환된 boolean mask는 조건부 필터링이나 데이터 선택에 바로 활용가능함.df[df['column'].isin([1, 2, 3])]처럼 대괄호 인덱싱과 함께 사용하여 특정 값들만 포함된 행을 추출하는 용도로 자주 사용됨.특히, 여러 값에 대한 OR 조건을 간단하게 표현할 수 있어 == 연산자를 반복 사용하는 종래의 condition 기반 boolean mask보다 가독성이 높음.2025.08.28 - [Python/pandas] - [Pandas] Boolean Mask 와 where()/mask() [.. 2025. 8. 28.
728x90
반응형