본문 바로가기
728x90
반응형

Python286

[urllib] request 모듈 urllib은 Python의 표준 라이브러리로, URL 작업을 위한 여러 모듈을 제공함.이 중에서 urllib.request 모듈은 HTTP/HTTPS 요청 처리를 위한 것임. 참고로 urllib 라이브러리의 주요 구성 모듈은 다음과 같음:urllib.request - HTTP/HTTPS 요청 처리urllib.parse - URL 파싱 및 구성urllib.error - urllib 관련 예외urllib.robotparser - robots.txt 파일 처리urllib.request 모듈웹 요청을 보내고 응답을 받는 기능을 제공.urlopen() 함수URL을 열고 파일형 객체인, http.client.HTTPResponse 객체를 반환.가장 기본적인 웹 요청 함수임.Signature:urllib.reque.. 2025. 8. 28.
[Pandas] isin() 메서드: 가독성 높은 boolean mask 만들기. isin() 메서드란?isin() 메서드는 Series나 DataFrame의 각 element(or item)가 지정된 값 목록에 포함되어 있는지 확인하여 boolean mask를 반환하는 메서드임반환된 boolean mask는 조건부 필터링이나 데이터 선택에 바로 활용가능함.df[df['column'].isin([1, 2, 3])]처럼 대괄호 인덱싱과 함께 사용하여 특정 값들만 포함된 행을 추출하는 용도로 자주 사용됨.특히, 여러 값에 대한 OR 조건을 간단하게 표현할 수 있어 == 연산자를 반복 사용하는 종래의 condition 기반 boolean mask보다 가독성이 높음.2025.08.28 - [Python/pandas] - [Pandas] Boolean Mask 와 where()/mask() [.. 2025. 8. 28.
[Pandas] Boolean Mask 와 where()/mask() Boolean Mask란:Boolean mask는 True 또는 False로 구성(=boolean)된 시퀀스(Series/DataFrame/ndarray/list) 객체를 이용하여 Pandas에서 특정 데이터를 선택하는 등의 마스킹(masking)을 하는 것을 가리킴.사용방식:Series mask :column 또는 row 필터링: 특정 condition(True/Flase로 치환되는 expression)을 통해 False가 되는 row 또는 column을 제거.Series mask 에서 반환값에는 NA 생성없음 (=제거됨).DataFrame mask :cell 마스킹에 사용됨.Boolean mask에서 False에 해당하는 위치의 cell의 값을 NA 로 치환NA로 치환되는 cell의 값은 실제로 반환.. 2025. 8. 28.
[Pandas] index 와 columns- 관련 메서드: rename(), set_index(), reset_index() DataFrame과 Series의 index, DataFrame의 columnsSeries.index, DataFrame.index, DataFrame.columns는 모두 pandas.Index 객체로, 각각 row labels 또는 column labels의 집합을 나타냄.이들은 immutable하여 개별 원소 수정은 불가능하지만,새로운 Index 객체로 전체 교체가 가능하며,집합 연산(union, intersection 등)등을 지원함.1. Series객체의 index 속성정의: Series의 row labels 를 담는 객체자료형: pandas.Index특징:immutable 성질을 가지므로 개별 원소 수정은 불가하지만 새로운 Index 객체로 전체 교체는 가능집합 연산 지원 (교집합, 합집합 등.. 2025. 8. 24.
[Pandas] melt() 메서드 DataFrame.melt()란?melt() 메서드는 스프레드시트와 같이 wide-form (or wide format) 로 정리된 데이터를 통계 분석이나 시각화에 적합한 long-form (or long format) 로 변환하는 데 사용.이 과정은마치 넓게 펼쳐진 시트를 녹여(melt)길쭉한 막대 모양으로 만드는 것과 유사하여해당 이름이 지어짐. 데이터 분석에서는 이 long form을 Tidy Data, Stacked Data 라고 부르기도 함. Wide format 과 Long format 에 대한 좀 더 자세한 건 다음을 참고:https://ds31x.tistory.com/521#4.-long-format-vs-wide-format-%EB%A7%8E%EC%9D%B4-%EC%93%B0%EC%9D%.. 2025. 8. 24.
[Pandas] missing value 확인: 결측치 확인 Pandas 는 missing value (정확하게는 NA) 여부를 확인하는 다음의 메서드를 지원:isnull()isna()Note:isnull() 과 isna()는 기능적으로 동일함: NumPy의 ndarray가 지원하는 isnan() 기반.Pandas 0.20.0 버전부터 isnull()의 별칭(alias)으로 isna()가 추가됨.결측치 타입Pandas는 NumPy의 ndarray에 기반을 두고 있기 때문에 float64의 실수 데이터의 경우 missing value를 np.nan으로 처리함.단, Pandas 1.0+ 에서 사용가능한 pd.NA ( __repr__()메서드로 라고 출력됨) 가 Pandas에서 일관된 결측치 처리에 보다 유용함.pd.NA는 Pandas의 확장 dtype인 (Int64,.. 2025. 8. 24.
728x90
반응형