본문 바로가기
728x90
반응형

분류 전체보기352

[pandas] 데이터 타입에 따른 column 추출 DataFrame의 경우, dtypes attribute를 통해 각 column의 data type을 가지고 있음. (Series 형임) DataFrame객체들을 서로 빼주는 등의 연산을 할 때, numberic type이 아닌 column이 있을 경우 문제가 발생함. 때문에 numberic type으로 구성된 columns를 추출해야 하는 경우가 있음. 다음의 코드를 참고할 것. import pandas as pd df = pd.DataFrame( { "test_id" : [ 0, 1, 2, 3, 4, 5], "test_int": [ 10, 20, 30, 40, 50, 60], "test_obj0": [ "a", "b", "c", "d", "e", "f"], "test_float": [0., 1., 2.. 2024. 1. 12.
[pandas] merge 예제. 2024.01.12 - [Python] - [pandas] DataFrame 합치기 : concat 과 merge [pandas] DataFrame 합치기 : concat 과 merge Pandas에서 merge와 concat은 DataFrame 를 합치는(결합하는) 데 사용되는 방법. merge: SQL join과 유사함. 두 DataFrame 간의 공통 column이나 index를 기준 column ( on parameter)으로 삼아 결합 inner, outer, left, right 다 ds31x.tistory.com merge는 특정 column을 기준으로 하는 데이터프레임 결합이 필요한 경우 이용됨. 이 경우 사용되는 column은 on parameter를 통해 지정한다. # merge Dat.. 2024. 1. 12.
[pandas] DataFrame 합치기 : concat 과 merge Pandas에서 merge와 concat은 DataFrame 를 합치는(결합하는) 데 사용되는 방법. merge: SQL join과 유사함. 두 DataFrame 간의 공통 column이나 index를 기준 column ( on parameter)으로 삼아 결합 inner, outer, left, right 다양한 join 조인 타입을 지원 (how parameter)함. 때문에 합쳐지는 DataFrame이 다른 columns를 갖는 경우가 많음. 주로 column based conjunction 에 사용됩니다. 다음의 code snippet을 참고하라 (기본으로 inner join이 사용된다.) # Load Library import pandas as pd # Create DataFrame studen.. 2024. 1. 12.
[Term] ETL Tools "ETL Tools" 에서 ETL은 Extract, Transform, Load 의 약자로, 데이터를 다루는 세 가지 주요 과정을 의미함. 이들은 대규모 데이터를 다루는데 사용되는 Tool로써 다음과 같은 세가지 과정을 효과적으로 수행할 수 있게 해주는 도구를 가르킴. Extract (추출): 데이터를 원본 소스(예: 데이터베이스, CRM 시스템, 파일 등)에서 가져오는 과정. 이 과정에서 다양한 형식과 구조를 가진 데이터를 수집. Transform (변환): 추출된 데이터를 필요에 맞게 변환하는 과정. 데이터를 정제, 표준화, 결합, 분리 등의 작업을 통해 분석 가능한 형태로 만. 이는 데이터의 품질을 향상시키고, 분석에 적합하게 데이터를 조정하는 과정을 포함. Load (로드): 변환된 데이터를 최종.. 2024. 1. 10.
[pandas] dropna : missing value 처리 (삭제) na 는 not available 로서 값이 비어있거나 숫자가 아니거나(nan: not a number) 등등으로 특정 cell에 값이 유효하지 않아 사실상 비어있는 경우를 의미함. dropna는 na값을 가지고 있는 row나 column을 제거하는데 사용된다. axis 라는 parameter 의 값이 0 이면 row 를 1 이면 column 을 제거. how 라는 parameter 의 값이 'any' 로 주어지면 하나라도 na 가 존재하면 행 또는 열에 drop(제거)이 이루어지며, 'all' 인 경우엔 해당 행 또는 열이 모두 na 로 구성될 경우에 삭제됨. 행을 지우는데 특정 column에서 na 의 존재하는 경우에만 지워지게(drop) 하려면, subset 이라는 parameter에 na 를 점검.. 2024. 1. 9.
[pandas] Column (or rows) 제거하기 DataFrame 에서 column을 제거하는데에 사용되는 idiomatic approach는 drop 메서드를 사용하는 것임. 사실 drop은 axis라는 parameter를 가지고 있고, 0이 주어지면 row를 지우고, 1이 주어지면 column을 지움. 첫번째 argument로 지우고자 하는 column의 이름을 주거나 해당 DataFrame의 instance 의 columns 어트리뷰트에서 index로 지정하거나 : a.columns[2] list로 지우고자 하는 columns의 이름들을 주면 됨. 다음의 예제 코드를 참고하라. import pandas as pd a = pd.DataFrame({'name': ['kim hk', 'lee mb', 'tae yk'], 'age': [33,22,12].. 2024. 1. 9.
728x90
반응형