본문 바로가기
Python

[ML] Dataset: Wisconsin Breast Cancer Dataset

by ds31x 2024. 5. 18.
Wisconsin Breast Cancer Dataset (WBCD)은
오늘날 Machine Learning 및 Data Science 분야에서
binary classification 교육용으로 자주 사용되는 Dataset임.

 

Wisconsin 대학의 병리학자인 Dr. William H. Wolberg가 수집한 dataset이며 다음의 사이트를 통해 다운로드 가능함.

https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic

 

하지만, scikit learn 등에서 기본 dataset으로 구할 수 있기 때문에 굳이 위의 사이트를 사용할 필요는 없음.

다음의 code snippet의 형태로 손쉽게 사용가능함.

from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer()
  • 위와 같이 얻어진 cancer는 scikit learn에서 사용되는 dataset 클래스인 Bunch의 인스턴스임.

이를 다음과 같은 방식으로 Pandas의 DataFrame의 인스턴스로 쉽게 변환가능함.

import pandas as pd

# input feature vector를 DataFrame 인스턴스로
df = pd.DataFrame(cancer.data, columns=cancer.feature_names)

# target column을 추가.
df['label'] = data.target

특징

해당 Dataset은 Breast Cancer Cell Sample에 대한
세포핵의 특성을 기반으로 구성되어 있음.


input vector들은 각 셀 핵의 크기, 모양, 질감 등 다양한 측정 값($10\times 3$)을 포함하고 있음.

  • 이러한 측정값은 이미지 처리 기술을 통해 얻어진 것임.
  • 10개의 feature에 대한 3 가지 값으로 mean 과 표준오차(se)와 극한값 평균(worst) 으로 구성되어 총 30개의 feature를 가짐.
  • target 값은 악성(malignant) 또는 양성(benign)으로, 0과 1의 값을 가짐.

구성하고 있는 10개의 feature 는 다음과 같음:

  1. 반지름(Radius): 종양 셀 핵의 평균 반지름.
  2. 질감(Texture): 셀 핵의 표면 질감의 표준 편차.
  3. 주변(Perimeter): 셀 핵의 둘레 길이.
  4. 영역(Area): 셀 핵의 면적.
  5. 매끄러움(Smoothness): 셀 핵 표면의 매끄러움 측정값.
  6. 콤팩트함(Compactness): 셀 핵의 모양이 얼마나 균일한지에 대한 측정.
  7. 오목함(Concavity): 셀 핵 표면에 오목한 부분의 정도.
  8. 오목한 점의 수(Concave points): 셀 핵 표면에 있는 오목한 부분의 개수.
  9. 대칭(Symmetry)
  10. 프랙탈 차원(Fractal dimension): 셀 핵의 프랙탈 차원.

이 Dataset은 Machine Learning Model에서 binary classification에 대해 공부할 때

예제 데이터로 자주 사용된다.

scikit learn의 Bunch 객체에서 DESCR property를 IPython의 display 함수를 이용해 출력하면

해당 데이터에 대한 자세한 소개와 설명이 나오니 참고할 것.

from IPython import display
display.Markdown(cancer.DESCR)

같이 읽어보면 좋은 자료들

2024.04.18 - [Python] - [DL] Boston Housing Price

 

[DL] Boston Housing Price

Boston Housing Data 1970년 대 보스턴 시의 주택가격 데이터으로 California Housing Data 와 함께 기계학습의 연습용 데이터로 많이 애용됨. 현재 California Housing Data로 대체되는 추세임 California Housing Data가 19

ds31x.tistory.com

 

728x90

'Python' 카테고리의 다른 글

[DL] Dataset: CIFAR-10  (0) 2024.05.30
[DL] Classification 을 위한 Activation Func. 와 Loss Func: PyTorch  (0) 2024.05.23
[DL] Dataset: Boston Housing Price  (1) 2024.04.18
[Python] collections.abc  (0) 2024.04.15
[Python] class 만들기.  (0) 2024.04.14