[ML] Dataset: Wisconsin Breast Cancer Dataset

728x90

Wisconsin Breast Cancer Dataset (WBCD):

Wisconsin Breast Cancer Dataset (WBCD)은
오늘날 Machine Learning 및 Data Science 분야에서
binary classification 교육용으로 자주 사용되는 Dataset임.

Wisconsin 대학의 병리학자인 Dr. William H. Wolberg가 수집한 dataset이며 다음의 사이트를 통해 다운로드 가능함.

https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic

ftp서버는 다음과 같음: ftp.cs.wisc.edu cd math-prog/cpo-dataset/machine-learn/WDBC/

하지만, scikit learn 등에서 기본 dataset으로 구할 수 있기 때문에 굳이 위의 사이트를 사용할 필요는 없음.

다음의 code snippet의 형태로 손쉽게 사용가능함.

from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer()

위와 같이 얻어진 cancer는 scikit learn에서 사용되는 dataset 클래스인 Bunch의 인스턴스임.

참고: scikit-learn의 Bunch:

dictionary와 유사하지만 key를 마치 attribute인 것처럼 점 표기법(.)으로 접근할 수 있도록 해주는 간단한 객체임.

scikit-leran에서 제공하는 내장 데이터셋을 추상화하는데 사용되며, 내장 데이터셋의 경우 다음의 attributes를 가짐:

'data'(feature matrix)
'target'(label vector),
'feature_names'(feature names),
'target_names'(label name),
'DESCR'(데이터셋 설명)

이를 다음과 같은 방식으로 Pandas의 DataFrame의 인스턴스로 쉽게 변환가능함.

import pandas as pd

# input feature vector를 DataFrame 인스턴스로
df = pd.DataFrame(cancer.data, columns=cancer.feature_names)

# target column을 추가.
df['label'] = data.target

특징

해당 Dataset은 Breast Cancer Cell Sample에 대한
세포핵의 특성을 기반으로 구성되어 있음.

label은 다음과 같은 2가지 값을 가짐.

Malignant (0) : 212
Benign (1) : 357

보통 Malignant(양성)을 1로 두는 경우가 대다수인데, sklearn에서의 제공하는 데이터셋은 반대로 되어있음.
target_names 에서 label name 의 index가 실제 target에서 해당 label에 할당된 값이므로 확인해볼 것.

input vector들은 각 셀 핵의 크기, 모양, 질감 등 다양한 측정 값($10\times 3$)을 포함하고 있음.

이러한 측정값은 이미지 처리 기술을 통해 얻어진 것임.
10개의 feature에 대한 3 가지 값으로 mean 과 표준오차(se)와 극한값 평균(worst) 으로 구성되어 총 30개의 feature를 가짐.
여러 개의 부위로부터 얻어진 값들에 대한 mean, se, worst임.

구성하고 있는 10개의 feature 는 다음과 같음:

반지름(Radius): 종양 셀 핵의 평균 반지름.
질감(Texture): 셀 핵의 표면 질감의 표준 편차.
주변(Perimeter): 셀 핵의 둘레 길이.
영역(Area): 셀 핵의 면적.
매끄러움(Smoothness): 셀 핵 표면의 매끄러움 측정값.
콤팩트함(Compactness): 셀 핵의 모양이 얼마나 균일한지에 대한 측정.
오목함(Concavity): 셀 핵 표면에 오목한 부분의 정도.
오목한 점의 수(Concave points): 셀 핵 표면에 있는 오목한 부분의 개수.
대칭(Symmetry)
프랙탈 차원(Fractal dimension): 셀 핵의 프랙탈 차원.

이 Dataset은 Machine Learning Model에서

binary classification에 대해 공부할 때 예제 데이터로 자주 사용된다.

scikit learn의 Bunch 객체에서 DESCR property를 IPython의 display 함수를 이용해 출력하면

해당 데이터에 대한 자세한 소개와 설명이 나오니 참고할 것.

from IPython import display
display.Markdown(cancer.DESCR)

같이 읽어보면 좋은 자료들

다음은 regression task용 데이터셋으로 유명한 Boston Housing Price임:
2024.04.18 - [Python] - [DL] Boston Housing Price

[DL] Dataset: Boston Housing Price

Boston Housing Data 1970년 대 보스턴 시의 주택가격 데이터으로California Housing Data 와 함께 기계학습의 연습용 데이터로 많이 애용됨. 현재 California Housing Data로 대체되는 추세임California Housing Data가 1990

ds31x.tistory.com

2025.05.16 - [Python/pandas] - [ML] pandas.DataFrame 에서 EDA에 적합한 메서드 요약

[ML] pandas.DataFrame 에서 EDA에 적합한 메서드 요약

Pandas DataFrame에서 탐색적 데이터 분석(EDA)에 사용할 수 있는 주요 메서드들은 다음과 같음:2024.05.18 - [분류 전체보기] - [ML] Exploratory Data Analysis (EDA) [ML] Exploratory Data Analysis (EDA)Exploratory Data Analysis (