Python을 이용한 Decision Tree (3)
DT Assignment1
Data Loading
import pandas as pd
import numpy as nppd_data = pd.read_csv('https://raw.githubusercontent.com/AugustLONG/ML01/master/01decisiontree/AllElectronics.csv')
pd_data.drop("RID",axis=1, inplace = True) #RID는 그냥 순서라서 삭제1. Gini 계수를 구하는 함수 만들기
2. Feature의 Class를 이진 분류로 만들기
ex) {A,B,C} -> ({A}, {B,C}), ({B}, {A,C}), ({C}, {A,B})
3. 다음은 모든 이진분류의 경우의 Gini index를 구하는 함수 만들기
다음의 문제를 위에서 작성한 함수를 통해 구한 값으로 보여주세요!
문제1) 변수 ‘income’의 이진분류 결과를 보여주세요.
문제2) 분류를 하는 데 가장 중요한 변수를 선정하고, 해당 변수의 Gini index를 제시해주세요.
문제3) 문제 2에서 제시한 feature로 DataFrame을 split한 후 나눠진 2개의 DataFrame에서 각각 다음으로 중요한 변수를 선정하고 해당 변수의 Gini index를 제시해주세요.
Last updated