목록트리 (2)
without haste but without rest
0. 개요 (1). impurity (불순도) - entropy - gini (2). pruning (가지치기) 1. data load ## 의사결정나무 ## iris data from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClassifier iris = load_iris() y = iris.target X = iris.data[:, 2:] feature_names = iris.feature_names[2:] 2. partitioning #파티션 기준 엔트로피, 브랜치 길이 1 tree = DecisionTreeClassifier(criterion = 'entropy', max_depth = 1, random_sta..
트리(Tree) 트리는 노드(Node)와 브랜치(Branch)로 구성되어있다. 위 이미지에서 원이 노드, 화살표가 브랜치다. 각 노드들은 링크드 리스트 구조로 연결되어 있으며, 싸이클이 없다. 마지막 데이터에서 처음 데이터로 돌아오지 않는다. 아래 애니메이션을 보면 이진 탐색 트리 구조에서 데이터가 어떻게 삽입되는지 쉽게 이해할 수 있다. 21보다 작으면 왼쪽으로, 크면 오른쪽으로 이동한다. 그리고 다음 노드를 만나서 이 단계를 반복한다. 만약 더 이상 비교할 데이터가 없으면 해당 위치에 데이터가 삽입된다. 위 애니메이션에서 21은 루트 노드(Root Node)에 해당한다. 이 값을 기준으로 마치 나무의 가지가 뻗어 나가듯이 데이터가 추가된다. 이진 트리에서는 브랜치가 최대 2개이기 때문에 각 노드는 최..