목록데마 (5)
without haste but without rest
0. 개요 - dbscan은 k-means 보다는 connectiviy 하고 - spectral 보다는 compactness 하다. 1. dbscan - 코어 데이터에서 반지름인 epsilon 을 기준으로 해당 원 안에 들어오는 데이터들을 군집으로 묶어 나간다. - 묶인 데이터가 가장 바깥에 위치하면 해당 데이터는 border 데이터, 어디에도 속하지 않는다면 noise 데이터 - moons 데이터와 같은 데이터에서 좋은 성능을 보인다. -> 클러스터 개수가 적은 데이터 - 클러스터 개수가 많은 데이터에서는 좋은 성능을 내지 못한다. - k-means는 moons 데이터에와 같은 자료형에서 좋은 성능을 못낸다. - 경우에 따라서 수치 범위를 보고 표준화를진행해주면 k-means 도 더 좋은 성능을 낼 수..
0. 개요 - 앞으로 다룰 4가지 학습은 비지도 학습이다. - k-mean, hierarchical, dbscan, spectral (1) k-means - 유저가 hyperparameter value인 k를 인위적으로 정하고 군집을 k개 만큼 만든다. (2) hierarchical clustering (계층적 군집화) - 두 점의 거리를 기준으로 군집화 해 나가는 방법 - 단 이때 정해준 리미트 거리(y 값)에 따라서 군집의 개수가 달라진다. - 계산량이 많다. - 거리에 따른 군집 개수는 dendrogram으로 확인 할 수 있다. (3) 실루엣 스코어 - 클러스터링 모델을 평가하는 스코어 1. 샘플 데이터 생성 import pandas as pd import seaborn as sns sns.set_..
0. 개요 피쳐 셀렉션에 사용할 수 있는 두 가지 방법 1. 분산을 이용하는 방법 - 분산이 작은 데이터는 종속변수에 영향을 덜 줄것이므로 제거한다. 2. 상관계수를 이용하는 방법 - 기준치를 두고 선택한다. ex) 상관계수가 |0.6| 이상 - 예측하고자 하는 변수와 상관계수가 높은 변수일수록 해당 변수에 영향력이 크기 때문이다. 1. 분산을 이용한 방법 ################################################################################### ## Feature selection(fitering) ##################################################################################..
0. 개요 1. 원핫 인코딩 - 범주형 데이터를 수치로 변환한다. - 각각의 범주를 속성으로 만들어서 해당 범주에 속하면 1, 아니면 0 2. 라벨 인코딩 - 범주형 데이터를 수치로 변환한다. - 각각의 범주형 데이터에 고유 번호를 부여한다. 1. One-Hot Encoding -범주형 데이터 (Categorical Data)를 수치로 변경해주는 작업이다. (1) costom coding ################################################################################### ## One-hot Encoding ###########################################################################..
0. 개요 1. 결측치 보간법 - 데이터들의 null 값을 채우는 작업이다. - 단, 타겟 데이터가 null인 경우는 삭제한다. 2. 정규화 & 표준화 - 정규화는 계산 결과값이 0과 1사이에 위치한다. - 표준화는 표준편차 1을 갖고, 0을 중심으로 값들이 재배열된다. * 따라서 정규화는 데이터를 특정 범위로 제한하는 것이고, 표준화는 모수를 고정시켜서 모수를 중심으로 재배열하는 것이다. 1. 데이터 로드 # 모듈 없이 전처리 #=============================== import pandas as pd iris = pd.read_csv("./iris_missing_values.csv") print(iris.head()) # NA: Not available # NaN: Not a num..