목록PCA (2)
without haste but without rest
0. 개요 1. 주성분 분석을 하는 이유 - 변수들이 많은 경우 종속변수에 영향을 크게 주는 주요한 속성들을 골라내서 모델을 간단하게 만들 수 있다. 2. 과정 - 데이터 로드 - 선형 변환 - 표준화 - 비교 분석(원자료 vs 차원축소 자료) 1. 랜덤 변수 생성 from sklearn.decomposition import PCA import matplotlib.pyplot as plt import numpy as np ''' 모의 실험 ''' # 난수 생성 rnd = np.random.RandomState(5) X_ = rnd.normal(size = (300, 2)) plt.scatter(X_[:, 0], X_[:, 1], c = X_[:, 0], linewidths = 0, s = 60, cmap..
0. 개요 1. 분석 전에 데이터를 살펴보는 방법 - 박스 플롯 & 바이올린 플롯 - 페어 플롯 - lm 플롯 2. 차원축소 (피쳐 엔지니어링) - PCA - LDA 1. 데이터 불러오기 (1) 데이터 로드 import pandas as pd df = pd.read_csv("./data/iris.csv") # sanity check with Pandas print("shape of data in (rows, columns) is " + str(df.shape)) print(df.head()) df.describe().transpose() df.describe() 는 데이터 프레임에 대한 기술을 하라는 메소드 transpose()는 전치 함수 (2) 속성 확인(attributes check) print(d..