목록정규화 (2)
without haste but without rest
0. 개요 1. 분석 전에 데이터를 살펴보는 방법 - 박스 플롯 & 바이올린 플롯 - 페어 플롯 - lm 플롯 2. 차원축소 (피쳐 엔지니어링) - PCA - LDA 1. 데이터 불러오기 (1) 데이터 로드 import pandas as pd df = pd.read_csv("./data/iris.csv") # sanity check with Pandas print("shape of data in (rows, columns) is " + str(df.shape)) print(df.head()) df.describe().transpose() df.describe() 는 데이터 프레임에 대한 기술을 하라는 메소드 transpose()는 전치 함수 (2) 속성 확인(attributes check) print(d..
출처:http://www.dbguide.net/db.db?cmd=view&boardUid=148184&boardConfigUid=9&categoryUid=216&boardIdx=133&boardStep=1 1. 정규화 -> 중복 제거 위 이미지에서 장기재고라는 항목이 1, 2, 3 개월로 나누어져 있고 또 해당 개월 별로 수량, 주문수량 등이 별도로 존재한다. 만약 피쳐가 재고 수량 개월 수 대로 존재한다고 생각하면 아찔하다.. ▲ 이게 정규화된 테이블의 속성이다. 보통 이런식으로 테이블에 속성값을 부여한다. ▲ 위에서 정규화가 안 된 테이블은 속성값을 이런식으로 입력해둔 거다. 극단적이긴 하다. 정규화는 중복되는 속성들을 공통 분모로 묶어서 중복을 제거하거나, 자주 쓰지 않는 속성들을 분리하고 관계로 ..