목록데이터마이닝 (12)
without haste but without rest
0. 개요 1. 결측치 보간법 - 데이터들의 null 값을 채우는 작업이다. - 단, 타겟 데이터가 null인 경우는 삭제한다. 2. 정규화 & 표준화 - 정규화는 계산 결과값이 0과 1사이에 위치한다. - 표준화는 표준편차 1을 갖고, 0을 중심으로 값들이 재배열된다. * 따라서 정규화는 데이터를 특정 범위로 제한하는 것이고, 표준화는 모수를 고정시켜서 모수를 중심으로 재배열하는 것이다. 1. 데이터 로드 # 모듈 없이 전처리 #=============================== import pandas as pd iris = pd.read_csv("./iris_missing_values.csv") print(iris.head()) # NA: Not available # NaN: Not a num..
0. 개요 -박스 플롯 - 분산 확인 -바이올린 플롯 - 분산 확인 + 분포 확인 -스캐터 플롯 - 변수들 간의 상관관계 -페어 플롯 - 변수들 간의 상관관계 -히트맵 - 변수들 간의 상관관계 -조인트 플롯 - 스캐터 + 러그 -스왐 플롯 - 분류 문제 -스트립 플롯 - 분류 문제 1. 데이터 로드 """ Exploring """ import pandas as pd # load iris iris = pd.read_csv("iris.csv") iris.head() print(iris.columns) print(iris) 컬럼 네임들이 짤려서 나온다. # 컬럼 이름 변경하기 iris.rename(columns = {iris.columns[0] : 'Sepal.Length', iris.columns[1] : ..
sqlite3 라이브러리 메커니즘 1. 파일 연결 ( sqlite3.connect() ) 2. 커서 객체 생성 ( conn.cursor() ) 3. 커서 객체로 작업 ( conn.execute() ) 4. 데이터 인출 (fetchall() ) // 옵션 따라서 fetch 시리즈가 있는 듯 import sqlite3 sqlite_file = './data/boston.db' # connecting to the database file conn = sqlite3.connect(sqlite_file) # initialize a cursor obect cur = conn.cursor() # define a traversing search cur.execute("SELECT * FROM boston LIMIT 5..
0. 개요 1. 분석 전에 데이터를 살펴보는 방법 - 박스 플롯 & 바이올린 플롯 - 페어 플롯 - lm 플롯 2. 차원축소 (피쳐 엔지니어링) - PCA - LDA 1. 데이터 불러오기 (1) 데이터 로드 import pandas as pd df = pd.read_csv("./data/iris.csv") # sanity check with Pandas print("shape of data in (rows, columns) is " + str(df.shape)) print(df.head()) df.describe().transpose() df.describe() 는 데이터 프레임에 대한 기술을 하라는 메소드 transpose()는 전치 함수 (2) 속성 확인(attributes check) print(d..