05. ch02. sklearn의 개요 - 03. 학습데이터와 예측데이터 - 08. ch03. sklearn의 개요 - 02. train_test_split으로 학습
05. ch02. sklearn의 개요 - 03. 학습데이터와 예측데이터
06. ch02. sklearn의 개요 - 04. 검증데이터(Validation)
Training set-> training set 학습을 위한 데이터 80% / validation set 검증을 위한 데이터 20%
train data로 학습 validation data로 모니터
학습할 때 validation set 관여되면 안됨.(섞이면 X)
07. ch03. sklearn의 개요 - 01. sklearn의 전처리 기능
전처리
데이터 분석에 적합하게 데이터를 가공/변형/처리/클리닝
결측치 – Imputer
이상치
정규화 (Normalization)
표준화 (Standardization)
샘플링 (over/under sampling)
피처 공학 (Feature Engineering)
feature 생성/ 연산
구간 생성, 스케일 변형
정규화 (Normalization)
0~1사이의 분포로 조정
why? 동일한 스케일의 값으로 .
표준화
평균을 0, 표준편차를 1로 맞춤
수식 외울 필요 X
08. ch03. sklearn의 개요 - 02. train_test_split으로 학습
전처리: train / validation 세트 나누기
먼저, feature 와 label을 정의합니다.
feature / label을 정의했으면, 적절한 비율로 train / validation set을 나눕니다.
feature 학습 하기 위한 컬럼 정의
label 예측해야할 컬럼
feature = [
'Pclass', 'Sex', 'Age', 'Fare'
]
label = [
'Survived'
]
from sklearn.model_selection import train_test_split
test_size: validation set에 할당할 비율 (20% -> 0.2)
shuffle: 셔플 옵션 (기본 True)
random_state: 랜덤 시드값
return받는 데이터의 순서가 중요
x_train, x_valid, y_train, y_valid = train_test_split(train[feature], train[label], test_size=0.2, shuffle=True, random_state=30)
x_train.shape, y_train.shape
x_valid.shape, y_valid.shape
전처리: 결측치
random_state 동일하게 섞이기 위해 랜덤한 값도 고정해야함.
패스트캠퍼스 데이터분석 강의 링크
bit.ly/3imy2uN
카테고리 없음