본문 바로가기

카테고리 없음

[패스트캠퍼스 수강 후기] 데이터분석 인강 100% 환급 챌린지 27회차 미션

05. ch02. sklearn의 개요 - 03. 학습데이터와 예측데이터 - 08. ch03. sklearn의 개요 - 02. train_test_split으로 학습


05. ch02. sklearn의 개요 - 03. 학습데이터와 예측데이터

06. ch02. sklearn의 개요 - 04. 검증데이터(Validation)

Training set-> training set 학습을 위한 데이터 80% / validation set 검증을 위한 데이터 20%
train data로 학습 validation data로 모니터


학습할 때 validation set 관여되면 안됨.(섞이면 X)


07. ch03. sklearn의 개요 - 01. sklearn의 전처리 기능

전처리
데이터 분석에 적합하게 데이터를 가공/변형/처리/클리닝

결측치 – Imputer
이상치
정규화 (Normalization)
표준화 (Standardization)
샘플링 (over/under sampling)
피처 공학 (Feature Engineering)
feature 생성/ 연산
구간 생성, 스케일 변형

정규화 (Normalization)
0~1사이의 분포로 조정
why? 동일한 스케일의 값으로 .

표준화
평균을 0, 표준편차를 1로 맞춤

수식 외울 필요 X

08. ch03. sklearn의 개요 - 02. train_test_split으로 학습


전처리: train / validation 세트 나누기

먼저, feature 와 label을 정의합니다.
feature / label을 정의했으면, 적절한 비율로 train / validation set을 나눕니다.

feature 학습 하기 위한 컬럼 정의
label 예측해야할 컬럼

feature = [
'Pclass', 'Sex', 'Age', 'Fare'
]

label = [
'Survived'

]

from sklearn.model_selection import train_test_split

test_size: validation set에 할당할 비율 (20% -> 0.2)
shuffle: 셔플 옵션 (기본 True)
random_state: 랜덤 시드값

return받는 데이터의 순서가 중요

x_train, x_valid, y_train, y_valid = train_test_split(train[feature], train[label], test_size=0.2, shuffle=True, random_state=30)

x_train.shape, y_train.shape

x_valid.shape, y_valid.shape

전처리: 결측치

random_state 동일하게 섞이기 위해 랜덤한 값도 고정해야함.




패스트캠퍼스 데이터분석 강의 링크
bit.ly/3imy2uN