MLOps 프로젝트/머신러닝 기초 공부

[머신러닝 기초] 13일차 #2

youjin86 2021. 8. 10. 00:05

🔸날짜🔸

2021.08.08(일)

 

🔸제목🔸

[27] Azure ML Studio(classic) 데이터 전처리3 : Split Data 훈련셋/평가셋 나누기

 

🔸내용🔸

데이터 전처리 과정

1. Feature Selection

2. Feature Metadata Edit

3. Clean metadata

4. Split Data

전체 데이터 중 70~80% 데이터는 모델 학습하는 데 사용

나머지 20~30% 데이터는 학습을 평가하는 데 사용

 

[Split Data Modual]

  • Fraction of rows in the first output dataset - 훈련 셋의 비율을 몇 %할 것인가 (보통 0.8==80% 사용)
  • Randomized split - 평가를 제대로 하기 위해 골고루 뽑기
  • Random seed - 0: 고정되지 않게 랜덤으로 뽑힘. / 0제외 숫자들: 한 번 뽑힌 랜덤이 고정됨. (Randomized split을 선택 시, 고정 랜덤이 좋음.)