🔸날짜🔸
2021.08.08(일)
🔸제목🔸
[27] Azure ML Studio(classic) 데이터 전처리3 : Split Data 훈련셋/평가셋 나누기
🔸내용🔸
데이터 전처리 과정
1. Feature Selection
2. Feature Metadata Edit
3. Clean metadata
4. Split Data
전체 데이터 중 70~80% 데이터는 모델 학습하는 데 사용
나머지 20~30% 데이터는 학습을 평가하는 데 사용
[Split Data Modual]
- Fraction of rows in the first output dataset - 훈련 셋의 비율을 몇 %할 것인가 (보통 0.8==80% 사용)
- Randomized split - 평가를 제대로 하기 위해 골고루 뽑기
- Random seed - 0: 고정되지 않게 랜덤으로 뽑힘. / 0제외 숫자들: 한 번 뽑힌 랜덤이 고정됨. (Randomized split을 선택 시, 고정 랜덤이 좋음.)
'MLOps 프로젝트 > 머신러닝 기초 공부' 카테고리의 다른 글
[머신러닝 기초] 14일차 #1 (0) | 2021.08.10 |
---|---|
[머신러닝 기초] 13일차 #3 (0) | 2021.08.10 |
[머신러닝 기초] 13일차 #1 (0) | 2021.08.09 |
[머신러닝 기초] 12일차 #3 (0) | 2021.08.09 |
[머신러닝 기초] 12일차 #2 (0) | 2021.08.08 |