[머신러닝 기초] 13일차 #2

MLOps 프로젝트/머신러닝 기초 공부

youjin86 2021. 8. 10. 00:05

🔸날짜🔸

2021.08.08(일)

🔸제목🔸

[27] Azure ML Studio(classic) 데이터 전처리3 : Split Data 훈련셋/평가셋 나누기

🔸내용🔸

데이터 전처리 과정

1. Feature Selection

2. Feature Metadata Edit

3. Clean metadata

4. Split Data

전체 데이터 중 70~80% 데이터는 모델 학습하는 데 사용

나머지 20~30% 데이터는 학습을 평가하는 데 사용

[Split Data Modual]

Fraction of rows in the first output dataset - 훈련 셋의 비율을 몇 %할 것인가 (보통 0.8==80% 사용)
Randomized split - 평가를 제대로 하기 위해 골고루 뽑기
Random seed - 0: 고정되지 않게 랜덤으로 뽑힘. / 0제외 숫자들: 한 번 뽑힌 랜덤이 고정됨. (Randomized split을 선택 시, 고정 랜덤이 좋음.)

친절한 AI, python, 백준 11726 파이썬, 1일 1문제, 백준 1463 파이썬, 머신러닝 기초, 백준 11727 파이썬, 1463 파이썬, 케라스 창시자에게 배우는 딥러닝, baekjoon, 백준 11726 2×n 타일링, Azure, 머신러닝 공부, 백준, 친철한 AI, 머신러닝 기초 공부, 백준 11727 2×n 타일링 2, 11727 파이썬, MLOps, 11726 파이썬,

_