🔸날짜🔸
2021.08.08(일)
🔸제목🔸
[26] Azure ML Studio(classic) 데이터 전처리2 : 빠진값 채워넣기, Clean Missing Data 모듈
🔸내용🔸
데이터 전처리 과정
1. Feature Selection
2. Feature Metadata Edit
3. Clean metadata
머신러닝 모델을 만들 때 어떤 알고리즘은 빠진 값이 있어도 알아서 진행하지만, 어떤 알고리즘은 아예 진행을 못함.
이에, 이 경우는 비운 값들을 채워야 함.
나이, 요금, 출항지에 빈 데이터가 존재
Clean Missing Data에서 동시 작업은 같은 타입끼리만 가능 (나이, 요금 - 숫자 / 출항지 - 문자)
나이와 요금의 빈 값을 평균값으로 채우기
출항지 빈 값을 최빈값으로 채우기
[속성값들]
- Minimum missing value ratio - 몇 %가 비워져있을 때 채워주는 작업을 진행할 것인가
Ex)
0 - 하나라도 없으면 작업 진행
0.5 - 50%가 없으면 작업 진행
1 - 전체 없을 떄만 작업 진행
- Maximum missing value ratio - 몇 %까지 비워져 있는 데이터에 대해 채워주는 작업을 진행할 것인가
Ex)
0 - 하나라도 없으면 진행 불가
0.6 - 60%까지 비워져 있으면 진행, 그 이상일 때는 진행 불가
1 - 모두 다 비워져 있어도 진행 - Cleaning mode
- Replace with MICE - 연쇄 방정식을 활용해 계산해서 채워넣기(시간이 오래걸리지만 좀 더 합리적이고 정확하며 횟수 선택 가능)
- Custom substitution value - 비워있는 값을 우리가 지정한 값으로 채우겠음.
- Replace with mean - 비워져 있는 값이 있으면 다른 값들의 평균으로 채우겠음. (숫자만 가능)
- Replace with median - 비워져 있는 값이 있으면 다른 값들의 중앙값으로 채우겠음. (숫자만 가능)
- Replace with mode - 비워져 있는 값이 있으면 최빈값으로 채우겠음.
- Remove entire row - 비워져 있는 row 삭제
- Remove entire column - 비워져 있는 column 삭제
- Cols with all missing values - 다 비워져 있으면 삭제
- Generate missing value indicator column - 빠져있는 값이 있을 때 해당 column을 생성
(이걸 선택하면 체크한 결과를 참/거짓으로 알려주는 컬럼이 하나 더 생성됨.)
Run 완료 후, 1을 통해 결과를 보면 나이의 missing data가 0임을 확인할 수 있음.
4. Split Data
다음 글에...
'MLOps 프로젝트 > 머신러닝 기초 공부' 카테고리의 다른 글
[머신러닝 기초] 13일차 #3 (0) | 2021.08.10 |
---|---|
[머신러닝 기초] 13일차 #2 (0) | 2021.08.10 |
[머신러닝 기초] 12일차 #3 (0) | 2021.08.09 |
[머신러닝 기초] 12일차 #2 (0) | 2021.08.08 |
[머신러닝 기초] 12일차 #1 (0) | 2021.08.08 |