MLOps 프로젝트/머신러닝 기초 공부

[머신러닝 기초] 13일차 #1

youjin86 2021. 8. 9. 16:47

🔸날짜🔸

2021.08.08(일)

 

🔸제목🔸

[26] Azure ML Studio(classic) 데이터 전처리2 : 빠진값 채워넣기, Clean Missing Data 모듈

 

🔸내용🔸

데이터 전처리 과정

1. Feature Selection

2. Feature Metadata Edit

3. Clean metadata

머신러닝 모델을 만들 때 어떤 알고리즘은 빠진 값이 있어도 알아서 진행하지만, 어떤 알고리즘은 아예 진행을 못함.

이에, 이 경우는 비운 값들을 채워야 함.

 

나이, 요금, 출항지에 빈 데이터가 존재

 

Clean Missing Data에서 동시 작업은 같은 타입끼리만 가능 (나이, 요금 - 숫자 / 출항지 - 문자)

나이와 요금의 빈 값을 평균값으로 채우기

 

 

출항지 빈 값을 최빈값으로 채우기

 

 

[속성값들]

  • Minimum missing value ratio - 몇 %가 비워져있을 때 채워주는 작업을 진행할 것인가
    Ex)
    0 - 하나라도 없으면 작업 진행
    0.5 - 50%가 없으면 작업 진행
    1 - 전체 없을 떄만 작업 진행

 

  • Maximum missing value ratio - 몇 %까지 비워져 있는 데이터에 대해 채워주는 작업을 진행할 것인가
    Ex)
    0 - 하나라도 없으면 진행 불가
    0.6 - 60%까지 비워져 있으면 진행, 그 이상일 때는 진행 불가
    1 - 모두 다 비워져 있어도 진행

  • Cleaning mode
    • Replace with MICE - 연쇄 방정식을 활용해 계산해서 채워넣기(시간이 오래걸리지만 좀 더 합리적이고 정확하며 횟수 선택 가능)
    • Custom substitution value - 비워있는 값을 우리가 지정한 값으로 채우겠음.
    • Replace with mean - 비워져 있는 값이 있으면 다른 값들의 평균으로 채우겠음. (숫자만 가능)
    • Replace with median - 비워져 있는 값이 있으면 다른 값들의 중앙값으로 채우겠음. (숫자만 가능)
    • Replace with mode - 비워져 있는 값이 있으면 최빈값으로 채우겠음.
    • Remove entire row - 비워져 있는 row 삭제
    • Remove entire column - 비워져 있는 column 삭제
  • Cols with all missing values - 다 비워져 있으면 삭제
  • Generate missing value indicator column - 빠져있는 값이 있을 때 해당 column을 생성
    (이걸 선택하면 체크한 결과를 참/거짓으로 알려주는 컬럼이 하나 더 생성됨.)

 

Run 완료 후, 1을 통해 결과를 보면 나이의 missing data가 0임을 확인할 수 있음.

 

4.  Split Data

다음 글에...