MLOps 프로젝트/머신러닝 기초 공부

[머신러닝 기초] 12일차 #3

youjin86 2021. 8. 9. 01:11

🔸날짜🔸

2021.08.07(토)

 

🔸제목🔸

[25] Azure ML Studio(classic) Titanic 데이터 전처리1. Feature 선택, Edit Metadata 모듈 활용

 

🔸내용🔸

Titanicdata_csv의 내용 - 타이타닉 탑승객 생존 여부 예측

선실등급, 생존여부, 이름, 성별, 나이, 형제배우자, 부모자식, 티켓, 티켓 요금, 사물함 위치, 탑승 장소(출항지), 구조될 때 탑승한 보트, 신체, 도착 장소

 

 

데이터 전처리

1. Feature Selection

이름 - 생존여부와 관련도 없는데 이름이 다 다르기 때문에 서로 다른 값의 양이 많음. 머신러닝할 때 영향을 주는 feature로 역할을 제대로 수행하지 못하기 때문에 제거

티켓 - 이름과 동일하게 종속변수인 생존하는 데 큰 영향을 끼치지 않는데 서로 다른 값인 양도 많기 때문에 제거

사물함 위치 - 빠져있는 값이 너무 많기에 제거

구조될 때 탑승한 보트 - 빠져있는 값도 많고, 보트를 탑승한 건 생존 가능성이 높다는 뜻이기에 제거

신체 - 빠진 값이 너무 많기에 제거

도착 장소 - 빠진 값도 많고, 서로 다른 값이 많기에 제거

 

총 14개 중 8개 사용

 

 

Run 후, 다시 Visualize를 하면 선택한 column들만 있는 것을 확인할 수 있음.

 

 

2. Feature Metadata Edit

 

선실등급 / 생존여부는 숫자가 아닌, 그냥 클래스를 구분해 놓은 것

때문에 컴퓨터에 숫자가 아닌 걸 알려줘야 함.

Make categorical - 숫자로 되어있지만, 숫자 자체로 인식하면 안되고 구분된 클래스로 구분해야 하는 것

 

Run을 하고 보면, 카테고리화 했음을 확인할 수 있음.

 

성별이랑 출항지도 카테고리컬 기능을 함.

이건 숫자로 등록이 되어 있지 않아 Azure에서 자동으로 해줌.

 

 

3. Clean Missing Data

다음 글에...

 

 

4.  Split Data