🔸날짜🔸
2021.08.07(토)
🔸제목🔸
[25] Azure ML Studio(classic) Titanic 데이터 전처리1. Feature 선택, Edit Metadata 모듈 활용
🔸내용🔸
Titanicdata_csv의 내용 - 타이타닉 탑승객 생존 여부 예측
선실등급, 생존여부, 이름, 성별, 나이, 형제배우자, 부모자식, 티켓, 티켓 요금, 사물함 위치, 탑승 장소(출항지), 구조될 때 탑승한 보트, 신체, 도착 장소
데이터 전처리
1. Feature Selection
이름 - 생존여부와 관련도 없는데 이름이 다 다르기 때문에 서로 다른 값의 양이 많음. 머신러닝할 때 영향을 주는 feature로 역할을 제대로 수행하지 못하기 때문에 제거
티켓 - 이름과 동일하게 종속변수인 생존하는 데 큰 영향을 끼치지 않는데 서로 다른 값인 양도 많기 때문에 제거
사물함 위치 - 빠져있는 값이 너무 많기에 제거
구조될 때 탑승한 보트 - 빠져있는 값도 많고, 보트를 탑승한 건 생존 가능성이 높다는 뜻이기에 제거
신체 - 빠진 값이 너무 많기에 제거
도착 장소 - 빠진 값도 많고, 서로 다른 값이 많기에 제거
총 14개 중 8개 사용
Run 후, 다시 Visualize를 하면 선택한 column들만 있는 것을 확인할 수 있음.
2. Feature Metadata Edit
선실등급 / 생존여부는 숫자가 아닌, 그냥 클래스를 구분해 놓은 것
때문에 컴퓨터에 숫자가 아닌 걸 알려줘야 함.
Make categorical - 숫자로 되어있지만, 숫자 자체로 인식하면 안되고 구분된 클래스로 구분해야 하는 것
Run을 하고 보면, 카테고리화 했음을 확인할 수 있음.
성별이랑 출항지도 카테고리컬 기능을 함.
이건 숫자로 등록이 되어 있지 않아 Azure에서 자동으로 해줌.
3. Clean Missing Data
다음 글에...
4. Split Data
'MLOps 프로젝트 > 머신러닝 기초 공부' 카테고리의 다른 글
[머신러닝 기초] 13일차 #2 (0) | 2021.08.10 |
---|---|
[머신러닝 기초] 13일차 #1 (0) | 2021.08.09 |
[머신러닝 기초] 12일차 #2 (0) | 2021.08.08 |
[머신러닝 기초] 12일차 #1 (0) | 2021.08.08 |
[머신러닝 기초] 11일차 #3 (0) | 2021.08.08 |