MLOps 프로젝트/머신러닝 기초 공부 38

[머신러닝 기초] 16일차 #1

🔸날짜🔸 2021.08.11(수) 🔸제목🔸 [35] 깜짝 퀴즈 정답 공개! 스팸메일 분류할 때/질병 유무 판단할 때 Precision or Recall?! 🔸내용🔸 Recall이 아닌 Precision이 높게 나오는 알고리즘을 선택해야 함. 이유 - 스팸 메일에 일반 메일이 들어가는 것이 더 안좋기 때문 Precision이 아닌 Recall이 높게 나오는 알고리즘을 선택해야 함. 이유 - 질병이 있는 사람을 없다고 잘못 판단하는 경우보단 질병이 없는 사람을 잘못 판단하는 게 더 낫기 때문에 만약 Accuracy가 100%인 모델은 Recall이나 Precision도 100%으로 나올 확률이 높음. 하지만 overfitting이 의심되니 데이터와 모델을 다시 한번 살펴봐야함!

[머신러닝 기초] 15일차 #3

🔸날짜🔸 2021.08.10(화) 🔸제목🔸 [34] 분류 모델 지표의 의미와 계산법 : True Positive, False Posivite, True Negative, False Negative 🔸내용🔸 metric 학습 완료된 모델의 성능이 얼마나 되는지 숫자로 표현 학습 모델에 따라 살펴봐야하는 지표도 달라짐. 분류의 metric 1) True Positive(TP) 모델이 예측한 게 True이면서 예측이 맞았을 때 2) False Positive(FP) 모델이 예측한 게 True이면서 예측이 틀렸을 때 3) False Negative(FN) 모델이 예측한 게 False이면서 예측이 틀렸을 때 4) True Negative(TN) 모델이 예측한 게 False이면서 예측이 맞았을 때 1) Accura..

[머신러닝 기초] 15일차 #2

🔸날짜🔸 2021.08.10(화) 🔸제목🔸 [33] Azure ML Studio(classic) 모델 정확도/성능 확인하기 :: Evaluate Model 🔸내용🔸 1. Initialize Model 2. Train Model 3. Score Model 우리가 갖고 있는 모델을 평가데이터를 이용해 결과 내는 것 4. Evaluate Model 우리가 만든 모델의 성능을 확인하며 전체 결과 분석 Two-Class Logistic Regression 알고리즘과 Two-Class Support Vector Machine 알고리즘 비교 Two-Class Logistic Regression 알고리즘 결과 - 약 76% 정확 Two-Class Support Vector Machine 알고리즘 결과 - 약 72% 정..

[머신러닝 기초] 14일차 #3

🔸날짜🔸 2021.08.09(월) 🔸제목🔸 [31] Azure ML Studio(classic) 학습된 모델 이해하기(중요!) :: Logistic Regression 🔸내용🔸 Weight가 크면 영향을 많이 끼치게 됨. [학습 결과] Label을 생존여부로 선정 (범위는 0~1로 0.5보다 적으면 False로 사망이라 판단) Feature가 숫자일 경우 나이가 클수록 생존확률이 낮아짐. 함께 탑승한 형제배우자 수가 많을수록 생존확률이 낮아짐. 함께 탑승한 형제배우자의 여부는 기본적으로 0.56의 값을 해줌.(한명도 없더라도 0.56.이 먹고 들어감.) Feature가 숫자가 아닐 경우 -> 선택지만큼 분류되어서 weight가 생성됨. 성별은 여성일수록 생존확률이 높아지고 남성일수록 낮아짐. 선실등급은 ..

[머신러닝 기초] 14일차 #2

🔸날짜🔸 2021.08.09(월) 🔸제목🔸 [30] Azure ML Studio(classic) 모델 학습 :: Logistic Regression 알고리즘 활용한 Initialize Model, Train Model 🔸내용🔸 1. Initialize Model 2. Train Model Two-Class Logistic Regression 모듈 Random number seed - 숫자마다 적용되는 램덤이 다르고, 해당 숫자를 입력하면 그 랜덤이 계속 유지가 됨. Allow unknown category - 원래 데이터가 아닌 다른 데이터를 입력했을 때 허용을 할 것인가 Train Mode 모듈 레이블을 학습에서 다시 한번 더 지정해 줘야 함.

[머신러닝 기초] 14일차 #1

🔸날짜🔸 2021.08.09(월) 🔸제목🔸 [29] Azure ML Studio(classic) 이진 분류 알고리즘 :: Two Class Classification Algorithm 🔸내용🔸 Binary Classification (Two Class Classification,이진 분류) 결과의 종류가 2가지로 나오는 경우 선택하게 되는 알고리즘 Supervised Learning(지도학습)의 Classification(분류)에 속함으로 label이 꼭 필요 Logistic Regression 매우 잘 알려진 통계적 기법 다양한 분류 문제에 활용 데이터가 간단할 때 빠른 속도로 모델을 만들어줌. Bayes Poing Machine 베이지안 접근법 활용한 분류 알고리즘 Overfiting을 피해 일반화된..

[머신러닝 기초] 13일차 #3

🔸날짜🔸 2021.08.08(일) 🔸제목🔸 [28] Azure ML Studio(classic)에서 풀 수 있는 머신러닝 :: 지도학습, 비지도학습, 강화학습?? 🔸내용🔸 ML Studio 알고리즘 종류 Supervised Learning(label 필요) - Classification(분류) / Regression(회귀) / Anomaly Detection(이상값 감지) Unsupervised Learning(label 불필요) - Clustering(그룹화) Reinforcement Learning - 아직 X * 이상값 감지가 지도학습에 속해있는 이유는 ML에서 이상값 감지를 하기 위해 label이 있는 게 더 정확하겠다 판단했기 때문 모델 학습 단계 1.Initialize Model 어떤 머신러닝..

[머신러닝 기초] 13일차 #2

🔸날짜🔸 2021.08.08(일) 🔸제목🔸 [27] Azure ML Studio(classic) 데이터 전처리3 : Split Data 훈련셋/평가셋 나누기 🔸내용🔸 데이터 전처리 과정 1. Feature Selection 2. Feature Metadata Edit 3. Clean metadata 4. Split Data 전체 데이터 중 70~80% 데이터는 모델 학습하는 데 사용 나머지 20~30% 데이터는 학습을 평가하는 데 사용 [Split Data Modual] Fraction of rows in the first output dataset - 훈련 셋의 비율을 몇 %할 것인가 (보통 0.8==80% 사용) Randomized split - 평가를 제대로 하기 위해 골고루 뽑기 Random se..