MLOps 프로젝트 71

[머신러닝 기초] 14일차 #1

🔸날짜🔸 2021.08.09(월) 🔸제목🔸 [29] Azure ML Studio(classic) 이진 분류 알고리즘 :: Two Class Classification Algorithm 🔸내용🔸 Binary Classification (Two Class Classification,이진 분류) 결과의 종류가 2가지로 나오는 경우 선택하게 되는 알고리즘 Supervised Learning(지도학습)의 Classification(분류)에 속함으로 label이 꼭 필요 Logistic Regression 매우 잘 알려진 통계적 기법 다양한 분류 문제에 활용 데이터가 간단할 때 빠른 속도로 모델을 만들어줌. Bayes Poing Machine 베이지안 접근법 활용한 분류 알고리즘 Overfiting을 피해 일반화된..

[머신러닝 기초] 13일차 #3

🔸날짜🔸 2021.08.08(일) 🔸제목🔸 [28] Azure ML Studio(classic)에서 풀 수 있는 머신러닝 :: 지도학습, 비지도학습, 강화학습?? 🔸내용🔸 ML Studio 알고리즘 종류 Supervised Learning(label 필요) - Classification(분류) / Regression(회귀) / Anomaly Detection(이상값 감지) Unsupervised Learning(label 불필요) - Clustering(그룹화) Reinforcement Learning - 아직 X * 이상값 감지가 지도학습에 속해있는 이유는 ML에서 이상값 감지를 하기 위해 label이 있는 게 더 정확하겠다 판단했기 때문 모델 학습 단계 1.Initialize Model 어떤 머신러닝..

[머신러닝 기초] 13일차 #2

🔸날짜🔸 2021.08.08(일) 🔸제목🔸 [27] Azure ML Studio(classic) 데이터 전처리3 : Split Data 훈련셋/평가셋 나누기 🔸내용🔸 데이터 전처리 과정 1. Feature Selection 2. Feature Metadata Edit 3. Clean metadata 4. Split Data 전체 데이터 중 70~80% 데이터는 모델 학습하는 데 사용 나머지 20~30% 데이터는 학습을 평가하는 데 사용 [Split Data Modual] Fraction of rows in the first output dataset - 훈련 셋의 비율을 몇 %할 것인가 (보통 0.8==80% 사용) Randomized split - 평가를 제대로 하기 위해 골고루 뽑기 Random se..

[머신러닝 기초] 13일차 #1

🔸날짜🔸 2021.08.08(일) 🔸제목🔸 [26] Azure ML Studio(classic) 데이터 전처리2 : 빠진값 채워넣기, Clean Missing Data 모듈 🔸내용🔸 데이터 전처리 과정 1. Feature Selection 2. Feature Metadata Edit 3. Clean metadata 머신러닝 모델을 만들 때 어떤 알고리즘은 빠진 값이 있어도 알아서 진행하지만, 어떤 알고리즘은 아예 진행을 못함. 이에, 이 경우는 비운 값들을 채워야 함. 나이, 요금, 출항지에 빈 데이터가 존재 Clean Missing Data에서 동시 작업은 같은 타입끼리만 가능 (나이, 요금 - 숫자 / 출항지 - 문자) 나이와 요금의 빈 값을 평균값으로 채우기 출항지 빈 값을 최빈값으로 채우기 [속성..

[머신러닝 기초] 12일차 #3

🔸날짜🔸 2021.08.07(토) 🔸제목🔸 [25] Azure ML Studio(classic) Titanic 데이터 전처리1. Feature 선택, Edit Metadata 모듈 활용 🔸내용🔸 Titanicdata_csv의 내용 - 타이타닉 탑승객 생존 여부 예측 선실등급, 생존여부, 이름, 성별, 나이, 형제배우자, 부모자식, 티켓, 티켓 요금, 사물함 위치, 탑승 장소(출항지), 구조될 때 탑승한 보트, 신체, 도착 장소 데이터 전처리 1. Feature Selection 이름 - 생존여부와 관련도 없는데 이름이 다 다르기 때문에 서로 다른 값의 양이 많음. 머신러닝할 때 영향을 주는 feature로 역할을 제대로 수행하지 못하기 때문에 제거 티켓 - 이름과 동일하게 종속변수인 생존하는 데 큰 영향..

[머신러닝 기초] 12일차 #2

🔸날짜🔸 2021.08.07(토) 🔸제목🔸 [24] 환경의 날 특집 :: 멸종 위기의 동물을 구하기 위한 인공지능 프로젝트 Wild Me(feat. 고래상어와 만났던 추억의 사진) 🔸내용🔸 6월 5일 - 세계 환경의 날 1972년 6월 5일 스웨덴 스톡홀름에서 총 113개의 나라, 3개의 국제 기구, 257개 민간 단체에서 인류 최초의 세계적인 환경 회의를 함. 1974년 6월 5일부터 매년 세계 환경의 날을 지정, only, one earth 슬로건으로 세움. 세계 환경의 날은 매년마다 주제가 달라짐. 2018년 - 플라스틱없는 하루 2019년 - 푸른 하늘을 위한 오늘의 한 걸음 2020년 - 다양한 동물과 함께 살기 AI for Earth - WILDME "AI + Computer Vision + ..

[머신러닝 기초] 12일차 #1

🔸날짜🔸 2021.08.07(토) 🔸제목🔸 [23] Azure ML Studio(classic) 데이터 업로드 모듈과 및 지원 데이터 형식 🔸내용🔸 Data 업로드 방법들 가능한 파일 형식 - csv(콤마로 구분),tsv(탭으로 구분), txt, zip, svmlight, RData, arff 데이터 포맷 - 문자열, 정수, double(실수), BOOLEAN(참/거짓), Datetime(날짜와 시간), timespan(날짜 간격) 무료버전일 때 데이터 용량 - 파일 1개 당 최대 1.98GB / 총 10GB 1. Datasets 메뉴에서 Local File 업로드 파일 업로드 - https://bit.ly/titanicdata_csv 에서 파일 다운 후, 업로드 Experiments에서 업로드된 데이터..

[머신러닝 기초] 11일차 #3

🔸날짜🔸 2021.08.06(금) 🔸제목🔸 [22] Azure ML Studio(classic) 메뉴 및 실험 화면 소개 🔸내용🔸 [기본 메뉴] Experiments ML model 만드는 곳 My experiments - 내가 만드는 것들 Samples - 다른 사람들이 만든 것들 Projects 모델, 실험, 데이터 등 하나의 주제에 관한 리소스들을 담아놓는 곳 (폴더라 생각하면 됨.) Web services 만든 모델을 인터넷에 배포하는 곳 Datasets 데이터셋을 관리하는 곳 My datasets - 내가 올리는 데이터들 Samples - 다른 사람들이 썼던 공개된 데이터들 Trend models 학습을 완료한 모델들의 리스트를 확인할 수 있는 곳 Setting 기본적인 ML스튜디오의 설정을 확..

[머신러닝 기초] 11일차 #2

🔸날짜🔸 2021.08.06(금) 🔸제목🔸 [21] Azure Machine Learning Studio(classic) 소개 🔸내용🔸 Azure ML Studio(classic) https://studio.azureml.net/ (chrome 권장) Azure - 파란색, 하늘색을 의미로 마이크로소프트 사에서 제공하는 클라우드 서비스 이름 [특징] Visual Interface No Terminal / No Code -> Drag&Drop R, Python, SQL / Tensorflow, keras도 사용 가능