MLOps 프로젝트 71

모기예보 1차 모델 생성

모기예보는 예측이므로 regression(회귀)가 적합!!! 사이킷런과 케라스에서 고민 - 먼저 케라스를 해보기로 함. Keras 딥러닝 코드 순서 1. 데이터 가져오기 Pandas를 사용해 가져오기 2. 데이터 랜덤 배치 학습데이터 80 : 평가데이터 20으로 랜덤 배치 3. 모델 구성 Sequential 층 쌓기 + activation 정하기 4. 모델 학습과정 설정 optimizer, loss 정하기 5. 모델 학습 + 학습과정 및 결과보기 학습데이터를 넣고 epoch 설정 6. 모델 평가 평가데이터로 평가 7. 예측과 실제 값 비교 8. 시각화 세부 설정 과정 Layer 처음에 크게 해서 줄여나가려고 총 5층 구성 (1024,500,300,200,1) 손실함수가 엄청 높게 나옴. 이리 저리 시도해..

모기예보와 날씨 상관 분석

가정 데이터 feature - 일별 최저기온 최고기온 평균기온 일강수량 최고풍속 평균풍속 최소상대습도 평균상대습도 일조량 평균지면온도 최저초상온도 연속누적강수량 label - 일별 모기 개체 수 서울시가 제공하는 모기 개체수가 2020년 이전(1000)과 이후(100)의 측정단위가 달라 이후의 단위인 100으로 통합 5월~10월까지의 데이터는 제외 - 측정을 안하고 기온에 따른 예측값만 설정하기 때문 20년도부터 수변부, 주거지, 공원로 따로 데이터를 제공하지만, 20년도 이전에는 통합이었기에 거기에 맞춰 20년도 이후도 통합데이터로만 사용 기존 날씨 데이터에 연속누적강수량도 같이 상관분석을 함. - 비가 연속으로 오면 모기알이 떠내려가 영향을 줄 거 같다고 가정했기 때문 Pandas를 통한 상관분석 코..

모기예보 내용 정리

프로젝트 명 모기 예보와 날씨를 활용하여 예방 솔루션을 제시하는 프로그램 시나리오 서울시가 의뢰, 현재 서울시의 모기 예보는 당일 상황에 대해서만 알려줌. 이에, 예측 후, 미리 예방할 수 있는 프로그램을 부탁 내용 현재 서울시의 모기 예보는 5-10월까지의 측정 데이터가 존재하며, 나머지는 기온을 통한 예측값을 제공 이에, 더 다른 날씨 데이터와 모기예보의 상관 분석 후, 직접 모델 학습을 통해 예측값의 정확도 측정 현재 서울시의 모기 예보는 당일과 과거의 상황만 알 수 있음. 학습된 모델과 기상예보를 통해 미래를 예측하여 예방할 수 있는 프로그램을 만들고자 함. 필요한 데이터 1. 날씨 자료들 API - 미래에 대한 데이터만 있으면 될 거 같음. 우리나라에서 사용하던 동네예보랑 중단기예보가 2020년..

주제 선정

후보 출산율 + 대학진학 - 너무 흔해서 x 외국인토지보유현황 - 자료 부족으로 x v-nomics + 소비 - 자료 추출이 애매해서 x 문화예술관람률 - 소비와 엮을려고 했는데 뻔해서 x IT산업별 클라우드 서비스 도입 현황 - 공격 위험성이 있어 x (유력후보) 기사와 주식의 연관성 - 주식을 잘 모르는 사람도 있어 주식까지 공부하기에는 시간 부족으로 x 기사의 긍정/부정 NLP를 분석하여 기사가 주식에 영향이 있는지 (유력후보 -> 선정) 모기예보 - 신선한 주제, 적당한 데이터양 서울시가 제공하는 모기예보의 아쉬운 점 보완 이전 날씨의 데이터와 모기예보의 통계를 근거로 모기 개체수 예측

[애저듣보잡] Azure ML의 CI(통합/관리) 파이프라인 존재 알기

[애저듣보잡] MLOps 101 | ep6. MLOps in Action 엿보기 https://youtu.be/HvfZO9uc_3g MLOps 전반적인 과정을 보여주는 강의 Azure 파이프라인을 사용해 지속적 통합(CI) 가능 Azue ML에서는 각각의 산출물들의 추적/관리가 가능해 파이프라인으로 모두 묶어 처리할 수 있음. ex) 하나의 CI 파이프라인 = 데이터 준비+모델 학습+평가+모델 등록

[애저듣보잡] ML 생애주기 4 - 배포/서빙과 Data Drift

[애저듣보잡] MLOps 101 | ep5. ML 생애주기 4 - 배포 서빙 https://youtu.be/DMwMmTKA2bk 배포/서빙 Azure ML 패키징 및 배포 컨테이너를 이용해 패키징하는 이유 원래 모델을 만들 때 썼던 환경 자체를 예측할 때도 똑같이 사용해야하기 때문 배포환경 설정 중 Computer Type (1) Azure Container Instance (ACI) 개발/테스트 용도로, 제일 빠르고 간단하게 컨테이너 이미지를 실행하는 단일 노드 호스팅 서비스 (2) Azure Kubernetes Services (AKS) 오토 스케일같은 다양한 복잡한 기능을 갖고 있는 멀티 노드 컨테이너 서비스 모델의 모니터링: 데이터 드리프트(Data Drift) 모델의 성능을 모니터링하기 위한 방..

[애저듣보잡] ML 생애주기 3 - 모델 해석

[애저듣보잡] MLOps 101 | ep4. ML 생애주기 3 - 모델 해석 https://youtu.be/LKk3bD8muhs 모델 해석 모델 해석이 중요한 이유 모델의 잘못된 판단(예상과 다른 분류 등)으로 정확도가 높은 경우도 있음. 때문에 모델 해석이 반드시 필요! azureml.interpret로 다양한 관저으로 접근하여 모델 해석 ex) explainer Perturbation 탐색과 ICE는 데이터가 다른 것으로 대체되었을 때 예측을 시뮬레이션하는 기능

[애저듣보잡] ML 생애주기 2 - 실험 학습

[애저듣보잡] MLOps 101 | ep3. ML 생애주기 2 - 실험 학습 https://youtu.be/ceGwH-sho2A 실험/학습 1. 실험, 모델 학습/최적화/비교평가 - 데이터셋과 알고리즘, 하이퍼파라미터 속성들을 통해 연산을 거쳐 모델이 생성됨. - 하이퍼파라미터, 알고리즘, 데이터셋을 바꾸며 최적의 모델을 찾아가는 실험을 함. 2. 실험 추적관리 모델들(input환경들로 연산 수행한 결과를 판단된 것)을 잘 기록 Azure에서 실험 정보들, 사용했던 데이터셋의 상세 정보들을 확인 가능 3. 자동화된 ML (Automated ML) 입력 조건을 자동으로 조합하며 성능을 예측하고 최적의 모델 제공 4. 모델의 검증: 예측성능, 처리성능 (1) 예측 성능 - 모델의 예측값이 실제값에 얼마나 가..

[애저듣보잡] ML 생애주기 1- 데이터준비

[애저듣보잡] MLOps 101 | ep2. ML 생애주기 1 - 데이터 준비 https://youtu.be/zyGYnYZaUEk 데이터 준비 1. 문제/데이터 정의, 가설 수립 2. 데이터 이동/연계 (1) 데이터 수집 (2) 데이터 연계 (3) 데이터셋 공유 및 재사용 Azure ML플랫폼을 사용할 경우 공유 및 재사용에 유리 - 데이터 버전 관리가 가능 - 데이터셋의 여러 메타정보 관리 가능 - 관련 정보들 추가 가능 - 데이터 시각화를 통해 간단하고 신속하게 데이터 확인 가능 3. 데이터 탐색/가공 (1) 데이터셋 및 주피터 노트북에서 탐색 Azure ML플랫폼을 통해 데이터 상태를 보며 부족한 부분 확인 (2) 데이터 레이블링 목표값을 제공 (3) Feature Importance 탐색 Feat..

[애저 듣보잡] MLOps와 DevOps의 차이

[애저듣보잡] MLOps 101 | ep1. MLOps가 뭐길래 https://youtu.be/q2N6NZKxipg DevOps와 MLOps DevOps 개발과 운영을 통합하여 자동화 및 모니터링하는 시스템 MLOps DevOps에 학습 데이터를 공급하여 모델을 생성, 실제 데이터를 모델에 입력하는 과정이 추가된 시스템 [MLOps를 하는 사람들] 모델 생성에 집중 - Data Scientists 모델 배포와 운영에 집중 - Data/Software Engineers MLOps는 성공적인 머신러닝 프로젝트를 위해 필요 정석을 잘 따져 처리를 할 때 성공적, 안정적으로 완료가 되기 때문