01 Business Understanding
- 비즈니스 문제
- 데이터 분석 방향/목표 결정
- 초기 가설 수립 (x→y)
귀무가설
: 기존 연구 결과로 이어져 내려오는 정설
대립가설
: 기존 입장을 넘어서기 위한 새로운 연구 가설 (📌 우리가 수립하는 가설)
가설 수립 절차
: 해결해야 할 문제 y를 설명하기 위한 요인 x를 찾아 가설의 구조를 정의한다. (x→y)
02 Data Understanding
- 데이터 원본 식별 및 취득
- 데이터 탐색 : EDA, CDA
EDA(탐색적 데이터 분석)
- 개별 데이터의 분포를 통해 가설이 맞는지 파악한다.
- NA값이나 이상치를 파악한다.
- e.g.1) 그래프 - Histogram, Box plot, Density plot, Bar plot, Pie chart, Scatter plot 등
- e.g.2) 통계량 - 분할표, 최솟값, 최댓값, 함계, 평균, 사분위수 등
CDA(확증적 데이터 분석)
- 탐색으로 파악하기 애매한 정보는 통계적 분석 도구를 사용한다.
- e.g.) 통계적 분석 도구 - 가설검정, 실험
✅ [ EDA 및 CDA 진행 순서 ]
1. 단변량 분석 (개별 변수의 분포)
e.g. 타이타닉 탑승객의 나이 분석2. 이변량 분석 1 (Feature-Target 간의 관계) - 가설을 확인하는 단계
e.g. 객실 등급 → 생존 여부 : 객실 등급에 따라 생존 여부에 차이가 있는 지 확인한다.
3. 이변량 분석 2 (Feature들 간의 관계)
03 Data Preparation
다음은 Data Preparation 단계에서 수행되는 내용이다.
결측치 조치
∵ 모든 셀에 값이 있어야 한다.가변수화
- 범주를 숫자로 변환하는 것을 말한다. ∵ 모든 값은 숫자여야 한다.스케일링
∵ 값의 범위를 일치 시켜야 할 경우가 있다.-
데이터 분할
04 Modeling
중요 변수들을 선택하고 적절한 알고리즘을 적용해 예측 모델을 생성한다.
Modeling 단계에서는 다음 내용들이 수행된다.
중요 변수 선정
모델 생성
모델 성능 검증
📝 모델링에 필요한 것 : ① 학습 데이터 ② 알고리즘
모델링은 데이터로부터 패턴을 찾는 과정으로 오차를 최소화 하는 패턴이다.
🚩 모델링의 결과물 : 모델 (수학식으로 표현됨)
05 Evaluation
모델에 대한 데이터 분석 목표와 비즈니스 목표 달성에 대한 평가 등을 진행한다. 모델에 대한 최종 평가는 Test Set를 이용하며 비즈니스 기대가치 평가가 수행된다.
06 Deployment
프로젝트 결과물 최종 확정과 운영 시스템에서 품질 유지 기준을 정하며 모니터링 계획을 수립한다.
수행되는 내용은 다음과 같다.
-
시스템 유효성 검사
: 배포된 모델과 고객 요구 사항을 충족하는 지 확인 -
프로젝트 이전
: 운영환경으로 배포 - 데이터 수집부터 모델 배포 관리까지 파이프라인으로 구성해야 한다.
'데이터 사이언스 > 데이터 분석·전처리' 카테고리의 다른 글
[Python] matplotlib, seaborn을 이용한 이변량 분석 (0) | 2023.02.11 |
---|---|
[Python] matplotlib, seaborn을 이용한 단변량 분석 (0) | 2023.02.11 |
[Python] Pandas 시계열 데이터 다루기 - 날짜, shift, rolling, diff (0) | 2023.02.08 |
[Python] Pandas DataFrame 사용법 정리 2 - 변경, 결합 (0) | 2023.02.07 |
[Python] Pandas DataFrame 사용법 정리 1 - 생성, 정보 확인, 정렬, 조회, 집계 (0) | 2023.02.07 |