* 빅데이터 분석 방법론
1단계: 분석 기획 (Analysis Planning)
핵심: "비즈니스 요구사항 정의 및 SOW(작업 범위) 확정"
설명: 코딩부터 하는 게 아니라, 프로젝트의 목표(KPI)를 정하고 리스크를 따지는 단계입니다.
2단계: 데이터 준비 (Data Preparation)
핵심: "데이터 파이프라인(ETL) 및 저장소 구축"
설명: 로컬에 csv 파일을 받는 수준이 아닙니다.
데이터 스토어 설계: RDB, NoSQL, 하둡(HDFS) 등 데이터를 어디에 어떻게 저장할지 아키텍처를 짭니다.
3단계: 데이터 분석 (Data Analysis)
핵심: "모델링 및 알고리즘 개발 (Notebook 환경)"
설명: 익숙하신 머신러닝/딥러닝 작업이 수행되는 단계입니다.
텍스트 분석: 비정형 데이터(로그, 댓글 등) 처리가 별도 태스크로 명시된 것이 특징입니다.
탐색적 분석(EDA) & 모델링: 데이터를 까보고(EDA), Train/Test 셋 나눠서 모델을 학습(Fitting)시킵니다.
4단계: 시스템 구현 (System Implementation)
핵심: "프로덕션 환경 배포 및 애플리케이션 개발"
설명: 이 부분이 KDD/CRISP-DM과 가장 큰 차이점입니다.
분석 모델을 .pt나 .pkl로 끝내는 게 아니라, 이를 서빙할 API 서버(FastAPI 등)를 구축하고, 결과를 시각화할 대시보드(React 등)나 시스템을 실제로 개발합니다.
5단계: 평가 및 전개 (Evaluation & Deployment)
핵심: "프로젝트 종료 및 유지보수(MLOps) 계획 수립"
설명: 프로젝트가 목표(KPI)를 달성했는지 평가하고 넘깁니다.
- 분석 마스터 플랜: **"숲"**을 보는 단계 (전략)
- 우리 회사가 앞으로 1년 동안 해야 할 분석 과제들의 우선순위와 일정을 짜는 큰 그림.
- 빅데이터 분석 방법론 (5단계): **"나무"**를 심고 가꾸는 단계 (실행)
- 마스터 플랜에서 "이거 하자!"고 정해진 특정 과제 하나를 실제로 수행할 때 따르는 절차.
즉, 마스터 플랜을 먼저 짜고(로드맵 수립), 거기서 선정된 과제 각각에 대해 분석 방법론(5단계)을 적용해서 프로젝트를 진행하는 것입니다.
마스터 플랜 수립-
사분면(Quadrant) 분석을 활용한 우선순위 평가 기준-

* 분석 마스터 플랜- 분석 거버넌스
마스터 플랜은 **"계획표(Roadmap)"**입니다.
분석 거버넌스는 그 계획을 실행할 **"관리 체계(System)"**입니다.
(1) 분석 거버넌스 체계 수립 (이미지 1의 왼쪽)
- 의미: 분석을 일회성 이벤트로 끝내지 않고, 회사의 문화로 박으려면 **5가지(조직, 프로세스, 시스템, 데이터, 인력)**를 챙겨야 한다는 말입니다.
- 왜 나왔냐?: 이게 최종적으로 우리가 만들어야 할 **"완성된 회사의 모습"**이기 때문입니다.
(2) 데이터 분석 수준 진단 (이미지 1의 오른쪽 ~ 이미지 2)
- 거버넌스를 만들려면 현재 상태를 알아야 하니까 **진단(테스트)**을 합니다. 여기서 두 가지 척도가 튀어나옵니다. 이 둘의 차이를 아는 게 핵심입니다.
- ① 분석 준비도 (Readiness): "너네 뭐 가지고 있어?" (하드웨어/스펙)
- 분석할 데이터는 있어? 서버는? 인력은? 조직은?.
- 핵심: 기초 체력을 묻는 겁니다. 6가지 영역(업무, 인력, 기법, 데이터, 문화, 인프라)을 체크합니다.
- ② 분석 성숙도 (Maturity): "너네 얼마나 잘 써?" (소프트웨어/활용능력)
- 장비가 좋아도 쓸 줄 모르면 꽝이죠. CMMI 모델을 빌려와서, 분석을 단순히 '도입'만 했는지, 아니면 전사에 '확산'됐는지, '최적화'까지 하는지 단계를 매깁니다.
- 핵심: 활용 수준을 묻는 겁니다. (도입 -> 활용 -> 확산 -> 최적화).
- ① 분석 준비도 (Readiness): "너네 뭐 가지고 있어?" (하드웨어/스펙)
(3) 진단 결과 4분면 (이미지 2의 오른쪽)

- 위의 두 가지(준비도, 성숙도) 점수를 매겨서 그래프(X축, Y축)를 그려보니 4가지 유형이 나오더라는 겁니다.
- 준비형: 준비도(장비)는 낮은데 성숙도(열정/활용)도 낮음 -> "사전 준비부터 해라".
- 정착형: 준비도(장비)는 낮은데 성숙도(활용)만 높음 -> "인력/조직/데이터 좀 지원해 줘라".
- 도입형: 준비도(장비)는 빵빵한데 성숙도(활용)가 낮음 -> "있는 거나 좀 제대로 써먹어라".
- 확산형: 둘 다 높음 -> "완벽함. 계속 가자".
- 거버넌스: 분석을 관리하기 위한 5가지 요소 (조직, 프로세스, 시스템, 데이터, 인력)
- 준비도(Readiness): "있냐 없냐" (기반, 인프라)
- 성숙도(Maturity): "잘하냐 못하냐" (단계, 프로세스, CMMI)
- 결과: 이 두 개 섞어서 **4가지 유형(준비/정착/도입/확산)**으로 나누고 처방 내림.
- 대장 (Lv. 1): 분석 거버넌스 체계
- "분석을 잘하기 위해 5가지를 관리하자!" (조직, 프로세스, 시스템, 데이터, 인력)
- 여기서 4번째 '데이터'를 줌인(Zoom-in) 합니다. ⬇️
- 중간 보스 (Lv. 2): 데이터 거버넌스 (방금 올리신 이미지들)
- "그럼 그 5가지 중 **'데이터'**는 구체적으로 어떻게 관리할 건데?"
- "4가지 방법으로 할 거야." (①표준화하고, ②관리 체계 잡고, ③저장소 만들고, ④감시 활동 하고)
- 심판 (Check): 데이터 분석 수준 진단 (준비도 & 성숙도)
- "그래서 너네, 저 데이터 거버넌스(표준화, 관리 등) 잘 지키고 있어?"
- 이걸 점수 매겨서 **4분면(준비형, 정착형 등)**으로 결과를 내는 겁니다.