1. 프로젝트 기획
목표를 명확하게 해야 데이터를 효과적으로 수집하고 분석 결과를 실질적으로 활용할 수 있다. 분석 목표는 '우리가 도출하고자 하는 최종 결과물'을 말하는데 이 목표가 명확하지 않으면 데이터 분석 자체가 흐릿해질 수 있다.
목표를 SMART하게 설정하는 것이 중요한데 구체적(Specific), 측정 가능(Measurable), 달성 가능(Achievable), 관련성(Relevant), 시간 기반(Time-bound)이어야 한다.
예를 들면 '3개월 내 고객 이탈률을 10% 줄이자' 또는 '연말까지 제품 리뷰 중 긍정 리뷰 비율을 20% 늘리자'와 같은 것이 있다.
- 가설 수립
가설 수립은 분석 목표를 달성하기 위해 검증해야하는 추측을 세우는 단계이다. 단순히 데이터를 바라보는 것이 아닌 특정한 가설을 세우고 이를 증명하거나 반박하는 것이 중요하다.
일반적으로 가설은 이진 형태를 띈다. 수립한 가설의 정확도가 30%로 나와 가설을 기각해야 하는 상황이라면 반대로 생각하면 70%의 정확도를 가지고 있다는 의미가 되므로 가설을 무조건 기각시키는 것이 아닌 증명된 결과를 활용하는 것이 좋다.
가설은 우리가 예상하는 결론으로 이를 데이터를 통해 검증하는 것이 데이터 분석의 핵심이다.
- 목표와 가설의 차이점
목표는 우리가 이루고자하는 최종 결과를 말한다. '무엇을 하고 싶은가?'를 설명한다. 가설은 그 목표를 달성하기 위한 검증 가능한 추측이다. 왜 이런 일이 일어나는지, 무엇을 하면 그 목표를 이룰 수 있는지 추측하는 것이다.
2. 데이터 수집
데이터 수집은 프로젝트 성공의 또 다른 중요한 요소이다. 어떤 데이터를 사용하는지에 따라 분석의 정확성과 활용성이 달라진다. 다양한 데이터 소스를 찾는 것이 중요하다.
- 공공데이터
- Google Dataset Search
- Kaggle
3. 데이터 전처리
- 데이터 구조와 요약 통계 확인을 통해 기본적인 내용을 확인한다.
- 결측치 처리, 이상치 탐지
- 데이터 타입 변환 (인코딩, 스케일링)
'Today I Learned (TIL) > Python' 카테고리의 다른 글
[챌린지] 시계열 기반 머신러닝 모델과 MLops 적용기 - 2회차(2) (0) | 2024.10.01 |
---|---|
[챌린지] 시계열 기반 머신러닝 모델과 MLops 적용기 - 2회차(1) (1) | 2024.09.30 |
[챌린지] 시계열 기반 머신러닝 모델과 MLops 적용기 - 1회차 (2) | 2024.09.25 |
[TIL] 머신러닝의 심화 - 데이터분석 프로세스(3) (0) | 2024.08.18 |
[TIL] 머신러닝의 심화 - 데이터분석 프로세스(2) (0) | 2024.08.16 |