1. EDA
EDA란 탐색적 데이터 분석(Exploratory Data Analysis)으로 데이터에 대한 기본적인 이해를 돕기 위해 수행되는 분석 단계로 데이터의 구조와 패턴을 파악하고, 변수 간의 관계를 시각화하여 인사이트를 도출하는 과정이다.
EDA는 데이터 이해(데이터의 분포, 이상치, 결측값 파악), 모델링 준비(데이터 전처리 및 모델에 적합한 변환을 결정하는 데 도움), 가설 설정(데이터에 기반한 가설을 세우고 이를 검증)이 가능하므로 중요한 과정증 하나이다.
2. 자동 EDA 패키지 활용
타이타닉 데이터를 자동 EDA 패키지를 사용하여 분석할 수 있다.
# 1. Pandas Profiling
from pandas_profiling import ProfileReport
# 타이타닉 데이터 프로파일링
profile = ProfileReport(titanic, title="Titanic Dataset Profiling Report")
profile.to_notebook_iframe()
-----------------------------------------------------------------------------------------------
# 2. Sweetviz
import sweetviz as sv
# 타이타닉 데이터 분석 리포트 생성
report = sv.analyze(titanic)
report.show_html('Titanic_EDA_report.html')
-----------------------------------------------------------------------------------------------
# 3. D-Tale
import dtale
# 타이타닉 데이터셋의 인터랙티브 EDA
d = dtale.show(titanic)
d.open_browser()
3. 머신러닝 과정
모델 선택에는 문제의 유형(회귀, 분류)과 데이터의 특성에 맞게 적절한 모델을 선택하는 것이 중요하다.
머신러닝은 데이터에 결측값이 포함되어 있는 경우 모델 학습에 문제가 생길 수 있으므로 결측값 처리 후 모델 학습을 진행해야 하며 수치형 변수는 표준화하고 범주형 변수는 인코딩해주는 전처리 과정도 진행해야 한다.
결측값과 전처리를 모두 완료 했다면 학습 데이터와 테스트 데이터로 나눈 후 파이프라인을 구성하여 전처리, 특성 선택, 모델 학습을 일관되게 처리해준다.
마지막으로 모델을 평가하고 모델의 하이퍼파라미터를 튜닝함으로써 최적의 값을 찾아내면 된다.
'Today I Learned (TIL) > Python' 카테고리의 다른 글
[챌린지] 시계열 기반 머신러닝 모델과 MLops 적용기 - 2회차(2) (0) | 2024.10.01 |
---|---|
[챌린지] 시계열 기반 머신러닝 모델과 MLops 적용기 - 2회차(1) (1) | 2024.09.30 |
[스탠다드] 데이터 분석 - 1회차, 2회차 (0) | 2024.09.25 |
[챌린지] 시계열 기반 머신러닝 모델과 MLops 적용기 - 1회차 (2) | 2024.09.25 |
[TIL] 머신러닝의 심화 - 데이터분석 프로세스(3) (0) | 2024.08.18 |