Today I Learned (TIL)/Python

[챌린지] 시계열 기반 머신러닝 모델과 MLops 적용기 - 1회차

신짜린 2024. 9. 25. 13:25

1. 데이터 분석 분야 개요

구분 설명  
데이터 추출 데이터를 효율적으로 추출하고 가공 SQL, Python(Pandas)
데이터 시각화 효과적인 데이터 정보 획득을 도와줌 Tableau, Power BI, Looker Studio, Excel
기초 통계 분석 데이터의 기본적인 특성을 이해 기술통계(평균, 표준편차, 백분율), 가설검정(t-test, chi-square, ANOVA)
고급 통계 분석 복잡한 관계를 탐색하고 모델링 인과추론(RCT-A/B test, 선형회귀, 매칭), 시계열 분석(ARIMA), 생본분석(Cox Regression), 다변량분석(PCA, Factor Analysis), 연관분석(장바구니 분석, Apriori 알고리즘)
머신러닝 데이터를 통해 패턴을 학습하고 예측 지도학습, 비지도학습, 추천시스템, 텍스트 마이닝
딥러닝 신경망 모델 기반으로 비정형 데이터를 처리하고 학습 생성형 AI(이미지, 자연어)
컴퓨터 비전 이미지를 인식, 객체 검출, 분류 -
강화 학습 AI가 환경과 상호작용하며 최적의 행동을 학습 -

 

2. 시계열 분석

 과거의 흐름으로 미래를 예측하는 방법론 중 하나이다. Meta는 Prophet모델, 딥러닝에서는 LSTM, RNN, transformer 등 다양한 시계열 모델들이 개발되었다.

 시계열 데이터는 시간, 측정값 단 2개의 데이터로만 이루어져 있다.

- 추세(Trend)

 시간이 지남에 따라 지속적이고 일관된 방향으로 변화하는 장기적 패턴을 말한다.

- 계절성(Seasonality)

 일정한 시간 주기에 따라 반복되는 패턴으로 주로 연간 주기를 따르며 특정 계절에 따라 데이터가 반복적인 변동을 보이는 경우를 말한다.

- 주기성(Cycles)

 경제적, 사회적, 정치적 요인에 의해 발생하는 불규칙한 변동 패턴을 말한다. 

- 잔차(Residual)

 시계열 데이터에서 추세와 계절성을 제거한 후 남는 무작위적 변화량을 말한다. 특정 패턴을 가지지 않으며 주로 백색소음(White Noise)처럼 랜덤한 요소이다.

 

3. 시계열 VS 회귀

구분 시계열 예측 회귀 예측
데이터 순서 데이터 순서 중요함(시간 순서를 반드시 유지) 데이터 순서가 중요하지 않은 경우가 많음
피처(데이터 특성) 하나의 피처를 사용(주로 과거의 값) 여러개의 피처를 사용
장점 시간의 흐름 포착 가능
이해와 해석이 용이
여러 변수 간 관계분석 가능
비선형 패턴 학습 가능
단점 다변량 분석 제한
비선형 모델링 제한
시간에 따른 의존성 무시
과적합 위험성

 

4. 확률 보행 프로세스

- 확률 보행

 확률 보행(Random Walk)이란 평균과 분산이 시간이 지나도 일정하지 않은 비정상 시계열을 말한다. 확률 보행은 확률이 개입하는 다양한 현상을 설명하는 데 필수적인 모델이다.

 확률 보행은 비정상성을 보이고 차분 후에 정상성을 확보할 수 있다.

- 정상성

 정상성이란 시계열의 통계적 성질이 시간에 따라 변하지 않는 상태를 말한다.

 정상성 시계열은 세 가지 조건이 필요하다.

 1) 시계열의 평균이 시간에 따라 변하지 않고 일정

 2) 시계열의 분산이 시간에 따라 일정

 3) 시계열의 두 시점 간 공분산이 시간(t)에 의존하지 않고 시간의 차(h)에만 의존

[챌린지] 과제.html
0.71MB
[챌린지] 과제.ipynb
0.15MB