1. 데이터 분석 분야 개요
구분 | 설명 | |
데이터 추출 | 데이터를 효율적으로 추출하고 가공 | SQL, Python(Pandas) |
데이터 시각화 | 효과적인 데이터 정보 획득을 도와줌 | Tableau, Power BI, Looker Studio, Excel |
기초 통계 분석 | 데이터의 기본적인 특성을 이해 | 기술통계(평균, 표준편차, 백분율), 가설검정(t-test, chi-square, ANOVA) |
고급 통계 분석 | 복잡한 관계를 탐색하고 모델링 | 인과추론(RCT-A/B test, 선형회귀, 매칭), 시계열 분석(ARIMA), 생본분석(Cox Regression), 다변량분석(PCA, Factor Analysis), 연관분석(장바구니 분석, Apriori 알고리즘) |
머신러닝 | 데이터를 통해 패턴을 학습하고 예측 | 지도학습, 비지도학습, 추천시스템, 텍스트 마이닝 |
딥러닝 | 신경망 모델 기반으로 비정형 데이터를 처리하고 학습 | 생성형 AI(이미지, 자연어) |
컴퓨터 비전 | 이미지를 인식, 객체 검출, 분류 | - |
강화 학습 | AI가 환경과 상호작용하며 최적의 행동을 학습 | - |
2. 시계열 분석
과거의 흐름으로 미래를 예측하는 방법론 중 하나이다. Meta는 Prophet모델, 딥러닝에서는 LSTM, RNN, transformer 등 다양한 시계열 모델들이 개발되었다.
시계열 데이터는 시간, 측정값 단 2개의 데이터로만 이루어져 있다.
- 추세(Trend)
시간이 지남에 따라 지속적이고 일관된 방향으로 변화하는 장기적 패턴을 말한다.
- 계절성(Seasonality)
일정한 시간 주기에 따라 반복되는 패턴으로 주로 연간 주기를 따르며 특정 계절에 따라 데이터가 반복적인 변동을 보이는 경우를 말한다.
- 주기성(Cycles)
경제적, 사회적, 정치적 요인에 의해 발생하는 불규칙한 변동 패턴을 말한다.
- 잔차(Residual)
시계열 데이터에서 추세와 계절성을 제거한 후 남는 무작위적 변화량을 말한다. 특정 패턴을 가지지 않으며 주로 백색소음(White Noise)처럼 랜덤한 요소이다.
3. 시계열 VS 회귀
구분 | 시계열 예측 | 회귀 예측 |
데이터 순서 | 데이터 순서 중요함(시간 순서를 반드시 유지) | 데이터 순서가 중요하지 않은 경우가 많음 |
피처(데이터 특성) | 하나의 피처를 사용(주로 과거의 값) | 여러개의 피처를 사용 |
장점 | 시간의 흐름 포착 가능 이해와 해석이 용이 |
여러 변수 간 관계분석 가능 비선형 패턴 학습 가능 |
단점 | 다변량 분석 제한 비선형 모델링 제한 |
시간에 따른 의존성 무시 과적합 위험성 |
4. 확률 보행 프로세스
- 확률 보행
확률 보행(Random Walk)이란 평균과 분산이 시간이 지나도 일정하지 않은 비정상 시계열을 말한다. 확률 보행은 확률이 개입하는 다양한 현상을 설명하는 데 필수적인 모델이다.
확률 보행은 비정상성을 보이고 차분 후에 정상성을 확보할 수 있다.
- 정상성
정상성이란 시계열의 통계적 성질이 시간에 따라 변하지 않는 상태를 말한다.
정상성 시계열은 세 가지 조건이 필요하다.
1) 시계열의 평균이 시간에 따라 변하지 않고 일정
2) 시계열의 분산이 시간에 따라 일정
3) 시계열의 두 시점 간 공분산이 시간(t)에 의존하지 않고 시간의 차(h)에만 의존
'Today I Learned (TIL) > Python' 카테고리의 다른 글
[챌린지] 시계열 기반 머신러닝 모델과 MLops 적용기 - 2회차(1) (1) | 2024.09.30 |
---|---|
[스탠다드] 데이터 분석 - 1회차, 2회차 (0) | 2024.09.25 |
[TIL] 머신러닝의 심화 - 데이터분석 프로세스(3) (0) | 2024.08.18 |
[TIL] 머신러닝의 심화 - 데이터분석 프로세스(2) (0) | 2024.08.16 |
[TIL] 머신러닝의 심화 - 데이터분석 프로세스(1) (0) | 2024.08.16 |