전체 글 208

[챌린지] 시계열 기반 머신러닝 모델과 MLops 적용기 - 2회차(2)

4. ARMA 자기회귀(AR)과 이동평균(MA) 모델을 결합한 방식으로 현재값이 과거값과 과거 오차항에 모두 의존한다고 가정한다. ARMA(p, q)에서 p는 AR 모형의 차수(현재 값에 영향을 미치는 과거 시점의 개수), q는 MA 모형의 차수(현재 값에 영향을 미치는 이전 오차항 개수)를 말한다.from statsmodels.tsa.arima.model import ARIMAmodel = ARIMA(data, order=(p, 0, q)) # 데이터에 ARMA(p, q) 모형 적용하기model_fit = model.fit()model_fit.summary() # 모델 출력 5. ARIMA 비정상 시계열에서 차분을 통해 추세와 계절성을 제거해 정상성을 확보한 후 ARMA 모델을 적용하는 방식이다(AR ..

[챌린지] 시계열 기반 머신러닝 모델과 MLops 적용기 - 2회차(1)

1. 정상시계열 검정 AR 모형을 적용하기 전, 시계열 데이터가 정상성을 만족하는지 검정이 필요하다. 정상성은 데이터의 평균과 분산이 시간에 따라 일정한 상태를 의미한다. 시계열이 정상성을 만족하지 않으면 예측 모델의 성능이 저하될 수 있다. ADF(Argumented Dickey Fuller) 검정을 통해 시계열의 정상성 여부를 판단할 수 있다. ADF는 단위근의 존재 여부를 테스트하여 시계열의 정상성 여부를 판단하는 방법이다. 단위근이란 자기 회귀 계수가 1인 경우를 말한다.가설설명H0(대립가설)시계열에 단위근이 존재한다. 즉, 시계열이 비정상적이다H1(귀무가설)데이터에서는 단위근이 존재하지 않는다. 즉, 정상 시계열이다. 2. 이동평균 (Moving Average) 이동평균 모델은 과거의 예측 오류..

[스탠다드] 데이터 분석 - 1회차, 2회차

1. 프로젝트 기획 목표를 명확하게 해야 데이터를 효과적으로 수집하고 분석 결과를 실질적으로 활용할 수 있다. 분석 목표는 '우리가 도출하고자 하는 최종 결과물'을 말하는데 이 목표가 명확하지 않으면 데이터 분석 자체가 흐릿해질 수 있다. 목표를 SMART하게 설정하는 것이 중요한데 구체적(Specific), 측정 가능(Measurable), 달성 가능(Achievable), 관련성(Relevant), 시간 기반(Time-bound)이어야 한다. 예를 들면 '3개월 내 고객 이탈률을 10% 줄이자' 또는 '연말까지 제품 리뷰 중 긍정 리뷰 비율을 20% 늘리자'와 같은 것이 있다.- 가설 수립 가설 수립은 분석 목표를 달성하기 위해 검증해야하는 추측을 세우는 단계이다. 단순히 데이터를 바라보는 것이 아닌..

[챌린지] 시계열 기반 머신러닝 모델과 MLops 적용기 - 1회차

1. 데이터 분석 분야 개요구분설명 데이터 추출데이터를 효율적으로 추출하고 가공SQL, Python(Pandas)데이터 시각화효과적인 데이터 정보 획득을 도와줌Tableau, Power BI, Looker Studio, Excel기초 통계 분석데이터의 기본적인 특성을 이해기술통계(평균, 표준편차, 백분율), 가설검정(t-test, chi-square, ANOVA)고급 통계 분석복잡한 관계를 탐색하고 모델링인과추론(RCT-A/B test, 선형회귀, 매칭), 시계열 분석(ARIMA), 생본분석(Cox Regression), 다변량분석(PCA, Factor Analysis), 연관분석(장바구니 분석, Apriori 알고리즘)머신러닝데이터를 통해 패턴을 학습하고 예측지도학습, 비지도학습, 추천시스템, 텍스트 ..

[TIL] 지표 특강 - 5회차(2)

5. 코호트 분석 코호트는 동질 집단을 의미하며 코호트 분석이란 특정 기간 동안 공통된 특성을 경험한 사용자 행동을 그룹으로 나눠 지표별로 수치화해서 분석하는 기법을 말한다. 특정 기간 동안 공통된 특성을 경험한 코호트 유저 집단의 첫 구매일로부터 재구매까지의 차이를 파악한다. 어떤 코호트가 높은 리텐션을 유지하고 있는지, 어떤 코호트에서 하락이 나타나는지를 호가인하여 전략을 수립할 수 있다. - 분석 기준 잡기 1) 측정 기간 정의: 전체 기간 / 시점을 어떻게 잡을 것인가? - 일별, 주별, 월별, 분기별, 연도별 2) 코호트 측정 기준 정의: 기준으로 어떻게 정의해야 할까? - 유입, 방문, 구매, 구독, 예약 3) 측정값 정의: 어떤 지표(측정값)를 기준으로 측정할까? - 활성 사용자 수, 특정 ..

[TIL] 지표 특강 - 5회차(1)

1. 대시보드 프로젝트 유의할 점 의사결정권자(대시보드 뷰어)가 어떤 부분을 궁금해할까? 라는 질문에서 시작해야 한다. 내가 보는 대시보드가 아닌 의사결정권자 관점에서 대시보드를 이해하는데 어려움은 없는지 생각해야  한다.- 대시보드 제작 시 유의할 점 1) 주요 지표를 어떻게 설계할 것인가? 2) 유관 부서가 필수로 요청하는 지표는 없을까? 3) 어떤 종류의 필터를 몇 가지 넣을 것인가? 4) 모든 정보와 필터를 한 페이지에 배치하지 않는다. 5) 하나의 차트와 대시보드에 너무 많은 정보와 데이터를 담지 않는다. 6) 복잡한 차트가 아닌 색상으로 강조한다.2. 대시보드 필터 대시보드 필터는 뷰어 관점에서 활용하기 쉽도록 잘 보이는 곳에 배치해야 한다.- 시간 필터 1) start date, end da..

[WIL] 주간회고 12주차

월요일~~~ 실전프로젝트 시작 게임 데이터 골랐다가 데이터로 혼나고 다시 주제 변경 포기하기 전까지 나름 열심히는 했다... 블로그랑 컴 메모에 궁금증만 그득하게 남기고 폐기 처분  이커머스로 변경하게 됐는데 뭔가 저번에 했기도 하고 만약 하게된다면 튜터님들의 피드백을 모두 반영해야할 것만 같은 그런.. 느낌..? 그래서 약간 안 하고 싶었다...ㅎ 근데 선택지도 많이 없고 빠르게 무언가 결과물을 낼 수 있는 건 아마존 데이터라고 생각해서 팀원 다 같이 상의해서 아마존 데이터를 사용하는 걸로 결정했다  저녁 늦게 주제가 정해져서 학원 가기 전에 간단하게 어떤 지표를 만들 수 있을지 고민 해보고 데이터 훑어보면서 어떻게 해야할지 대충 감만 잡아봤다 학원 끝나고 집중해서 보는데 데이터 컬럼이 되게 많고 로우..

[TIL] 지표 특강 - 4회차

1. 지표의 종류- OKR 조직이나 팀이 특정 기간 동안 달성하고자 하는 목표를 설정하는 프레임워크를 말한다.- KPI 회사의 주요 성과 지표를 말한다. 회사의 KPI 지표는 비즈니스 상황에 따라 연도별, 분기별 등 계속 바뀐다. SMART KPI란 Specific: 구체적인, Measurable: 측정 가능한, Achievable: 달성 가능한, Relevant: 다른 비표와 비슷한 방향, Time-bound: 정해진 시간 범위의 약어를 말한다.- 정성 지표 인터뷰, 설문 조사 데이터를 NPS(Net Promoter Score)를 활용해서 정량화한다.- 정량 지표 특정 유저의 행동을 표현한 수치 및 비율을 말한다. 예를 들어 전년 대비 매출 30% 증대, 전월 대비 전환율 2% 증가 등이 있다.- 선행..

[아티클 스터디] 더 나은 대시보드 디자인을 위한 10개명

1. 대시보드의 목적을 정의하라 대시보드는 정확한 목적을 이루기 위해 존재한다. 여기서 틀리면 추후의 노력은 의미가 없어질 수 있다. 어떠한 대시보드를 사용하던 사용자의 역할과 무엇을 만족해야 하는지를 선택해야 한다. 대시보드를 기능 바탕으로 흔하게 묶는 방법들이 있다.- Operational Dashboard Operational Dashboard란 사용자들에게 데이터 편차를 빠르고 정확하게 보여주고 현재 리소스와 상태를 알려주는 것을 말한다. 시각적으로 보조 기능을 보여주며 사용자들이 빠르고 능동적이고 효율적으로 만드는 디지털 컨트롤 룸이다.- Analytical Dashboard Operational Dashboard와 반대로 분석과 의사결정을 지을 수 있는 정보를 한눈에 보게하고, 대신 시간에 예..

아티클스터디 2024.09.10

[아티클 스터디] 분석 목적에 맞는 고객 세그먼테이션 방법을 찾아서 : Customer segmentation

1. 고객 세그먼테이션 대표적 2가지 기법  첫째로, 위치적 세분화(지역별로 구분), 인구통계학적 세분화(연령, 성별 등으로 구분), 행동적 세분화(구매 행동, 사용 패턴, 충성도 등으로 구분), 심리학적 세분화(가치, 라이프스타일 등으로 구분)으로 나눌 수 있다.둘째로, 통계 모델을 활용한 예측 모델 및 추천시스템으로 예측 고객 세그먼테이션, 추천기반 세그먼테이션이 있다. 2. 접근방법 3. 5단계 고객 세그먼테이션 방법- 1단계: 특성기반 고객 세그먼테이션세그먼테이션설명인구통계학적 세그먼테이션사용 기기(e.g. 안드로이드, IOS, 태블릿 등), 나이, 성별과 같은 공통된 간단한 특성을 바탕으로 고객을 여러 그룹으로 나눠 진행빠르게 세그먼테이션을 진행할 수 있는 가장 원초적이고 널리 알려진 간단한 방..

아티클스터디 2024.09.09