Today I Learned (TIL) 71

[스탠다드] 데이터 분석 - 3회차, 4회차

1. EDA EDA란 탐색적 데이터 분석(Exploratory Data Analysis)으로 데이터에 대한 기본적인 이해를 돕기 위해 수행되는 분석 단계로 데이터의 구조와 패턴을 파악하고, 변수 간의 관계를 시각화하여 인사이트를 도출하는 과정이다. EDA는 데이터 이해(데이터의 분포, 이상치, 결측값 파악), 모델링 준비(데이터 전처리 및 모델에 적합한 변환을 결정하는 데 도움), 가설 설정(데이터에 기반한 가설을 세우고 이를 검증)이 가능하므로 중요한 과정증 하나이다. 2. 자동 EDA 패키지 활용 타이타닉 데이터를 자동 EDA 패키지를 사용하여 분석할 수 있다.# 1. Pandas Profilingfrom pandas_profiling import ProfileReport# 타이타닉 데이터 프로파일링..

[챌린지] 시계열 기반 머신러닝 모델과 MLops 적용기 - 2회차(2)

4. ARMA 자기회귀(AR)과 이동평균(MA) 모델을 결합한 방식으로 현재값이 과거값과 과거 오차항에 모두 의존한다고 가정한다. ARMA(p, q)에서 p는 AR 모형의 차수(현재 값에 영향을 미치는 과거 시점의 개수), q는 MA 모형의 차수(현재 값에 영향을 미치는 이전 오차항 개수)를 말한다.from statsmodels.tsa.arima.model import ARIMAmodel = ARIMA(data, order=(p, 0, q)) # 데이터에 ARMA(p, q) 모형 적용하기model_fit = model.fit()model_fit.summary() # 모델 출력 5. ARIMA 비정상 시계열에서 차분을 통해 추세와 계절성을 제거해 정상성을 확보한 후 ARMA 모델을 적용하는 방식이다(AR ..

[챌린지] 시계열 기반 머신러닝 모델과 MLops 적용기 - 2회차(1)

1. 정상시계열 검정 AR 모형을 적용하기 전, 시계열 데이터가 정상성을 만족하는지 검정이 필요하다. 정상성은 데이터의 평균과 분산이 시간에 따라 일정한 상태를 의미한다. 시계열이 정상성을 만족하지 않으면 예측 모델의 성능이 저하될 수 있다. ADF(Argumented Dickey Fuller) 검정을 통해 시계열의 정상성 여부를 판단할 수 있다. ADF는 단위근의 존재 여부를 테스트하여 시계열의 정상성 여부를 판단하는 방법이다. 단위근이란 자기 회귀 계수가 1인 경우를 말한다.가설설명H0(대립가설)시계열에 단위근이 존재한다. 즉, 시계열이 비정상적이다H1(귀무가설)데이터에서는 단위근이 존재하지 않는다. 즉, 정상 시계열이다. 2. 이동평균 (Moving Average) 이동평균 모델은 과거의 예측 오류..

[스탠다드] 데이터 분석 - 1회차, 2회차

1. 프로젝트 기획 목표를 명확하게 해야 데이터를 효과적으로 수집하고 분석 결과를 실질적으로 활용할 수 있다. 분석 목표는 '우리가 도출하고자 하는 최종 결과물'을 말하는데 이 목표가 명확하지 않으면 데이터 분석 자체가 흐릿해질 수 있다. 목표를 SMART하게 설정하는 것이 중요한데 구체적(Specific), 측정 가능(Measurable), 달성 가능(Achievable), 관련성(Relevant), 시간 기반(Time-bound)이어야 한다. 예를 들면 '3개월 내 고객 이탈률을 10% 줄이자' 또는 '연말까지 제품 리뷰 중 긍정 리뷰 비율을 20% 늘리자'와 같은 것이 있다.- 가설 수립 가설 수립은 분석 목표를 달성하기 위해 검증해야하는 추측을 세우는 단계이다. 단순히 데이터를 바라보는 것이 아닌..

[챌린지] 시계열 기반 머신러닝 모델과 MLops 적용기 - 1회차

1. 데이터 분석 분야 개요구분설명 데이터 추출데이터를 효율적으로 추출하고 가공SQL, Python(Pandas)데이터 시각화효과적인 데이터 정보 획득을 도와줌Tableau, Power BI, Looker Studio, Excel기초 통계 분석데이터의 기본적인 특성을 이해기술통계(평균, 표준편차, 백분율), 가설검정(t-test, chi-square, ANOVA)고급 통계 분석복잡한 관계를 탐색하고 모델링인과추론(RCT-A/B test, 선형회귀, 매칭), 시계열 분석(ARIMA), 생본분석(Cox Regression), 다변량분석(PCA, Factor Analysis), 연관분석(장바구니 분석, Apriori 알고리즘)머신러닝데이터를 통해 패턴을 학습하고 예측지도학습, 비지도학습, 추천시스템, 텍스트 ..

[TIL] 지표 특강 - 5회차(2)

5. 코호트 분석 코호트는 동질 집단을 의미하며 코호트 분석이란 특정 기간 동안 공통된 특성을 경험한 사용자 행동을 그룹으로 나눠 지표별로 수치화해서 분석하는 기법을 말한다. 특정 기간 동안 공통된 특성을 경험한 코호트 유저 집단의 첫 구매일로부터 재구매까지의 차이를 파악한다. 어떤 코호트가 높은 리텐션을 유지하고 있는지, 어떤 코호트에서 하락이 나타나는지를 호가인하여 전략을 수립할 수 있다. - 분석 기준 잡기 1) 측정 기간 정의: 전체 기간 / 시점을 어떻게 잡을 것인가? - 일별, 주별, 월별, 분기별, 연도별 2) 코호트 측정 기준 정의: 기준으로 어떻게 정의해야 할까? - 유입, 방문, 구매, 구독, 예약 3) 측정값 정의: 어떤 지표(측정값)를 기준으로 측정할까? - 활성 사용자 수, 특정 ..

[TIL] 지표 특강 - 5회차(1)

1. 대시보드 프로젝트 유의할 점 의사결정권자(대시보드 뷰어)가 어떤 부분을 궁금해할까? 라는 질문에서 시작해야 한다. 내가 보는 대시보드가 아닌 의사결정권자 관점에서 대시보드를 이해하는데 어려움은 없는지 생각해야  한다.- 대시보드 제작 시 유의할 점 1) 주요 지표를 어떻게 설계할 것인가? 2) 유관 부서가 필수로 요청하는 지표는 없을까? 3) 어떤 종류의 필터를 몇 가지 넣을 것인가? 4) 모든 정보와 필터를 한 페이지에 배치하지 않는다. 5) 하나의 차트와 대시보드에 너무 많은 정보와 데이터를 담지 않는다. 6) 복잡한 차트가 아닌 색상으로 강조한다.2. 대시보드 필터 대시보드 필터는 뷰어 관점에서 활용하기 쉽도록 잘 보이는 곳에 배치해야 한다.- 시간 필터 1) start date, end da..

[TIL] 지표 특강 - 4회차

1. 지표의 종류- OKR 조직이나 팀이 특정 기간 동안 달성하고자 하는 목표를 설정하는 프레임워크를 말한다.- KPI 회사의 주요 성과 지표를 말한다. 회사의 KPI 지표는 비즈니스 상황에 따라 연도별, 분기별 등 계속 바뀐다. SMART KPI란 Specific: 구체적인, Measurable: 측정 가능한, Achievable: 달성 가능한, Relevant: 다른 비표와 비슷한 방향, Time-bound: 정해진 시간 범위의 약어를 말한다.- 정성 지표 인터뷰, 설문 조사 데이터를 NPS(Net Promoter Score)를 활용해서 정량화한다.- 정량 지표 특정 유저의 행동을 표현한 수치 및 비율을 말한다. 예를 들어 전년 대비 매출 30% 증대, 전월 대비 전환율 2% 증가 등이 있다.- 선행..

[TIL] 지표 특강 - 3회차

1. Activation 단계 Activation 단계란 우리 서비스를 유저들이 처음으로 경험하고 활성화하는 단계를 말한다. Activation은 5개의 단계로 이루어져 있어 유저가 우리 서비스에 처음 유입된 시점부터 재방문으로 이어지는 순간을 말한다. - 셋업 모먼트 유저가 우리 서비스의 핵심 가치를 이미 경험한 시점이다- 아하 모먼트 유저가 우리 서비스의 가치를 처음으로 인식하는 결정적인 순간을 의미한다. XX라는 행동을 가입한지 YY라는 날짜 안에 ZZ번 한다.- 유레카 모먼트 유저가 우리 서비스의 가치를 확장된 가치를 경험한 순간을 의미한다.- 해빗 모먼트 유저의 습관 형성의 순간 기준을 정하는 것이 중요하다. 유저들이 지속적으로 서비스를 사용하는 습관 형성을 할 수 있도록 만들어야 한다. 2. ..

[TIL] 지표 특강 - 2회차

1. 지표 프레임 워크 종류- 지표 프레임 워크 지표 중심으로 현재 서비스의 상황을 판단할 수 있다. 서비스 흐름에 따라 퍼널과 퍼널에 맞는 지표를 정의하고 해당 지표를 개선하기 Action을 수립한다. 그로스에 가장 많이 사용되는 지표 프레임 워크는 AARRR이며 GAME, HEART 등 다양한 지표 프레임 워크가 있다.- HEART 프레임 워크 (5단계) 1) 행복(Happiness): 사용자는 얼마나 행복합니까? - 앱 스토어 평점, NPS 2) 참여도(Engagement): 사용자가 단기적으로 얼마나 참여하고 있나요? - 구매 전환율, 유저당 주문 금액 3) 채택(Adoption): 얼마나 많은 관심을 가진 유저가 우리 서비스를 사용해 보았습니까? - 앱 다운로드 유저 수 4) 유지(Retenti..

[TIL] 지표 특강 - 1회차

1. 실무 데이터 분석의 종류- Ad-hoc 분석 (일회성 분석) 1) 엑셀 시트 레포트 2) 시각화 3) 단순 지표 추출 쿼리 4) 기술 통계량(평균값, 중앙값, 최소 최대값 등)유형종류설명적 분석Ad-hoc 분석, KPI 지표 정의진단적 분석self-service 분석, 시각화, A/B 테스트 도입예측적 분석예측 모델링, A/B 테스트 대시보드 자동화처방적 분석최적화, ML/DL 플랫폼, 자체 플랫폼 자동화 - Daily Scrum: 지표 확인 및 지표 증감 원인 파악 1) Overview 대시보드: 현재 서비스 상황 및 주요 지표 확인 2) By Dimension(시간별, 유저별, 세그먼트별 등) 대시보드: 지표 증감 원인 파악 3) 대시보드를 통해 원인 파악이 어렵거나 데이터를 더 깊게 봐야하는 ..

[TIL] 실습으로 배우는 태블로 - 4주차(3)

8. 실무 대시보드 종류- 매출 대시보드(OKR 체크, 매출 현황과 매출 증감 원인 파악)- 프로덕트 대시보드(AARRR, 퍼널 분석, 코호트 분석)- 마케팅 프로모션 대시보드( 캠페인이나 쿠폰의 ROI 측정, 시즌별 프로모션별 성과 비교)- 실험 대시보드(실험 매트릭 비교, 실험군 대조군 비교, 실험 세그먼트별 사후 분석)- 머신러닝 모델 모니터링 대시보드(모델 A와 B의 성능 비교 및 모니터링, 이상 탐지 모니터링) 9. 지속 가능한 대시보드 운영- 협업 시 체크 사항 1) 대시보드에 필요한 데이터 마트 만들기 2) 대시보드 뷰어 유관 부서와 지표 조율: 기준, 단위 등 합의 3) 측정값과 매개변수 폴더 정리: 네이밍 규칙 정하기 4) 대시보드 업데이트: 대시보드를 업데이트(ex. 지표 계산식 수정 ..

[TIL] 실습으로 배우는 태블로 - 4주차(2)

5. 대시보드 구축 프로세스① 대시보드 뷰어 및 목적 선정💡누가 보는 대시보드일까요?② 문제 정의💡어떤 목적으로 쓰는 대시보드일까요?③ 필요한 데이터 선정 및 데이터 마트 구축(실무)💡어떤 데이터가 필요할까요? (매출 데이터, 고객 데이터 등)④ 지표 선정💡어떤 지표들을 선정해야할까요?⑤ 스케치💡어떻게 대시보드 레이아웃을 구성할까요?💡어떤 컬러로 강조를 해야할까요?⑥ 시각화💡어떤 그래프를 활용해야할까요?⑦ 대시보드 완성⑧ 대시보드에서 이끌어내는 액션💡대시보드에서 어떤 의사결정과 액션을 수립할 수 있을까요?⑨ 완성된 대시보드 게시 또는 대시보드팀 뷰어 권한 부여(실무) 6. 지표 정의 및 선정- 비즈니스별 지표 선정 지표는 다양한 산업(이커머스, 모빌리티 등)에서 활용되고 있다. 산업과 주요..

[TIL] 실습으로 배우는 태블로 - 4주차(1)

1. 텍스트 테이블- wide format table  하나의 열에 여러 개의 데이터를 나란히 나열하는 형태이다. 데이터 분석을 할 경우 많이 사용되는 형태로 표를 비교하거나 그래프 시각화하기 쉽다. 상관관계를 분석하거나 각 변수의 분포를 비교할 때 적합하다.- long format table 한 대의 특성을 나타내는 열을 가진 여러 개의 행이 있다.시간에 따른 변화와 카테고리 간 비교를 시각화하기에 적합하다. 컴퓨터와 태블로가 선호하는 형태이다. 2. 태블로 작동 원리- 필터 / 계산과 필터의 작동 순서  1) 추출 필터: 데이터 소스에서 추출된 데이터 필터링(데이터 연결을 추출로 선택했을 때만 사용 가능) 2) 데이터 원본 필터: 데이터 원본 소스에서 일부 데이터만 필터링 3) 컨텍스트 필터: 특정값..

[TIL] 실습으로 배우는 태블로 - 3주차

1. 데이터 시각화 데이터를 그래프 형식으로 나타내어 이해하기 쉽게 만들 수 있다. 그래프를 활용하여 직관적으로 데이터의 추세, 분포, 상관관계 등을 이해하고 인사이트를 도출할 수 있다. 태블로에서는 데이터에 적합한 대표적으로 24개의 그래프(텍스트 레이블, 히트맵, 맵차트 등)를 활용할 수 있다.  - 선 그래프 (Line Plot) 유료 구독자 수 변화 추이가 궁금해요!2022년 대비 2023년 상품 주문 판매량은 얼마나 증가했을까?매일 얼마나 많은 유저들이 우리 서비스를 이용하는가? - 막대 그래프 (Bar Plot)이번달 가장 많은 항공권이 예약된 해외 지역은 어디인가?퍼널별 전환율 확인하고 싶어요!카테고리별 상품 판매량을 비교하고 싶어요! - 맵 차트 (Map Chart)밤 시간대(오후 11시 ..