내일배움캠프 106

[내일배움캠프] 스파르타코딩클럽 데이터 분석 트랙 수료 후기

2024.11.04 월요일 데이터 분석 부트캠프가 끝났다 이 카톡을 받은 게 엊그제 같은데 벌써..(߹-߹) 1. 내일배움캠프 이전의 삶 나는 심리학을 전공했는데 시간이 지날수록 심리학은 증맬루 나랑 맞지 않는다는 생각을 했다. 글치만 나는 4학년 막학기를 남기고 있는 졸업예정자.. 어떤 분야로 취업을 해야 될지도 모르겠고 밥 벌어먹고 살 수 있을지도 모르겠고 혼자 걱정 파티하고 있는 와중에 행안부랑 NIA에서 주관하는 데이터 분석 청년인재 양성 사업 공지 글을 보게 되었고, 그렇게 빅데이터 분석이라는 분야에 발을 들이게 되었다. 사실 청년인재 양성 사업이라고 해서 처음부터 차근차근 가르쳐줄 거라고 생각했는데.. 전혀 아니었다... 인턴 연계형 사업이라 파이썬, SQL 등 분석 툴을 다룰 수 있어야 하는..

카테고리 없음 2024.11.08

[스탠다드] 데이터 분석 - 3회차, 4회차

1. EDA EDA란 탐색적 데이터 분석(Exploratory Data Analysis)으로 데이터에 대한 기본적인 이해를 돕기 위해 수행되는 분석 단계로 데이터의 구조와 패턴을 파악하고, 변수 간의 관계를 시각화하여 인사이트를 도출하는 과정이다. EDA는 데이터 이해(데이터의 분포, 이상치, 결측값 파악), 모델링 준비(데이터 전처리 및 모델에 적합한 변환을 결정하는 데 도움), 가설 설정(데이터에 기반한 가설을 세우고 이를 검증)이 가능하므로 중요한 과정증 하나이다. 2. 자동 EDA 패키지 활용 타이타닉 데이터를 자동 EDA 패키지를 사용하여 분석할 수 있다.# 1. Pandas Profilingfrom pandas_profiling import ProfileReport# 타이타닉 데이터 프로파일링..

[챌린지] 시계열 기반 머신러닝 모델과 MLops 적용기 - 2회차(2)

4. ARMA 자기회귀(AR)과 이동평균(MA) 모델을 결합한 방식으로 현재값이 과거값과 과거 오차항에 모두 의존한다고 가정한다. ARMA(p, q)에서 p는 AR 모형의 차수(현재 값에 영향을 미치는 과거 시점의 개수), q는 MA 모형의 차수(현재 값에 영향을 미치는 이전 오차항 개수)를 말한다.from statsmodels.tsa.arima.model import ARIMAmodel = ARIMA(data, order=(p, 0, q)) # 데이터에 ARMA(p, q) 모형 적용하기model_fit = model.fit()model_fit.summary() # 모델 출력 5. ARIMA 비정상 시계열에서 차분을 통해 추세와 계절성을 제거해 정상성을 확보한 후 ARMA 모델을 적용하는 방식이다(AR ..

[챌린지] 시계열 기반 머신러닝 모델과 MLops 적용기 - 2회차(1)

1. 정상시계열 검정 AR 모형을 적용하기 전, 시계열 데이터가 정상성을 만족하는지 검정이 필요하다. 정상성은 데이터의 평균과 분산이 시간에 따라 일정한 상태를 의미한다. 시계열이 정상성을 만족하지 않으면 예측 모델의 성능이 저하될 수 있다. ADF(Argumented Dickey Fuller) 검정을 통해 시계열의 정상성 여부를 판단할 수 있다. ADF는 단위근의 존재 여부를 테스트하여 시계열의 정상성 여부를 판단하는 방법이다. 단위근이란 자기 회귀 계수가 1인 경우를 말한다.가설설명H0(대립가설)시계열에 단위근이 존재한다. 즉, 시계열이 비정상적이다H1(귀무가설)데이터에서는 단위근이 존재하지 않는다. 즉, 정상 시계열이다. 2. 이동평균 (Moving Average) 이동평균 모델은 과거의 예측 오류..

[스탠다드] 데이터 분석 - 1회차, 2회차

1. 프로젝트 기획 목표를 명확하게 해야 데이터를 효과적으로 수집하고 분석 결과를 실질적으로 활용할 수 있다. 분석 목표는 '우리가 도출하고자 하는 최종 결과물'을 말하는데 이 목표가 명확하지 않으면 데이터 분석 자체가 흐릿해질 수 있다. 목표를 SMART하게 설정하는 것이 중요한데 구체적(Specific), 측정 가능(Measurable), 달성 가능(Achievable), 관련성(Relevant), 시간 기반(Time-bound)이어야 한다. 예를 들면 '3개월 내 고객 이탈률을 10% 줄이자' 또는 '연말까지 제품 리뷰 중 긍정 리뷰 비율을 20% 늘리자'와 같은 것이 있다.- 가설 수립 가설 수립은 분석 목표를 달성하기 위해 검증해야하는 추측을 세우는 단계이다. 단순히 데이터를 바라보는 것이 아닌..

[챌린지] 시계열 기반 머신러닝 모델과 MLops 적용기 - 1회차

1. 데이터 분석 분야 개요구분설명 데이터 추출데이터를 효율적으로 추출하고 가공SQL, Python(Pandas)데이터 시각화효과적인 데이터 정보 획득을 도와줌Tableau, Power BI, Looker Studio, Excel기초 통계 분석데이터의 기본적인 특성을 이해기술통계(평균, 표준편차, 백분율), 가설검정(t-test, chi-square, ANOVA)고급 통계 분석복잡한 관계를 탐색하고 모델링인과추론(RCT-A/B test, 선형회귀, 매칭), 시계열 분석(ARIMA), 생본분석(Cox Regression), 다변량분석(PCA, Factor Analysis), 연관분석(장바구니 분석, Apriori 알고리즘)머신러닝데이터를 통해 패턴을 학습하고 예측지도학습, 비지도학습, 추천시스템, 텍스트 ..

[TIL] 지표 특강 - 5회차(2)

5. 코호트 분석 코호트는 동질 집단을 의미하며 코호트 분석이란 특정 기간 동안 공통된 특성을 경험한 사용자 행동을 그룹으로 나눠 지표별로 수치화해서 분석하는 기법을 말한다. 특정 기간 동안 공통된 특성을 경험한 코호트 유저 집단의 첫 구매일로부터 재구매까지의 차이를 파악한다. 어떤 코호트가 높은 리텐션을 유지하고 있는지, 어떤 코호트에서 하락이 나타나는지를 호가인하여 전략을 수립할 수 있다. - 분석 기준 잡기 1) 측정 기간 정의: 전체 기간 / 시점을 어떻게 잡을 것인가? - 일별, 주별, 월별, 분기별, 연도별 2) 코호트 측정 기준 정의: 기준으로 어떻게 정의해야 할까? - 유입, 방문, 구매, 구독, 예약 3) 측정값 정의: 어떤 지표(측정값)를 기준으로 측정할까? - 활성 사용자 수, 특정 ..

[TIL] 지표 특강 - 5회차(1)

1. 대시보드 프로젝트 유의할 점 의사결정권자(대시보드 뷰어)가 어떤 부분을 궁금해할까? 라는 질문에서 시작해야 한다. 내가 보는 대시보드가 아닌 의사결정권자 관점에서 대시보드를 이해하는데 어려움은 없는지 생각해야  한다.- 대시보드 제작 시 유의할 점 1) 주요 지표를 어떻게 설계할 것인가? 2) 유관 부서가 필수로 요청하는 지표는 없을까? 3) 어떤 종류의 필터를 몇 가지 넣을 것인가? 4) 모든 정보와 필터를 한 페이지에 배치하지 않는다. 5) 하나의 차트와 대시보드에 너무 많은 정보와 데이터를 담지 않는다. 6) 복잡한 차트가 아닌 색상으로 강조한다.2. 대시보드 필터 대시보드 필터는 뷰어 관점에서 활용하기 쉽도록 잘 보이는 곳에 배치해야 한다.- 시간 필터 1) start date, end da..

[WIL] 주간회고 12주차

월요일~~~ 실전프로젝트 시작 게임 데이터 골랐다가 데이터로 혼나고 다시 주제 변경 포기하기 전까지 나름 열심히는 했다... 블로그랑 컴 메모에 궁금증만 그득하게 남기고 폐기 처분  이커머스로 변경하게 됐는데 뭔가 저번에 했기도 하고 만약 하게된다면 튜터님들의 피드백을 모두 반영해야할 것만 같은 그런.. 느낌..? 그래서 약간 안 하고 싶었다...ㅎ 근데 선택지도 많이 없고 빠르게 무언가 결과물을 낼 수 있는 건 아마존 데이터라고 생각해서 팀원 다 같이 상의해서 아마존 데이터를 사용하는 걸로 결정했다  저녁 늦게 주제가 정해져서 학원 가기 전에 간단하게 어떤 지표를 만들 수 있을지 고민 해보고 데이터 훑어보면서 어떻게 해야할지 대충 감만 잡아봤다 학원 끝나고 집중해서 보는데 데이터 컬럼이 되게 많고 로우..

[TIL] 지표 특강 - 4회차

1. 지표의 종류- OKR 조직이나 팀이 특정 기간 동안 달성하고자 하는 목표를 설정하는 프레임워크를 말한다.- KPI 회사의 주요 성과 지표를 말한다. 회사의 KPI 지표는 비즈니스 상황에 따라 연도별, 분기별 등 계속 바뀐다. SMART KPI란 Specific: 구체적인, Measurable: 측정 가능한, Achievable: 달성 가능한, Relevant: 다른 비표와 비슷한 방향, Time-bound: 정해진 시간 범위의 약어를 말한다.- 정성 지표 인터뷰, 설문 조사 데이터를 NPS(Net Promoter Score)를 활용해서 정량화한다.- 정량 지표 특정 유저의 행동을 표현한 수치 및 비율을 말한다. 예를 들어 전년 대비 매출 30% 증대, 전월 대비 전환율 2% 증가 등이 있다.- 선행..

[TIL] 지표 특강 - 3회차

1. Activation 단계 Activation 단계란 우리 서비스를 유저들이 처음으로 경험하고 활성화하는 단계를 말한다. Activation은 5개의 단계로 이루어져 있어 유저가 우리 서비스에 처음 유입된 시점부터 재방문으로 이어지는 순간을 말한다. - 셋업 모먼트 유저가 우리 서비스의 핵심 가치를 이미 경험한 시점이다- 아하 모먼트 유저가 우리 서비스의 가치를 처음으로 인식하는 결정적인 순간을 의미한다. XX라는 행동을 가입한지 YY라는 날짜 안에 ZZ번 한다.- 유레카 모먼트 유저가 우리 서비스의 가치를 확장된 가치를 경험한 순간을 의미한다.- 해빗 모먼트 유저의 습관 형성의 순간 기준을 정하는 것이 중요하다. 유저들이 지속적으로 서비스를 사용하는 습관 형성을 할 수 있도록 만들어야 한다. 2. ..

[WIL] 주간회고 11주차

오늘 아침에 며칠전 신청한 노트북을 받았다 이제 태블릿이 자유를 되찾았다 짱 ദ്ദി˙∇˙)ว  이번주에 팀이 바뀌었는데 진짜 최고다 질문에 답도 빨리 해주시고 다들 되게 열정 넘치는 것 같다  어제 아티클 내용 나누는데 나는 진짜 별거 없어서 굉장히 민망했지만 근데 뭐 어쩔거야 이미 지나간거고 프젝이나 열심히 하자 는 마음으로 애써 회피 중이다ㅎ..  오늘 4시에 SQLD 사전점수 결과 나왔는데 흫ㅎ 합격이다 (˶>  공부 많이 못 해서 걱정했는데 다행이다 그동안 풀었던 코드카타가 도움이 많이 된 것 같다  태블로는 생각보다 약간 복잡쓰라 유튭 보면서 공부 좀 해야될 거 같다ㅠ  담주 프젝 잘 되었으면 좋겠다 제발 ✧٩(•́⌄•́๑)و ✧

[TIL] 지표 특강 - 2회차

1. 지표 프레임 워크 종류- 지표 프레임 워크 지표 중심으로 현재 서비스의 상황을 판단할 수 있다. 서비스 흐름에 따라 퍼널과 퍼널에 맞는 지표를 정의하고 해당 지표를 개선하기 Action을 수립한다. 그로스에 가장 많이 사용되는 지표 프레임 워크는 AARRR이며 GAME, HEART 등 다양한 지표 프레임 워크가 있다.- HEART 프레임 워크 (5단계) 1) 행복(Happiness): 사용자는 얼마나 행복합니까? - 앱 스토어 평점, NPS 2) 참여도(Engagement): 사용자가 단기적으로 얼마나 참여하고 있나요? - 구매 전환율, 유저당 주문 금액 3) 채택(Adoption): 얼마나 많은 관심을 가진 유저가 우리 서비스를 사용해 보았습니까? - 앱 다운로드 유저 수 4) 유지(Retenti..

[TIL] 지표 특강 - 1회차

1. 실무 데이터 분석의 종류- Ad-hoc 분석 (일회성 분석) 1) 엑셀 시트 레포트 2) 시각화 3) 단순 지표 추출 쿼리 4) 기술 통계량(평균값, 중앙값, 최소 최대값 등)유형종류설명적 분석Ad-hoc 분석, KPI 지표 정의진단적 분석self-service 분석, 시각화, A/B 테스트 도입예측적 분석예측 모델링, A/B 테스트 대시보드 자동화처방적 분석최적화, ML/DL 플랫폼, 자체 플랫폼 자동화 - Daily Scrum: 지표 확인 및 지표 증감 원인 파악 1) Overview 대시보드: 현재 서비스 상황 및 주요 지표 확인 2) By Dimension(시간별, 유저별, 세그먼트별 등) 대시보드: 지표 증감 원인 파악 3) 대시보드를 통해 원인 파악이 어렵거나 데이터를 더 깊게 봐야하는 ..

[개인과제] 실습으로 배우는 태블로

① 대시보드 뷰어 및 목적 선정💡 프로덕트팀 구성원(Product Owner, Product Analyst, UI Designer, Software Engineer)💡두 가지 랜딩 페이지 실험 결과 검증② 문제 정의💡유저의 랜딩 페이지전환율 상승 ③ 필요한 데이터 선정 및 데이터 마트 구축(실무)💡A/B testing④ 지표 선정💡conversion rate(%): 랜딩 페이지 전환율 ⑤ 스케치, 시각화⑥ 대시보드 완성   [문제 1] 난이도 하 4가지 워크시트 하나의 대시보드로 완성!- 워크시트 1번: 그룹별 유저 비중 파이 차트 시각화- 워크시트 2번: 그룹별 평균 전환율 막대 그래프 시각화- 워크시트 3번: 일별 그룹별 평균 전환율 선 그래프 시각화- 워크시트 4번: 그룹별 유저 고유 카운..