Today I Learned (TIL) 71

[TIL] 실습으로 배우는 태블로 - 1주차, 2주차

1. BI 소개 비즈니스 인텔리전스(BI)는 조직이 좀 더 데이터 기반의 의사 결정을 빠르게 할 수 있도록 서포트하는 비즈니스 분석, 데이터 마이닝, 데이터 시각화, 데이터 도구를 말한다. BI 도구를 활용해서 SQL, Python 언어보다 드래그 앤 드롭으로 손쉽게 데이터를 분석하고 시각화할 수 있다. 2. Tableau- 장점 1) Excel, CSV, 스프레드시트 등 다양한 형식의 파일을 대시보드로 만들어서 쉽게 공유 가능 2) 손쉬운 Drag & Drop으로 인터랙티브 한 대시보드와 그래프를 시각화 가능 3) 무료로 활발한 글로벌 커뮤니티와 템플릿, 강의들을 참고할 수 있어요.- 단점 1) 데이터의 용량이 크거나 개발된 대시보드의 양이 많아지면 대시보드 로딩 속도가 느려짐 2) 다른 BI툴과 비교..

[TIL] 머신러닝의 심화 - 데이터분석 프로세스(3)

4. 데이터 분리- 과적합 데이터를 너무 과도하게 학습한 나머리 해당 문제만 잘 맞추고 새로운 데이터를 제대로 예측 혹은 분류하지 못하는 형상을 말한다. 과적합은 모델의 복잡도, 데이터 양, 학습 반복, 데이터 불균형 등과 같은 원인이 있을 수 있다. 예측 혹은 분류를 위해 모형의 복잡도를 설정하는데 모형이 지나치게 복잡하면 과대 적합, 지나치게 단순하면 과소 적합이 될 수 있다. - 과적합 해결: 테스트 데이터의 분리 데이터를 모델을 학습하기 위한 학습 데이터와 평가하기 위한 테스트 데이터로 데이터를 분리한다.구분함수 & 패키지설명패키지 sklearn.model_selection.train_test_split 데이터 분리 패키지파라미터test_size테스트 데이터 세트 크기train_size학습 데이터..

[TIL] 머신러닝의 심화 - 데이터분석 프로세스(2)

3. 데이터 전처리- 이상치 이상치란 보통 관측된 데이터 범위에서 많이 벗어난 아주 작은 값 혹은 큰 값을 말한다. 이상치를 확인하는 방법으로는 크게 Extreme Studentized Deviation(ESD)와 IQR(Inter Quantile Range)로 2가지가 있다. 이상치는 주관적인 값으로 데이터 삭제는 분석가가 결정한다. 이상치는 도메인과 비즈니스 맥락에 따라 기준이 달라지고 데이터 삭제 시 품질은 좋아질 수 있지만 정보 손실을 동반하므로 주의해야 한다.# ESD를 이용한 처리import numpy as npmean = np.mean(data)std = np.std(data)upper_limit = mean + 3*stdlower_limit = mean - 3*std-------------..

[TIL] 머신러닝의 심화 - 데이터분석 프로세스(1)

1. 데이터 수집 데이터를 수집하려면 개발을 통해 데이터를 적재하고 수집하는 데이터 엔지니어링 역량이 필요하다. 이 부분은 개발자가 직접 설계하고 저장한다. 데이터 분석가는 이미 존재하는 데이터를 SQL 혹은 Python을 통해 추출하고 리포팅 혹은 머신러닝을 통한 예측을 담당한다.Data Source설명OLTP DatabaseOnLine Transaction Processing 은 온라인 뱅킹,쇼핑, 주문 입력 등 동시에 발생하는 다수의 트랜잭션(데이터베이스 작업의 단위) 처리 유형Enterprise Applications회사 내 데이터 (ex 고객 관계 데이터, 제품 마케팅 세일즈)Third - PartyGoogle Analytics와 같은 외부소스에서 수집되는 데이터Web/Log사용자의 로그데이터 ..

[TIL] 머신러닝의 기초 - 분류분석(로지스틱회귀)

1. 로지스틱회귀 이론 독립 변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는 데 사용되는 통계 기법을 말한다. 로지스틱함수는 가중치 값을 안다면 X값이 주어졌을 때 해당 사건이 일어날 수 있는 P의 확률을 계산할 수 있게 된다. 확률이 0과 1사이인데 예측값이 확률 범위를 넘어갈 수 있는 문제가 있을 때 S자 형태의 함수를 적용하면 잘 설명한다고 할 수 있다, S형태의 함수를 만들기 위해 오즈비의 개념을 적용할 수 있는데 오즈비는 바로 사용할 수 없기 때문에 로그를 씌워 사용하며 이걸 로짓이라고 한다. 로짓은 어떤 값을 가져오더라도 반드시 특정 사건이 일어날 확률이 0과 1안으로 들어오게 하는 특징을 가진다. - 오즈비와 확률의 관계 /  로짓과 확률의 관계 1) 로짓의 그래프가 더 선형적인 ..

[TIL] 머신러닝의 기초 - 회귀분석(선형회귀 2)

5. 선형회귀 심화 - 범주형 데이터 활용하기 실제 데이터는 비선형적 관계를 가지는 경우가 많다. 이를 위해 X변수를 추가 또는 변형할 수 있다. 데이터는 크게 범주형 데이터와 수치형 데이터로 나뉜다. 수치형 데이터는 키, 몸무게와 같이 두 개의 값이 무한한 개수로 나누어진 연속형 데이터와 주사위 눈, 나이와 같이 두 개의 값이 유한한 개수로 나누어진 이산형 데이터가 있다. 범주형 데이터는 학점, 등급과 같이 자료의 순서 의미가 있는 순서형 데이터와 혈액형, 성별과 같이 자료의 순서 의미가 없는 명목형 데이터가 있다. 범주형 데이터를 머신러닝 모델에 훈련시키기 위해서는 해당 데이터를 숫자로 바꿔야 한다. 6. 선형회귀 정리- 선형회귀 장점 1) 직관적이며 이해하기 쉽다. 2) X-Y 관계를 정량화할 수 ..

[TIL] 머신러닝의 기초 - 회귀분석(선형회귀 1)

1. 머신러닝이란? 기술 통계 등을 통해 집계된 정보로 의사결정을 했던 과거와 달리 데이터 수집과 처리 기술의 발전으로 대용량 데이터의 패턴을 인식하고 이를 바탕으로 예측, 분류하는 방법론을 말한다. 머신러닝을 인간은 데이터를 기반으로 한 의사결정을 내리고 싶어 발전하게 되었다. 머신러닝은 지도 학습(Supervised Leaning), 비지도 학습(Unsupervised Learning), 강화 학습(Reinforcement Learning) 세 가지로 분류된다. 머신러닝은 금융, 헬스케어, 이커머스, 자연어 처리 등 다양한 분야에 적용해 사용되고 있다.구분설명AI인간의 지능을 요구하는 업무를 수행하기 위한 시스템Machine Learning관측된 패턴을 기반으로 의사 결정을 하기 위한 알고리즘Deep..

[TIL] Python 챌린지 - 6회차

1. Streamlit 소개 Streamlit은 데이터 과학자와 머신러닝 엔지니어를 위한 오픈소스 Python 라이브러리이다. 복잡한 데이터 애플리케이션을 빠르고 쉽게 만들 수 있도록 설계되었으며 단순한 Pyhon 스크립트 만으로도 대화형 웹 애플리케이션을 만들 수 있다. 2. Streamlit 설치 및 기본 구조pip install streamlitimport streamlit as stdef main(): st.title("My Streamlit App") # 앱의 내용을 여기에 추가합니다if __name__ == "__main__": main() 3. Streamlit 주요 UI 요소 - 텍스트 출력import streamlit as stst.title("Streamlit 텍스트 출..

[TIL] Python 챌린지 - 5회차

1. 객체 지향 프로그래밍(OOP)이란? 객체 지향 프로그래밍이란 코드를 객체라는 논리적 단위로 구조화하는 프로그래밍 패러다임을 말한다. 객체는 데이터(속성)와 그 데이터를 처리하는 메서드(함수)를 하나의 단위로 묶은 것을 말한다. OOP는 데이터와 메서드를 하나의 단위로 묶어 외부로부터 보호하는 '캡슐화', 기존 클래스의 특성을 새로운 클래스가 물려받을 수 있는 '상속', 같은 이름의 메서드가 다른 기능을 수행할 수 있는 '다형성'과 같은 세 가지의 주요 특징을 가지고 있다. 이러한 특징들은 코드의 재사용성을 높이고 유지보수를 용이하게 만든다. 2. OOP로 리팩토링하는 이유- 코드 구조화 관련 기능을 하나의 클래스로 묶어 코드를 더 논리적으로 구조화할 수 있다.- 재사용성 클래스를 만들면 다른 프로젝..

[TIL] Python 베이직 - 6회차

1. 기초 통계 분석- describe수치형 데이터범주형 데이터count데이터 개수count데이터 개수mean평균unique고유 데이터 값 개수std표준편차top가장 많이 출현한 데이터 수min최솟값freq가장 많이 출현한 데이터 빈도max최대값   - info 각 컬럼변 데이터 타입 및 결측치 확인df.info() - 상관관계 분석 변수간 선형 상관관계의 강도를 -1 ~ 1 사이의 값으로 계산해서 측정한다.df_num.corr()# 'pearson' (기본값): 표준 피어슨 상관 계수를 계산# 선형관계(이상치가 적고 정규분포에 가까울때)가 있을때 유용--------------------------------------------------------------------------------------..

[TIL] 통계학 기초 - 6주차

1. 재현 가능성 재현 가능성이란 동일한 연구나 실험을 반복했을 때 일관된 결과가 나오는지 여부를 말하는 것으로 연구의 신뢰성을 높이는 중요한 요소이다. 결과가 재현되지 않는다면 해당 가설의 신뢰도가 떨어진다. 최근 'p값을 사용하지 않는 것이 좋다'와 '유의 수준을 0.05에서 변경하는 것이 좋다' 두 가지로 값에 대한 논쟁이 두드러지고 있다.- 재현성 위기 원인 1) 실험 조건을 동일하게 조성하기 어려움 완전 동일하게 다시 똑같은 실험을 수행하는 것이 쉽지 않으며 가설검정 자체도 100% 검정력을 가진 것이 아니기 때문에 오차가 나타날 수 있음 2) 가설 검정 사용방법에 있어서 잘못됨 p값이 0.05가 유도되게끔 조작하는 것이 가능(p해킹)하며 실제로는 통계적으로 아무 의미가 없음에도 의미가 있다고 ..

[TIL] 통계학 기초 - 5주차

1. 피어슨 상관계수 두 연속형 변수 간의 선형 관계를 측정하는 지표로 -1에서 1 사이의 값을 가진다. 1은 완전한 양의 선형, -1은 완전한 음의 선형, 0은 선형 관계가 없음을 의미한다. 공부 시간과 시험 점수 간의 선형적인 관계가 예상될 때 사용하며 비선형 관계에서는 사용할 수 없다.import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom scipy.stats import pearsonr# 예시 데이터 생성np.random.seed(0)study_hours = np.random.rand(100) * 10exam_scores = 3 * study_hours + np.random.randn(..

[TIL] 통계학 기초 - 4주차

1. 단순선형회귀 하나의 독립 변수(X)와 하나의 종속 변수(Y)간의 관계를 직선으로 모델링하는 방법으로 간단하고 해석이 용이하여 데이터가 선형적이지 않을 경우 적합하지 않다. 독립 변수의 변화에 따라 종속 변수가 어떻게 변화하는지 설명하고 예측하는 것이 특징이다. 단순선형회귀 회귀식은 Y = β0 + β1X  β0 (β0는 절편, β1는 기울기)이다. import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.linear_model import LinearRegressionfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import me..

[TIL] Python 챌린지 - 3, 4회차

1. 프로젝트 개요- 목적 Selenium과 XPath를 사용하여 네이버 뉴스 사이트에서 기사 목록과 내용을 수집- 대상 사이트 네이버 뉴스 IT/과학 섹션- 사용 기술 Python, Selenium WebDriver, XPath- 결과물 뉴스 기사 제목, 내용, 날짜, URL 수집 2. 환경 설정# 필요한 라이브러리 임포트 및 WebDriver 설정!pip install seleniumfrom selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import WebDriverWai..

[TIL] 통계학 기초 - 3주차

1. A/B 검정 두 버전(A와 B) 중 어느 것이 더 효과적인지 평가하기 위해 사용되는 검정방법이다. 사용자들을 두 그룹으로 나눠 각 그룹에 다른 버전을 제공한 후 반응을 비교하는 것으로 마케팅, 웹사이트 디자인 등에서 많이 사용된다.  두 그룹 간의 변화가 우연이 아닌 통계적으로 유의미한지를 확인하는 것으로 일반적으로 전환율, 클릭률, 구매수, 방문 기간, 방문한 페이지 수, 특정 페이지 방문 여부, 매출 등의 지표를 통해 비교한다.import numpy as npimport scipy.stats as stats# 가정된 전환율 데이터group_a = np.random.binomial(1, 0.30, 100) # 30% 전환율group_b = np.random.binomial(1, 0.45, 100..