20240805 3

[TIL] Python 베이직 - 6회차

1. 기초 통계 분석- describe수치형 데이터범주형 데이터count데이터 개수count데이터 개수mean평균unique고유 데이터 값 개수std표준편차top가장 많이 출현한 데이터 수min최솟값freq가장 많이 출현한 데이터 빈도max최대값   - info 각 컬럼변 데이터 타입 및 결측치 확인df.info() - 상관관계 분석 변수간 선형 상관관계의 강도를 -1 ~ 1 사이의 값으로 계산해서 측정한다.df_num.corr()# 'pearson' (기본값): 표준 피어슨 상관 계수를 계산# 선형관계(이상치가 적고 정규분포에 가까울때)가 있을때 유용--------------------------------------------------------------------------------------..

[TIL] 통계학 기초 - 6주차

1. 재현 가능성 재현 가능성이란 동일한 연구나 실험을 반복했을 때 일관된 결과가 나오는지 여부를 말하는 것으로 연구의 신뢰성을 높이는 중요한 요소이다. 결과가 재현되지 않는다면 해당 가설의 신뢰도가 떨어진다. 최근 'p값을 사용하지 않는 것이 좋다'와 '유의 수준을 0.05에서 변경하는 것이 좋다' 두 가지로 값에 대한 논쟁이 두드러지고 있다.- 재현성 위기 원인 1) 실험 조건을 동일하게 조성하기 어려움 완전 동일하게 다시 똑같은 실험을 수행하는 것이 쉽지 않으며 가설검정 자체도 100% 검정력을 가진 것이 아니기 때문에 오차가 나타날 수 있음 2) 가설 검정 사용방법에 있어서 잘못됨 p값이 0.05가 유도되게끔 조작하는 것이 가능(p해킹)하며 실제로는 통계적으로 아무 의미가 없음에도 의미가 있다고 ..

[TIL] 통계학 기초 - 5주차

1. 피어슨 상관계수 두 연속형 변수 간의 선형 관계를 측정하는 지표로 -1에서 1 사이의 값을 가진다. 1은 완전한 양의 선형, -1은 완전한 음의 선형, 0은 선형 관계가 없음을 의미한다. 공부 시간과 시험 점수 간의 선형적인 관계가 예상될 때 사용하며 비선형 관계에서는 사용할 수 없다.import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom scipy.stats import pearsonr# 예시 데이터 생성np.random.seed(0)study_hours = np.random.rand(100) * 10exam_scores = 3 * study_hours + np.random.randn(..