20240717 5

[온라인강의] 데이터 전처리 - Pandas

숙제 1import seaborn as snsiris_data = sns.load_dataset('iris')iris_data 문제 1 'species' 열 값이 'setosa'인 데이터 선택하기# Q1. 정답a = iris_data[iris_data['species'] == 'setosa']a.head() 문제 2 10부터 20까지의 행과 1부터 3까지의 열 선택하기# Q2. 정답iris_data.iloc[10:21, 1:4] 숙제 2import seaborn as snstips_data = sns.load_dataset('tips')tips_data 문제 1 total_bill이 30 이상인 데이터만 선택하기# Q1. 정답c = tips_data[tips_data['total_bill'] >= 30]..

[TIL] Python 챌린지 - 1회차

1. 웹사이트구분 정적 웹사이트 동적 웹사이트 콘텐츠 고정된 HTML 파일로 구성되어 있어 모든 사용자에게 동일한 내용을 보여줌사용자 요청에 따라 실시간으로 생성되어 개인화된 내용을 제공 할 수 있음 서버 처리 서버는 단순히 미리 작성된 파일을 전송함서버에서 스크립트를 실행하여 동적으로 콘텐츠를 생성 데이터베이스 일반적으로 데이터베이스를 사용하지 않음대부분 데이터베이스를 사용하여 정보를 저장하고 검색 상호작용 사용자와의 상호작용이 제한적사용자와 다양한 방식으로 상호작용할 수 있음 로딩 속도 일반적으로 빠름정적 웹사이트보다 상대적으로 느릴 수 있음 2. 웹 크롤링 기호: '뉴스 헤드라인 수집'- Requests 라이브러리 Python용 HTTP 라이브러리를 말한다. HTTP는 웹 브라우저와 서버 간 데이터..

[TIL] 데이터 전처리 - Pandas(3)

6. 데이터 병합- concat데이터프레임을 위아래로 혹은 좌우로 연결할 수 있는 함수이다. axis를 통해 연결하고자 하는 축(방향)을 지정하고 기본값은 0으로 되어있어 위아래로 연결다. 1로 설정하면 좌우로 연결이 가능하다. ignore_index의 기본값은 False이며, 연결된 결과 데이터프레임의 인덱스를 유지한다. True로 설정하면 새로운 인덱스를 생성한다.import pandas as pddf1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'], 'B': ['B0', 'B1', 'B2']})df2 = pd.DataFrame({'A': ['A3', 'A4', 'A5'], 'B': ['B3', 'B4', 'B5']})# 위아래로 데이터프레임 연결result_vertical ..

[TIL] 데이터 전처리 - Pandas(2)

4. 데이터 확인하기- 데이터 확인data.head() # head()은 기본 5개 행에 대한 데이터를 보여줌data.head(3) # ()안에 숫자만큼 데이터를 보여줌data.info() # 데이터 정보 파악(인덱스, 컬럼명, 컬럼의 데이터 개수, 데이터 타입), null 값을 확인data.describe() # 데이터의 기초통계량을 확인(숫자값에 대해서만 확인이 가능) - 결측치, 중복, 이상치 확인df.isnull().sum() # 결측치 확인, 결측치 갯수 확인도 가능df.dropna() # 결측치 제거df.duplicated(subset=['컬럼1', '컬럼2', '컬럼3']) # 중복 데이터 확인df.drop_duplicates(subset=['컬럼1', '컬럼2', '컬럼3']) # 중복 데..

[TIL] 데이터 전처리 - Pandas(1)

1. 데이터 전처리 데이터 분석을 위해 수집된 데이터들을 방향성을 가공하며 내용물을 파악하는 과정을 말한다. 2. Pandas- Pandas란? 데이터를 조작하고 쉽게 분석할 수 있게 도와주는 라이브러리이다. Pandas에서 사용되는 대표적인 데이터 오브젝트는 Series, DataFrame 2가지 이다.import pandas as pd# 에러날 경우 !pip install pandas구분 Excel Pandas 자동화와 프로그래밍 기능 다양한 라이브러리를 사용하여 데이터를 불러오고 변환하며 분석할 수 있음반복적이고 복잡한 작업을 자동화할 수 있음시각적 사용자 인터페이스를 통해 데이터를 다루는 스프레드시트 프로그램으로 작업은 주로 수동으로 수행되며, 고급 기능을 프로그래밍적으로 확장하기 어려움 대용..