분류 전체보기 211

[아티클 스터디] 확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘

1. 선형 회귀 (Linear Regressioin) 여러 가지 데이터를 활용하여 연속형 변수인 목표 변수를 예측해 내는 것이 목적이다. 예측하는 데 사용되는 변수들은 연속형일 필요 없다. 복잡한 알고리즘에 비해서는 예측력이 떨어지지만 데이터 특성이 복잡하지 않을 때는 쉽고 바른 예측이 가능해 많이 사용된다. 다른 모델과의 성능을 비교하는 베이스라인으로 사용하기도 한다. 2. 로지스틱 회귀 (Logistic Regressioin)  선형 회귀 분석과 상당히 유사하지만 다루는 문제가 다르다. 선형 회귀 분석은 연속된 변수를 예측하지만 로지스틱 회귀 문석은 Yes/No 와 같이 두 가지로 나뉘는 분류 문제를 다룬다. 다른 모델과의 비교를 목적으로 자주 활용된다. 3. K-최근접 이웃 (KNN)  각 데이터 ..

아티클스터디 2024.08.21

[개인과제] ML

문제 1. 데이터 셋 불러오기scikit-learn 라이브러리의 데이터셋을 사용하는 방법을 익힙니다.아래와 같이 데이터를 불러오세요데이터 셋에는 더 많은 종류가 있으니 찾아보시면 좋겠죠?예시에는 붓꽃 데이터셋을 불러오고 있어요! iris를 제외한 다른 데이터셋을 직접찾아 가져와보세요from sklearn.datasets import load_irisiris = load_iris()X, y = iris.data, iris.target입력 데이터와 레이블을 불러온 후 학습을 위한 데이터셋과 테스트를 위한 데이터셋으로 분리하세요(Hint!) sklearn의 train_test_split를 이용하면 편하게 데이터를 분리할 수 있습니다. 문제 2. Diabetes 데이터 회귀 분석 진행하기Diabetes 데이터셋..

[프로그래머스] 문제 55. 조건에 맞는 사용자 정보 조회하기

20240704 풀이-- 코드를 입력하세요SELECT B.USER_ID , B.NICKNAME , CONCAT(B.CITY, ' ', B.STREET_ADDRESS1, ' ', B.STREET_ADDRESS2) '전체주소' , CONCAT(SUBSTR(B.TLNO, 1, 3), '-', SUBSTR(B.TLNO, 4, 4), '-', SUBSTR(B.TLNO, 8, 4)) '전화번호'FROM USED_GOODS_BOARD A JOIN USED_GOODS_USER B ON A.WRITER_ID = B.USER_IDGROUP BY B.USER_IDHAVING COUNT(A.WRITER_ID) >= 3ORDER BY 1 DESC20240820 풀이-- 중고 거래 게시물 3건 이상 등록-..

Code Kata/SQL 2024.08.20

[프로그래머스] 문제 54. 최댓값 구하기

20240704 풀이-- 코드를 입력하세요SELECT MAX(DATETIME)FROM ANIMAL_INS20240820 풀이-- 가장 최근에 들어온 동물-- 들어온 날짜 조회SELECT MAX(DATETIME) AS '시간'FROM ANIMAL_INS;20250605 풀이-- 가장 최근에 들어온 동물의 DATETIMESELECT *FROM ANIMAL_INS;SELECT DATETIMEFROM ANIMAL_INSORDER BY DATETIME DESCLIMIT 1; https://school.programmers.co.kr/learn/courses/30/lessons/59415 프로그래머스코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합..

Code Kata/SQL 2024.08.20

[프로그래머스] 문제 53. 재구매가 일어난 상품과 회원 리스트 구하기

20240709 풀이-- 코드를 입력하세요SELECT USER_ID , PRODUCT_IDFROM ONLINE_SALEGROUP BY USER_ID , PRODUCT_IDHAVING COUNT(*) > 1ORDER BY 1, 2 DESC20240820 풀이-- 동일한 회원이 동일한 상품 재구매-- 재구매한 회원 ID, 상풍 ID 출력-- 회원 ID 기준으로 오름차순-- 회원 ID 같으면 상품 ID 기준으로 내림차순SELECT USER_ID , PRODUCT_IDFROM ONLINE_SALEGROUP BY USER_ID , PRODUCT_IDHAVING COUNT(*) > 1ORDER BY USER_ID , PRODUCT_ID DESC;20250605 풀이--..

Code Kata/SQL 2024.08.20

[프로그래머스] 문제 52. 과일로 만든 아이스크림 고르기

20240704 풀이-- 코드를 입력하세요SELECT A.FLAVORFROM FIRST_HALF A JOIN ICECREAM_INFO B ON A.FLAVOR = B.FLAVORWHERE B.INGREDIENT_TYPE = 'FRUIT_BASED' AND A.TOTAL_ORDER >= 300020240820 풀이-- 총 주문량이 3000이상-- 주 성분이 과일-- 총 주문량이 큰 순서SELECT *FROM FIRST_HALF;SELECT *FROM ICECREAM_INFO;SELECT A.FLAVORFROM FIRST_HALF A JOIN ICECREAM_INFO B ON A.FLAVOR = B.FLAVORWHERE B.INGREDIENT_TYPE IN ('fruit_based') AND A.TO..

Code Kata/SQL 2024.08.20

[프로그래머스] 문제 51. 없어진 기록 찾기

20240704 풀이-- 코드를 입력하세요SELECT B.ANIMAL_ID , B.NAMEFROM ANIMAL_INS A RIGHT JOIN ANIMAL_OUTS B ON A.ANIMAL_ID = B.ANIMAL_IDWHERE A.ANIMAL_ID IS NULL AND B.ANIMAL_ID IS NOT NULL20240820 풀이-- 입양 기록은 있고-- 보호소 들어온 기록은 없는-- 동물의 ID, 이름-- ID 순서로 조회SELECT *FROM ANIMAL_INS;SELECT *FROM ANIMAL_OUTS;SELECT B.ANIMAL_ID , B.NAMEFROM ANIMAL_INS A RIGHT JOIN ANIMAL_OUTS B ON A.ANIMAL_ID = B.ANIMAL_IDWH..

Code Kata/SQL 2024.08.20

[프로그래머스] 문제 50. 5월 식품들의 총매출 조회하기

20240704 풀이-- 코드를 입력하세요SELECT A.PRODUCT_ID , A.PRODUCT_NAME , SUM(A.PRICE * B.AMOUNT) TOTAL_SALESFROM FOOD_PRODUCT A JOIN FOOD_ORDER B ON A.PRODUCT_ID = B.PRODUCT_IDWHERE YEAR(PRODUCE_DATE) = 2022 AND MONTH(PRODUCE_DATE) = 5GROUP BY PRODUCT_IDORDER BY 3 DESC , 120240819 풀이-- 생산일자 2022년 5월-- 식품 ID, 식품 이름, 총매출-- 총매출을 기준으로 내림차순-- 총매출이 같다면 식품 ID를 기준으로 오름차순SELECT *FROM FOOD_PRODUCT;SE..

Code Kata/SQL 2024.08.19

[프로그래머스] 문제 49. 식품분류별 가장 비싼 식품의 정보 조회하기

20240709 풀이-- 코드를 입력하세요SELECT CATEGORY , PRICE , PRODUCT_NAMEFROM FOOD_PRODUCTWHERE (CATEGORY, PRICE) IN (SELECT CATEGORY , MAX(PRICE) MAX_PRICEFROM FOOD_PRODUCTWHERE CATEGORY IN ('과자', '국', '김치', '식용유')GROUP BY CATEGORY)ORDER BY PRICE DESC20240819 풀이-- 식품분류 별-- 가격이 제일 비싼-- 식품의 분류, 가격, 이름 조회-- 식품 분류 '과자', '국', '김치', '식용유'-- 식품 가격을 기준으로 내림차순SELECT *FROM FOOD_PRODUCTWITH A AS ( ..

Code Kata/SQL 2024.08.19

[프로그래머스] 문제 48. 즐겨찾기가 가장 많은 식당 정보 출력하기

20240709 풀이-- 코드를 입력하세요SELECT FOOD_TYPE , REST_ID , REST_NAME , FAVORITESFROM REST_INFOWHERE (FOOD_TYPE, FAVORITES) IN (SELECT FOOD_TYPE , MAX(FAVORITES) FAVORITESFROM REST_INFOGROUP BY FOOD_TYPE)ORDER BY FOOD_TYPE DESC202040819 풀이-- 음식 종류별-- 즐겨찾기 수 가장 많은 식당-- 음식 종류, ID, 이름, 즐겨찾기 수-- 음식 종류를 기준으로 내림차순SELECT *FROM REST_INFO;WITH A AS( SELECT FOOD_TYPE , MAX(FAVORITES)..

Code Kata/SQL 2024.08.19

[프로그래머스] 문제 47. 모든 레코드 조회하기

20240703 풀이-- 코드를 입력하세요SELECT *FROM ANIMAL_INSORDER BY ANIMAL_ID202040819 풀이-- 모든 동물 정보 조회-- 동물 ID 순서로SELECT *FROM ANIMAL_INSORDER BY ANIMAL_ID;20250506 풀이-- 모든 동물 정보-- ANIMAL_ID 순SELECT *FROM ANIMAL_INS;SELECT *FROM ANIMAL_INSORDER BY ANIMAL_ID; https://school.programmers.co.kr/learn/courses/30/lessons/59034 프로그래머스코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받..

Code Kata/SQL 2024.08.19

[프로그래머스] 문제 46. 대여 기록이 존재하는 자동차 리스트 구하기

20240703 풀이-- 코드를 입력하세요SELECT DISTINCT A.CAR_IDFROM CAR_RENTAL_COMPANY_CAR A JOIN CAR_RENTAL_COMPANY_RENTAL_HISTORY B ON A.CAR_ID = B.CAR_IDWHERE A.CAR_TYPE = '세단' AND MONTH(START_DATE) = 10ORDER BY 1 DESC20240819 풀이-- 자동차 종류 '세단'-- 10월에 대여 시작-- 자동차 ID 중복 없이-- 자동차 ID 내림차순 정렬SELECT *FROM CAR_RENTAL_COMPANY_CAR;SELECT *FROM CAR_RENTAL_COMPANY_RENTAL_HISTORY;SELECT DISTINCT(A.CAR_ID)FROM CAR_RENT..

Code Kata/SQL 2024.08.19

[TIL] 머신러닝의 심화 - 데이터분석 프로세스(3)

4. 데이터 분리- 과적합 데이터를 너무 과도하게 학습한 나머리 해당 문제만 잘 맞추고 새로운 데이터를 제대로 예측 혹은 분류하지 못하는 형상을 말한다. 과적합은 모델의 복잡도, 데이터 양, 학습 반복, 데이터 불균형 등과 같은 원인이 있을 수 있다. 예측 혹은 분류를 위해 모형의 복잡도를 설정하는데 모형이 지나치게 복잡하면 과대 적합, 지나치게 단순하면 과소 적합이 될 수 있다. - 과적합 해결: 테스트 데이터의 분리 데이터를 모델을 학습하기 위한 학습 데이터와 평가하기 위한 테스트 데이터로 데이터를 분리한다.구분함수 & 패키지설명패키지 sklearn.model_selection.train_test_split 데이터 분리 패키지파라미터test_size테스트 데이터 세트 크기train_size학습 데이터..

[TIL] 머신러닝의 심화 - 데이터분석 프로세스(2)

3. 데이터 전처리- 이상치 이상치란 보통 관측된 데이터 범위에서 많이 벗어난 아주 작은 값 혹은 큰 값을 말한다. 이상치를 확인하는 방법으로는 크게 Extreme Studentized Deviation(ESD)와 IQR(Inter Quantile Range)로 2가지가 있다. 이상치는 주관적인 값으로 데이터 삭제는 분석가가 결정한다. 이상치는 도메인과 비즈니스 맥락에 따라 기준이 달라지고 데이터 삭제 시 품질은 좋아질 수 있지만 정보 손실을 동반하므로 주의해야 한다.# ESD를 이용한 처리import numpy as npmean = np.mean(data)std = np.std(data)upper_limit = mean + 3*stdlower_limit = mean - 3*std-------------..

[WIL] 주간회고 8주차

이번주는 공부랑 권태기 저번주 금요일부터 진짜 너무 공부하기 싫어서 10분 보고 밍기적 10분 보고 밍기적 무한반복 그러다보니 기억에 남는 거 하나도 없네 예.. 다시 들어야죠.. _〆( ŏ̥̥̥̥םŏ̥̥̥̥ ) 그니까 첨부터 잘 들었어야하는딩 왜 그랬을까 그래도 다시 들으니까 이해 완  물론 이해는 했지만 뭔지 기억은 못하고 있는 중 난 말하는 감자다  이번주는 광복절있어서 되게 빨리 지나간 것 같다 사실 또 공부하기 싫어서 이거 쓰는 즁 _(┐「ε:)_ ㅎ