데이터분석 4

[파이썬/데이터분석] 시계열 데이터 분석 예시_월별 온도 변화

시계열 데이터 분석은 데이터가 시간의 흐름에 따라 변하는 패턴을 분석하는 방법입니다. 예를 들어 주식 가격, 기온, 판매량 등과 같은 데이터를 분석할 때 사용됩니다. 아래는 시계열 데이터 분석의 예시입니다.예시: 월별 온도 변화 분석1. 데이터 준비먼저, 예시 데이터를 생성하겠습니다. 월별 온도 변화를 나타내는 시계열 데이터를 생성하겠습니다.import pandas as pdimport numpy as np# 날짜 범위 생성 (2020년 1월부터 2022년 12월까지)dates = pd.date_range(start='2020-01-01', end='2022-12-31', freq='M')# 임의의 온도 데이터 생성np.random.seed(0)temperatures = 20 + 10 * np.sin(n..

K-Fold 교차 검증_모델 성능 평가

K-Fold 교차 검증은 모델의 성능을 평가하는 방법 중 하나로, 데이터를 여러 개의 폴드(fold)로 나누어 모델을 여러 번 학습하고 평가하는 방법입니다. 이를 통해 모델의 일반화 성능을 더 정확하게 추정할 수 있습니다. 예를 들어, K-Fold 교차 검증을 5개의 폴드로 수행하는 과정을 설명해보겠습니다. 데이터 준비: 총 100개의 샘플 데이터가 있다고 가정합니다. 데이터 분할: 데이터를 5개의 폴드로 나눕니다. 이때, 각 폴드는 비슷한 크기의 데이터를 가지도록 무작위로 섞어서 나눕니다. 반복 학습과 평가: 5개의 폴드 중 4개의 폴드를 학습 데이터로 사용하고 나머지 1개의 폴드를 테스트 데이터로 사용하여 모델을 학습하고 평가합니다. 이를 5번 반복하여 각 폴드를 모두 한 번씩 테스트 데이터로 사용합..

로지스틱회귀 모델을 이용한 분류 분석_sklearn 머신러닝

안녕하세요. 오늘은 예제를 통해 sklearn의 로지스틱 회귀모델링을 통한 분류 분석에 대해서 포스팅해보겠습니다. 타이타닉호의 생존자/비생존자 그룹을 분류하여 어떤 피처가 생존/비생존에 영향이 있는지 알아보도록 하겠습니다. 예제는 예제일 뿐, 여러분들이 로지스틱회귀 모델로 본업에서 활용하기 위해서라면 각 변수나 피처들을 예제와 매칭시켜서 각자만의 문제를 해결하도록 이번 포스팅을 응용하는 능력을 기르시길 바랍니다. 저 또한 이러한 예제를 통해 방법을 익히고, 데이터만 교체해서 예제를 응용하여 활용하고 있습니다. 타이타닉 테이터 살펴보기 타이타닉 데이터셋의 구성 - pclass : Passenger Class, 승객 등급 - survived : 생존 여부 - name : 승객 이름 - sex : 승객 성별 ..

programming/Python 2023.07.23

야구선수 연봉 예측하기_회귀 분석,사이킷런 미래 예측_파이썬/데이터분석

안녕하세요. 조신선입니다. 회귀 분석은 이전에도 많이 다루어보았습니다. 예측 분석에서 가장 대표적인 방법이 회귀 분석이죠. 이번에는 조금 더 실용성있는 예제와 함께 회귀 분석에 대해서 알아보겠습니다. 데이터 분석은 늘 VSCODE로 작업하고, 일반 파이썬 환경이 아닌 쥬피터 환경이라 부르는 환경에서 진행합니다. 확장자가 'PY'가 아닌 'IPYNB'입니다. 회귀 분석이란?? 독립변수(x)와 종속변수(y) 간의 관계를 찾아내는 것입니다. 일차 방정식 ( Y = wX+b)로 예를 들 수 있습니다. 위 그래프에서 회귀 분석이란 실제 데이터(파란점)와 거리가 최소가 되는 방정식(선)을 찾아내는 것입니다. 즉, 방정식의 계수 w와 b를 잘 정의하는 것이라고 할 수 있습니다. 그렇다면 회귀 분석을 데이터 분석에 어..

programming/Python 2023.07.03