파이썬 56

파이썬으로 구글스프레드시트 작성하기(with gspread 라이브러리)_[파이썬/구글시트]

안녕하세요. 조신선입니다. 오늘은 파이썬을 활용해서 구글스프레드시트에 1. 파일을 생성하고 2. 워크시트를 추가하고 3. 데이터를 쓰고 4. 데이틀 활용해서 차트를 생성하고 5. 차트 위치 및 크기를 조정하고 6. 엑셀파일을 저장하는 방법에 대해 포스팅하겠습니다. 오늘 사용할 라이브러리는 gspread 입니다. vscode 환경에서 연습을 하신다면, 파일 확장자를 py가 아닌 ipynb(쥬피터환경)으로 하시는게 연습하시기 훨씬 편하십니다. gspread는 구글 스프레드시트와 상호 작용하기 위한 파이썬 라이브러리입니다. gspread를 사용하여 파이썬 코드에서 구글 스프레드시트를 열고, 데이터를 읽고 쓰며, 시트를 관리할 수 있습니다. 아래는 gspread를 사용하는 방법에 대한 자세한 설명입니다: 1. ..

programming/Python 2023.05.30

파이썬으로 엑셀 파일 생성/쓰기/차트생성/저장하기_[파이썬/엑셀]

안녕하세요. 조신선입니다. 오늘은 파이썬을 활용해서 1. 파일을 생성하고 2. 워크시트를 추가하고 3. 데이터를 쓰고 4. 데이틀 활용해서 차트를 생성하고 5. 차트 위치 및 크기를 조정하고 6. 엑셀파일을 저장하는 방법에 대해 포스팅하겠습니다. 오늘 사용할 라이브러리는 xlwings 입니다. xlwings는 파이썬과 Microsoft Excel 간의 상호작용을 가능하게 해주는 라이브러리입니다. 이를 사용하여 파이썬에서 Excel 파일을 열고, 데이터를 읽고 쓰며, 매크로를 실행할 수 있습니다. 아래는 xlwings를 사용하여 간단한 예제를 보여드리겠습니다. 먼저, xlwings를 설치해야 합니다. 다음 명령을 사용하여 설치할 수 있습니다: pip install xlwings 설치를 완료하셨다면, 아래 ..

programming/Python 2023.05.30

사이킷런을 활용한 머신러닝(linear_model) - 릿지 회귀와 라소회귀 최적의 정규화 강도 결정_[파이썬/머신러닝]

이전 포스팅과 연결되는 부분이 많아서 이전 포스팅을 태그 걸었습니다. 이번 포스팅에서는 머신러닝 실전을 해보겠습니다. [파이썬/통계] 통계학과 머신러닝 - 이론적인 부분들 (라소회귀, 리지회귀) 머신러닝 기본 머신러닝은 컴퓨터에 학습능력을 부여하는 것을 목적으로 한 연구 분야입니다. 학습은 데이터를 기반으로 행해져 데이터가 가지는 규칙성을 분명히 합니다. 규칙성을 분명히 함 jofresh.tistory.com 사이킷런 사이킷런은 파이썬에서 머신러닝을 적용하는 데 자주 사용되는 패키지입니다. sklearn이라고 줄여서 부르기도 합니다. pip install sklearn 위 코드를 통해서 설치해주면됩니다. 리지회귀/라소회귀 외에도 뉴럴네트워크나 서포트 벡터머신등 여러 방법에 사용할 수 있습니다. 필요한 라..

[파이썬/머신러닝] 통계학과 머신러닝 - 이론적인 부분들 (라소회귀, 릿지회귀)

머신러닝 기본 머신러닝은 컴퓨터에 학습능력을 부여하는 것을 목적으로 한 연구 분야입니다. 학습은 데이터를 기반으로 행해져 데이터가 가지는 규칙성을 분명히 합니다. 규칙성을 분명히 함으로써 모르는 데이터의 예측 등에 활용됩니다. 규칙성을 분명히 함으로써 모르는 데이터의 예측 등에 활용됩니다. 지도학습 머신러닝은 크게 지도학습과 비지도학습으로 나누어집니다. 지도학습은 정답 데이터를 얻을 수 있는 문제를 다루는 학습입니다. 예를 들어 매상을 예측하는 경우 매상 데이터를 얻을 수 있다면 예측결과가 맞는지 문제가 있는지 평가할 수 있습니다. 이런 문제를 다루는 방법이 지도학습입니다. 정규선형모델이나 일반선형모델을 다룬 문제는 지도학습이라고 볼 수 있습니다. 우리는 지도학습을 배울겁니다. 비지도학습 비지도학습은 정..

[파이썬/통계] Python 통계 : 푸아송 회귀(회귀계수 해석)

푸아송 회귀란 확률분포에 푸아송 분포를 사용하고, 링크함수에 로그함수를 사용한 일반선형모델입니다. 독립변수는 여러 개 있어도 상관없고, 연속형과 카테고리형이 혼재되어 있어도 됩니다. WOW~~ ※복습 [파이썬/통계] Python 통계 : 일반선형모델 기본/ 로지스틱회귀 모델/null 모델 일반선형모델의 기본 예를 들어'있다, 없다'라는 두 개의 값만 취하는 데이터나 '1개,2개,3개'등 0 이상의 정수만 취하는 데이터가 있다면 모집단분포가 정규분포라고 가정하기에는 무리가 있습 jofresh.tistory.com 필요한 라이브러리 임포트 # 수치 계산에 사용하는 라이브러리 import numpy as np import pandas as pd import scipy as sp from scipy import..

[파이썬/통계] Python 통계 : 일반선형모델 평가(잔차제곱합 구하는 이유)

정규선형모델에서 배운것 처럼(아래 이전 포스팅 참조) 모델을 평가할 때는 잔차를 필수로 체크해야합니다. 다만, 모집단분포가 정규분포 이외의 분포가 되면 잔차의 취급이 크게 바뀌게 됩니다. 이번에는 일반선형모델에서의 잔차 취급을 알아보겠습니다. 잔차는 데이터와 모델의 괴리를 표현하는 중요한 지표입니다. [파이썬/통계] Python 통계 : 정규 선형모델 /연속형 독립변수가 하나인 모델(단순회귀) 필요한 라이브러리 임포트 # 수치 계산에 사용하는 라이브러리 import numpy as np import pandas as pd import scipy as sp from scipy import stats # 그래프를 그리는 라이브러리 from matplotlib import pyplot as plt import..

[파이썬/통계] Python 통계 : 일반선형모델 기본/ 로지스틱회귀 모델/null 모델

일반선형모델의 기본 예를 들어'있다, 없다'라는 두 개의 값만 취하는 데이터나 '1개,2개,3개'등 0 이상의 정수만 취하는 데이터가 있다면 모집단분포가 정규분포라고 가정하기에는 무리가 있습니다. 여기서 등장하는 것이 일반선형모델입니다. 일반선형모델을 이용하면 분류 문제와 회귀 문제를 통일성 있게 취급할 수 있습니다. 일반선형모델의 구성요소 1. 모집단이 따르는 확률분포: 일반선형모델은 정규분포나 이항분포, 푸아송 분포 등에 적용할 수 있습니다. 2. 선형예측자: 독립변수를 선형의 관계식으로 표현한 것입니다. 3. 링크함수: 종속변수와 선형예측자를 서로 대응시키기 위해 사용합니다. 링크함수와 확률분포의 대응 확률분포 링크함수 모델명 정규분포 이항분포 푸아송 분포 항등함수 로짓함수 로그함수 정규선형모델 로..

[파이썬/통계] Python 통계 : 일반선형모델/ 이항분포 / 푸아송분포

필요한 라이브러리 임포트 # 수치 계산에 사용하는 라이브러리 import numpy as np import pandas as pd import scipy as sp from scipy import stats # 그래프를 그리는 라이브러리 from matplotlib import pyplot as plt import seaborn as sns sns.set() # 통계 모델을 추정하는 라이브러리(워크닝이 나올 수도 있습니다) import statsmodels.formula.api as smf import statsmodels.api as sm # 표시 자릿수 지정 %precision 3 # 그래프를 jupyter Notebook 내에 표시하도록 하기 위한 지정 %matplotlib inline 이항분포 이..

[파이썬/통계] Python 통계 : type 2 anova / 독립변수가 여럿인 모델 / t검정/ 적합한 독립변수 선택

독립변수가 여럿인 모델 매상 예측 모델에서는 습도, 기온, 날씨, 가격이라는 독립변수를 사용합니다. 날씨는 카테고리형 변수이며, 그 외에는 연속형 변수입니다. 복수의 독립변수를 가지고 있어도 일반 선형모델 구조를 이용해서 통일적인 분석, 해석, 예측이 가능합니다. 이절에서는 분산분석에서 type 2 anova라 불리는 검정 방법을 설명하겠습니다. 복수의 독립변수가 있을 경우 그 변수들의 유의미함을 어떻게 판정하는지 배울겁니다!! 용어 설명 카테고리형 변수와 연속형 변수는 통계 및 데이터 분석에서 사용되는 변수의 두 가지 주요 유형입니다. 카테고리형 변수: 카테고리형 변수(또는 범주형 변수)는 명목형 변수라고도 불리며, 일정한 범주 또는 레벨로 구성된 변수입니다. 이러한 변수는 일반적으로 명목적인 속성을 ..

[파이썬/통계] Python 통계 : 분산분석/회귀모델의 분산분석 / statsmodels를 이용한 분산분석

분산분석은 정규선형모델에서 폭넓게 이용되는 검정 방법입니다. 분산분석(ANOVA)은 통계적으로 그룹 간 차이를 검정하기 위해 사용되는 방법입니다. 일반적으로 분산분석은 다음과 같은 상황에서 필요합니다: 그룹 간 비교: 분산분석은 그룹 간 평균의 차이를 검정하기 위해 사용됩니다. 여러 그룹이 있고 각 그룹 간에 차이가 있는지 확인하고자 할 때 분산분석을 사용할 수 있습니다. 예를 들어, 약을 복용한 여러 그룹의 평균 효과를 비교하거나 교육 수준에 따라 소득의 차이를 비교할 수 있습니다. 요인 간 상호작용 검정: 분산분석은 또한 그룹 간 차이뿐만 아니라 요인 간 상호작용의 존재 여부도 검정할 수 있습니다. 즉, 그룹 간 차이가 통계적으로 유의미한지 뿐만 아니라 그룹 간 차이가 다른 요인(예: 성별, 연령 등..