통계학 22

[파이썬/통계] Python에 의한 기술 통계 : 통계 모델, 모델링에 관하여

통계모델(Statistical Model)은 현상이나 데이터의 패턴을 설명하거나 예측하기 위해 수학적으로 정의된 모델입니다. 이 모델은 통계학적 기법과 확률론을 사용하여 데이터의 특성과 관련된 가정을 수립하고 검정하며, 데이터로부터 파라미터를 추정하고 추론하는 데 사용됩니다. 모델링(Modeling)은 통계모델을 개발하는 과정을 의미합니다. 이는 데이터를 수집하고, 데이터의 특성을 이해하며, 모델의 구조와 가정을 설정하는 과정을 포함합니다. 모델링은 주어진 데이터에 적합한 모델을 찾고, 모델의 파라미터를 조정하여 데이터를 잘 설명하거나 예측할 수 있는 모델을 생성하는 작업입니다. 모델링은 다양한 목적을 가지고 수행될 수 있습니다. 주요 목적은 다음과 같습니다: 데이터 이해: 모델링은 데이터를 분석하고 이..

[파이썬/통계] Python에 의한 기술 통계 : 분할표검정(카이제곱검정★)

분할표 검정은 두 개의 범주형 변수 간에 관련성이 있는지를 평가하기 위해 사용되는 통계적인 방법입니다. 범주형 변수는 일반적으로 명목형 또는 순서형 변수로 구성되며, 각 변수는 두 개 이상의 범주를 가지고 있습니다. 분할표는 두 개의 범주형 변수를 교차하여 만든 표이며, 각 범주에 해당하는 개체 수를 나타냅니다. 분할표 검정은 이러한 분할표를 사용하여 두 변수 간의 관련성을 평가합니다. 가장 일반적인 분할표 검정은 카이제곱 검정(Chi-square test)입니다. 카이제곱 검정은 관찰된 빈도와 기대되는 빈도 사이의 차이가 우연에 의한 것인지를 확인하는 데 사용됩니다. 카이제곱 검정은 다음과 같은 절차를 따릅니다: 1. 가설 설정: - 귀무 가설(H0)과 대립 가설(H1)을 설정합니다. - 귀무 가설은 ..

[파이썬/통계] Python에 의한 기술 통계 : 평균치 차이 검정

이번에는 실제 분석할 때도 많이 쓰이는 평균값의 차이에 대한 검정의 이론과 실행 방법을 설명하겠습니다. 필요한 라이브러리 임포트 # 수치 계산에 사용하는 라이브러리입니다. import numpy as np import pandas as pd import scipy as sp from scipy import stats # 그래프를 그리는 라이브러리입니다. from matplotlib import pyplot as plt import seaborn as sns sns.set() # 표시 자리수 지정입니다. %precision 3 # 그래프를 jupyter Notebook 내에 표시하도록 하기 위한 지정입니다. %matplotlib inline 통계에 사용될 raw 데이터 - 이제부터 raw 데이터는 그냥 파..

[파이썬/통계] Python에 의한 기술 통계 : 통계적 가설 검정

통계적가설검정이란? 통계적 가설 검정은 통계학에서 데이터를 사용하여 어떤 주장이나 가설에 대한 통계적인 지지 여부를 평가하는 과정입니다. 가설 검정은 주어진 데이터로부터 일반적인 결론을 도출하거나 특정 가설을 지지하거나 기각하는 데 사용됩니다. 일반적으로 통계적 가설 검정은 다음과 같은 절차를 따릅니다: 1. 가설 설정: - 귀무 가설(H0)과 대립 가설(H1)을 설정합니다. - 귀무 가설은 일반적인 주장이나 기존의 상태를 나타내고, 대립 가설은 귀무 가설과 반대되는 주장이나 원하는 변화를 나타냅니다. 2. 유의수준 결정: - 유의수준(α)을 설정합니다. 유의수준은 귀무 가설을 기각하기 위한 증거를 평가하는 임계값입니다. 일반적으로 0.05(5%)나 0.01(1%)이 사용됩니다. 3. 검정 통계량 계산:..

[파이썬/통계] Python에 의한 기술 통계 : 추정

필요한 라이브러리 임포트 # 수치 계산에 사용하는 라이브러리입니다. import numpy as np import pandas as pd import scipy as sp from scipy import stats # 그래프를 그리는 라이브러리입니다. from matplotlib import pyplot as plt import seaborn as sns sns.set() # 표시 자리수 지정입니다. %precision 3 # 그래프를 jupyter Notebook 내에 표시하도록 하기 위한 지정입니다. %matplotlib inline 통계에 사용될 raw 데이터 더보기 0 4.352982 1 3.735304 2 5.944617 3 3.798326 4 4.087688 5 5.265985 6 3.2726..

[파이썬/통계] Python에 의한 기술 통계 :정규 분포와 그 응용(확률밀도,t분포,누적분포함수,하측확률,퍼센트포인트)

파이썬 라이브러리를 통하지 않는다면, 확률 밀도/정규 분포 등등을 계산하는 방식은 굉장히 까다롭습니다. 공식을 알고 있다고해도 실무에서 응용하는 것은 쉽지가 않을 것 입니다. 그래서 파이썬 라이브러리를 통해서 공부하는 것이기도 합니다. 원리만 알면 누구나 쉽게 통계를 내볼 수 있으니깐요! 아래 식은 확률 밀도를 계산하는 공식입니다. 하지만 우리는 이런 복잡한 계산을 하지 않고도 원하는 것을 얻을 수 있죠! 계산 공식을 다 올리려고 했지만 그러면 오히려 더 어렵고, 가독성이 떨어질 것 같아서 빼고 진행하기로 했습니다. 참고 부탁드립니다! # '평균 4, 분산 0.64(표준편차 0.8)의 정규분포'에서 확률변수가 3일 때 확률밀도 x = 3 mu = 4 sigma = 0.8 1 / (sp.sqrt(2 * s..

[파이썬/통계] Python에 의한 기술 통계 : 표본의 통계량 성질

필요한 라이브러리 임포트 # 수치 계산에 사용하는 라이브러리입니다. import numpy as np import pandas as pd import scipy as sp from scipy import stats # 그래프를 그리는 라이브러리입니다. from matplotlib import pyplot as plt import seaborn as sns sns.set() # 표시 자리수 지정입니다. %precision 3 # 그래프를 jupyter Notebook 내에 표시하도록 하기 위한 지정입니다. %matplotlib inline #평균 4,표준 편차 0.8의 정규 분포를 모두 사용 population = stats.norm(loc = 4, scale = 0.8) 표본 평균을 몇 번이나 계산해 보..

[파이썬/통계] Python에 의한 기술 통계 : 모집단의 표본 추출 시뮬레이션

필요한 라이브러리 임포트 # 수치 계산에 사용하는 라이브러리입니다. import numpy as np import pandas as pd import scipy as sp from scipy import stats # 그래프를 그리는 라이브러리입니다. from matplotlib import pyplot as plt import seaborn as sns sns.set() # 표시 자리수 지정입니다. %precision 3 # 그래프를 jupyter Notebook 내에 표시하도록 하기 위한 지정입니다. %matplotlib inline 물고기 다섯 마리만 있는 호수에서 표본 추출 - np.random.choice 함수는 배열의 요소 중에서 무작위로 샘플링을 수행하는 함수입니다. 위 코드에서는 fish_..

[파이썬/통계] Python에 의한 기술 통계 : matplotlib·seaborn에 의한 데이터 가시화

안녕하세요! 조신선입니다. 오늘은 matplotlib·seaborn에 의한 데이터 가시화에 대해서 포스팅하겠습니다. 오늘도 역시나 쥬피터(vscode확장자 : ipynb) 환경으로 시작하겠습니다. 라이브러리 임포트 # 수치 계산에 사용하는 라이브러리 import numpy as np import pandas as pd # 표시 자릿수 지정 %precision 3 # 그래프를 그리는 라이브러리 from matplotlib import pyplot as plt # 그래프를 jupyter Notebook 내에 표시하도록 하기 위한 지정 %matplotlib inline pyplot에 의한 꺾임선 그래프 해당 코드는 matplotlib 라이브러리를 이용하여 산점도 그래프를 그리는 코드입니다. plt.plot(x..

[파이썬/통계] Python에 의한 기술 통계 : 다변량 데이터와 pandas 데이터 프레임

안녕하세요! 조신선입니다. 오늘은 다변량 데이터와 pandas 데이터 프레임에 대해서 포스팅하겠습니다. 오늘도 역시나 쥬피터(vscode확장자 : ipynb) 환경으로 시작하겠습니다. 라이브러리 임포트 import pandas as pd import scipy as sp %precision 3 그룹별 통계량 예시 코드에 쓰일 데이터 파일을 이미지로 공유드리겠습니다. 아래 코드는 fish_multi 데이터 프레임을 'species' 열을 기준으로 그룹핑한 뒤 각 그룹별로 열의 평균 값을 계산하는 코드입니다. groupby 메소드로 'species' 열을 기준으로 데이터 프레임을 그룹핑한 결과를 group 변수에 저장하고, mean 메소드를 이용해 각 그룹별로 열의 평균 값을 계산하여 출력합니다. 아래 코드..