programming/파이썬으로 배우는 통계학

[파이썬/통계] Python에 의한 기술 통계 : 추정

Jofresh 2023. 5. 6. 16:06
728x90
반응형

필요한 라이브러리 임포트

# 수치 계산에 사용하는 라이브러리입니다.
import numpy as np
import pandas as pd
import scipy as sp
from scipy import stats

# 그래프를 그리는 라이브러리입니다.
from matplotlib import pyplot as plt
import seaborn as sns
sns.set()

# 표시 자리수 지정입니다.
%precision 3
# 그래프를 jupyter Notebook 내에 표시하도록 하기 위한 지정입니다.
%matplotlib inline

통계에 사용될 raw 데이터

더보기
0 4.352982
1 3.735304
2 5.944617
3 3.798326
4 4.087688
5 5.265985
6 3.272614
7 3.526691
8 4.150083
9 3.736104

점 추정

- 위 raw 데이터의 모평균/분산 점추정

구간 추정

먼저, df = len(fish) - 1은 표본에서 모집단을 추론하기 위한 자유도(degree of freedom)를 구하는 코드입니다. 여기서 len(fish)는 표본의 크기를 나타내며, 1을 빼준 이유는 추정량을 구하기 위한 제약 조건이 하나 있다는 것을 나타냅니다.

그 다음으로 se = sigma / sp.sqrt(len(fish))은 표본평균의 표준오차(standard error)를 구하는 코드입니다. sigma는 모집단의 표준편차를 나타내며, sp.sqrt(len(fish))는 표본의 크기의 제곱근을 나타냅니다.

마지막으로 interval = stats.t.interval(alpha = 0.95, df = df, loc = mu, scale = se)은 95% 신뢰수준(confidence level)에서 모집단 평균의 구간추정을 구하는 코드입니다. stats.t.interval() 함수는 t-분포 상에서 주어진 자유도와 신뢰수준에서의 구간을 계산합니다. 이때, alpha는 신뢰수준을 나타내며, loc은 표본의 평균을 나타내고, scale은 표준오차를 나타냅니다. 따라서 interval에는 구간의 하한값과 상한값이 저장됩니다.

 

신뢰 계수와 신뢰 구간


신뢰 계수(confidence level)는 표본으로부터 계산한 통계량을 사용하여 모집단의 모수를 추정할 때, 해당 통계량이 모수를 포함하는 구간을 몇 퍼센트의 확률로 포함하는지를 나타내는 값입니다. 일반적으로 95%, 99%, 99.9%와 같은 값을 사용합니다.

신뢰 구간(confidence interval)은 신뢰 계수와 함께 사용되며, 표본으로부터 계산한 통계량으로부터 구간을 구한 것입니다. 예를 들어, 표본평균을 이용하여 모평균의 구간을 추정하는 경우, 해당 구간에 신뢰 계수(예: 95%)만큼 포함될 것으로 기대합니다. 따라서, 해당 구간은 모평균을 포함할 가능성이 높은 구간으로 해석됩니다.

신뢰 계수가 높을수록 신뢰 구간의 폭이 넓어지며, 신뢰 계수가 낮을수록 신뢰 구간의 폭이 좁아집니다. 따라서, 적절한 신뢰 계수를 선택하는 것은 추정 결과를 해석하는 데 중요합니다.

 

신뢰 구간의 폭을 결정하는 요소

신뢰 구간의 해석

 

시뮬레이션 시행 결과 신뢰구간이 모평균(4)을 포함한 비율을 구해보니 0.948로 대략 0.95(95%)가 됩니다.

728x90
반응형