programming/파이썬으로 배우는 통계학

[파이썬/통계] Python에 의한 기술 통계 : 통계적 가설 검정

Jofresh 2023. 5. 16. 11:27
728x90
반응형

통계적가설검정이란?

통계적 가설 검정은 통계학에서 데이터를 사용하여 어떤 주장이나 가설에 대한 통계적인 지지 여부를 평가하는 과정입니다. 가설 검정은 주어진 데이터로부터 일반적인 결론을 도출하거나 특정 가설을 지지하거나 기각하는 데 사용됩니다.

일반적으로 통계적 가설 검정은 다음과 같은 절차를 따릅니다:

1. 가설 설정:

- 귀무 가설(H0)과 대립 가설(H1)을 설정합니다.
- 귀무 가설은 일반적인 주장이나 기존의 상태를 나타내고, 대립 가설은 귀무 가설과 반대되는 주장이나 원하는 변화를 나타냅니다.

 

2. 유의수준 결정:

- 유의수준(α)을 설정합니다. 유의수준은 귀무 가설을 기각하기 위한 증거를 평가하는 임계값입니다. 일반적으로 0.05(5%)나 0.01(1%)이 사용됩니다.

 

3. 검정 통계량 계산:

- 주어진 데이터를 사용하여 검정 통계량을 계산합니다. 검정 통계량은 가설을 검증하는 데 사용되는 통계적 측도입니다. 예를 들어, t-값, z-값, F-값 등이 검정 통계량의 예시입니다.

 

4. 유의성 검정:

- 계산된 검정 통계량을 사용하여 귀무 가설의 참/거짓을 판단합니다.
유의성 검정에서는 계산된 검정 통계량의 확률 값을 계산하고, 이를 유의수준과 비교하여 귀무 가설을 기각하거나 채택합니다. 이때, p-value(유의확률)을 사용하여 검정 결과를 해석합니다.

 

5. 결과 해석:

유의성 검정 결과를 해석하여 귀무 가설을 기각할 수 있는지 여부를 결정합니다. 결과에 따라 귀무 가설을 기각하고 대립 가설을 채택하거나, 귀무 가설을 채택하는 등의 결론을 도출합니다.
통계적 가설 검정은 과학적 방법론을 통해 주장이나 가설을 검증하고, 신뢰할 수 있는 결론을 얻을 수 있는 중요한 통계적 분석 도구입니다.

유의수준이란?

유의수준은 통계적 가설 검정에서 귀무 가설을 기각하기 위한 기준으로 사용되는 임계값입니다. 일반적으로 알파(alpha)라고도 불리며, 주로 0.05(5%) 또는 0.01(1%)과 같은 값을 사용합니다.

유의수준은 연구자가 설정하는 것으로, 가설 검정을 통해 얻은 결과를 평가할 때 사용됩니다. 유의수준은 귀무 가설이 참일 때 잘못해서 귀무 가설을 기각하는 오류를 범할 확률을 의미합니다.

보통 유의수준 0.05를 사용하면, "표본 데이터가 주어진 귀무 가설을 지지하지 않을 정도로 특이하다고 할 수 있는가?"라는 질문에 대한 답을 찾기 위해 귀무 가설을 기각하는 결정을 내립니다. 유의수준이 0.05인 경우, 만약 계산된 p-value(유의확률)이 0.05보다 작다면, 우연히 발생한 것보다 훨씬 더 특이하다고 판단하여 귀무 가설을 기각할 수 있습니다.

유의수준은 가설 검정의 결과를 해석할 때 중요한 역할을 합니다. 유의수준을 낮게 설정할수록 귀무 가설을 기각하기 위한 엄격한 기준을 적용하게 되며, 결과적으로 기각할 수 있는 귀무 가설의 임계가 더 높아집니다. 반대로, 유의수준을 높게 설정할 경우, 기각할 수 있는 귀무 가설의 임계가 낮아지게 됩니다.

유의수준은 연구의 목적, 분야의 관행, 중요성에 따라 결정되어야 합니다. 그러므로, 연구자는 특정 상황에 적절한 유의수준을 선택하는 것이 중요합니다.

 

필요한 라이브러리 임포트

# 수치 계산에 사용하는 라이브러리입니다.
import numpy as np
import pandas as pd
import scipy as sp
from scipy import stats

# 그래프를 그리는 라이브러리입니다.
from matplotlib import pyplot as plt
import seaborn as sns
sns.set()

# 표시 자리수 지정입니다.
%precision 3
# 그래프를 jupyter Notebook 내에 표시하도록 하기 위한 지정입니다.
%matplotlib inline

통계에 사용될 raw 데이터

더보기

weight
58.529820 
52.353039 
74.446169 
52.983263 
55.876879 
67.659849 
47.726141 
50.266907 
56.500826 
52.361040 
45.457883 
53.360988 
52.129368 
59.827773 
41.681692 
49.398568 
64.211128 
69.858648 
42.910564 
60.158780 

t검정 구현: t값 계산

- 위 raw 데이터를 활용해서 표본 평균/ 자유도/ 표준오차/ t값을 구해보았습니다.

- 통계학에서 t-검정은 표본 평균 간의 차이가 통계적으로 유의미한지를 판단하기 위해 사용되는 가설 검정 방법 중 하나입니다. t-검정은 표본 데이터로부터 계산된 통계량인 t-값을 사용하여 가설을 검증합니다.

t-검정을 사용하는 이유는 다음과 같습니다:

모집단 분포의 표준편차를 알지 못할 때: t-검정은 모집단의 표준편차를 알지 못하는 상황에서도 평균 차이의 유의성을 검정할 수 있습니다. 이는 실제로 많은 경우에 해당하며, 모집단 표준편차를 알 수 없는 상황에서도 통계적 추론을 할 수 있도록 합니다.

작은 표본 크기일 때: t-검정은 작은 표본 크기에 대해서도 유용합니다. 작은 표본의 경우, 표본 평균의 분포가 정규 분포를 따르지 않을 수 있으며, 이에 따라 표준 정규 분포 대신 t-분포를 사용하여 가설을 검정합니다.

t-값은 표본 평균 간의 차이를 표준 오차로 나눈 값으로, 표본 평균 간의 차이가 우연에 의한 것인지 아니면 진짜로 의미 있는 차이인지를 평가하는 데 사용됩니다. t-값이 크면서 자유도가 큰 경우, 표본 평균 간의 차이가 통계적으로 유의미하다는 것을 나타냅니다. 반대로, t-값이 작거나 자유도가 작을 경우, 표본 평균 간의 차이가 우연에 의한 것으로 간주되어 유의미하지 않다는 것을 나타냅니다.

t검정 구현: p값 계산

시뮬레이션을 통한 p값 계산

- 50000개의 t값중 t표본을 넘어선 비율을 구하고 2배 해주면 p값이 됩니다. 값은 0.013으로 이론으로 계산한 값과 시뮬레이션 결과값이 거의 일치한 것을 확인할 수 있습니다.

728x90
반응형