통계학 22

사이킷런을 활용한 머신러닝(model_selection / preprocessing) - 선형모델과 신경망_[파이썬/머신러닝]

이번에는 신경망의 기본적인 구조를 소개하겠습니다. 그리고 파이썬으로 구현을 하면서 헌형모델과 복잡한 머신러닝을 비교해볼께요! 신경망을 사용하는 예제에서는 붓꽃의 종을 판별하게 만들어보겠습니다. 붓꽃의 꽃받침 길이와 너비를 이용해서 붓꽃의 종류를 알아내는 예측 모델을 만들겠습니다. 입력 벡터, 목표 벡터, 가중치, 편향 통계모델과 머신러닝에서는 같은 뜻이지만 사용하는 용어가 다른 경우가 있습니다. - 독립변수는 머신러닝용어로 입력 벡터라고 합니다. - 종속변수는 목표 벡터라고 합니다. - 계수는 가중치라고 합니다. - 절편은 값이 항상 1인 독립변수로 볼 수 있으며, 편향이라고 합니다. 단순 퍼셉트론 단순 퍼셉트론은 아래 그림처럼 입력 벡터에 가중치(w1,w2,w3)가 반영된 값을 합해서 하나의 출력으로 ..

사이킷런을 활용한 머신러닝(linear_model) - 릿지 회귀와 라소회귀 최적의 정규화 강도 결정_[파이썬/머신러닝]

이전 포스팅과 연결되는 부분이 많아서 이전 포스팅을 태그 걸었습니다. 이번 포스팅에서는 머신러닝 실전을 해보겠습니다. [파이썬/통계] 통계학과 머신러닝 - 이론적인 부분들 (라소회귀, 리지회귀) 머신러닝 기본 머신러닝은 컴퓨터에 학습능력을 부여하는 것을 목적으로 한 연구 분야입니다. 학습은 데이터를 기반으로 행해져 데이터가 가지는 규칙성을 분명히 합니다. 규칙성을 분명히 함 jofresh.tistory.com 사이킷런 사이킷런은 파이썬에서 머신러닝을 적용하는 데 자주 사용되는 패키지입니다. sklearn이라고 줄여서 부르기도 합니다. pip install sklearn 위 코드를 통해서 설치해주면됩니다. 리지회귀/라소회귀 외에도 뉴럴네트워크나 서포트 벡터머신등 여러 방법에 사용할 수 있습니다. 필요한 라..

[파이썬/머신러닝] 통계학과 머신러닝 - 이론적인 부분들 (라소회귀, 릿지회귀)

머신러닝 기본 머신러닝은 컴퓨터에 학습능력을 부여하는 것을 목적으로 한 연구 분야입니다. 학습은 데이터를 기반으로 행해져 데이터가 가지는 규칙성을 분명히 합니다. 규칙성을 분명히 함으로써 모르는 데이터의 예측 등에 활용됩니다. 규칙성을 분명히 함으로써 모르는 데이터의 예측 등에 활용됩니다. 지도학습 머신러닝은 크게 지도학습과 비지도학습으로 나누어집니다. 지도학습은 정답 데이터를 얻을 수 있는 문제를 다루는 학습입니다. 예를 들어 매상을 예측하는 경우 매상 데이터를 얻을 수 있다면 예측결과가 맞는지 문제가 있는지 평가할 수 있습니다. 이런 문제를 다루는 방법이 지도학습입니다. 정규선형모델이나 일반선형모델을 다룬 문제는 지도학습이라고 볼 수 있습니다. 우리는 지도학습을 배울겁니다. 비지도학습 비지도학습은 정..

[파이썬/통계] Python 통계 : 푸아송 회귀(회귀계수 해석)

푸아송 회귀란 확률분포에 푸아송 분포를 사용하고, 링크함수에 로그함수를 사용한 일반선형모델입니다. 독립변수는 여러 개 있어도 상관없고, 연속형과 카테고리형이 혼재되어 있어도 됩니다. WOW~~ ※복습 [파이썬/통계] Python 통계 : 일반선형모델 기본/ 로지스틱회귀 모델/null 모델 일반선형모델의 기본 예를 들어'있다, 없다'라는 두 개의 값만 취하는 데이터나 '1개,2개,3개'등 0 이상의 정수만 취하는 데이터가 있다면 모집단분포가 정규분포라고 가정하기에는 무리가 있습 jofresh.tistory.com 필요한 라이브러리 임포트 # 수치 계산에 사용하는 라이브러리 import numpy as np import pandas as pd import scipy as sp from scipy import..

[파이썬/통계] Python 통계 : 일반선형모델 평가(잔차제곱합 구하는 이유)

정규선형모델에서 배운것 처럼(아래 이전 포스팅 참조) 모델을 평가할 때는 잔차를 필수로 체크해야합니다. 다만, 모집단분포가 정규분포 이외의 분포가 되면 잔차의 취급이 크게 바뀌게 됩니다. 이번에는 일반선형모델에서의 잔차 취급을 알아보겠습니다. 잔차는 데이터와 모델의 괴리를 표현하는 중요한 지표입니다. [파이썬/통계] Python 통계 : 정규 선형모델 /연속형 독립변수가 하나인 모델(단순회귀) 필요한 라이브러리 임포트 # 수치 계산에 사용하는 라이브러리 import numpy as np import pandas as pd import scipy as sp from scipy import stats # 그래프를 그리는 라이브러리 from matplotlib import pyplot as plt import..

[파이썬/통계] Python 통계 : 일반선형모델 기본/ 로지스틱회귀 모델/null 모델

일반선형모델의 기본 예를 들어'있다, 없다'라는 두 개의 값만 취하는 데이터나 '1개,2개,3개'등 0 이상의 정수만 취하는 데이터가 있다면 모집단분포가 정규분포라고 가정하기에는 무리가 있습니다. 여기서 등장하는 것이 일반선형모델입니다. 일반선형모델을 이용하면 분류 문제와 회귀 문제를 통일성 있게 취급할 수 있습니다. 일반선형모델의 구성요소 1. 모집단이 따르는 확률분포: 일반선형모델은 정규분포나 이항분포, 푸아송 분포 등에 적용할 수 있습니다. 2. 선형예측자: 독립변수를 선형의 관계식으로 표현한 것입니다. 3. 링크함수: 종속변수와 선형예측자를 서로 대응시키기 위해 사용합니다. 링크함수와 확률분포의 대응 확률분포 링크함수 모델명 정규분포 이항분포 푸아송 분포 항등함수 로짓함수 로그함수 정규선형모델 로..

[파이썬/통계] Python 통계 : 일반선형모델/ 이항분포 / 푸아송분포

필요한 라이브러리 임포트 # 수치 계산에 사용하는 라이브러리 import numpy as np import pandas as pd import scipy as sp from scipy import stats # 그래프를 그리는 라이브러리 from matplotlib import pyplot as plt import seaborn as sns sns.set() # 통계 모델을 추정하는 라이브러리(워크닝이 나올 수도 있습니다) import statsmodels.formula.api as smf import statsmodels.api as sm # 표시 자릿수 지정 %precision 3 # 그래프를 jupyter Notebook 내에 표시하도록 하기 위한 지정 %matplotlib inline 이항분포 이..

[파이썬/통계] Python 통계 : type 2 anova / 독립변수가 여럿인 모델 / t검정/ 적합한 독립변수 선택

독립변수가 여럿인 모델 매상 예측 모델에서는 습도, 기온, 날씨, 가격이라는 독립변수를 사용합니다. 날씨는 카테고리형 변수이며, 그 외에는 연속형 변수입니다. 복수의 독립변수를 가지고 있어도 일반 선형모델 구조를 이용해서 통일적인 분석, 해석, 예측이 가능합니다. 이절에서는 분산분석에서 type 2 anova라 불리는 검정 방법을 설명하겠습니다. 복수의 독립변수가 있을 경우 그 변수들의 유의미함을 어떻게 판정하는지 배울겁니다!! 용어 설명 카테고리형 변수와 연속형 변수는 통계 및 데이터 분석에서 사용되는 변수의 두 가지 주요 유형입니다. 카테고리형 변수: 카테고리형 변수(또는 범주형 변수)는 명목형 변수라고도 불리며, 일정한 범주 또는 레벨로 구성된 변수입니다. 이러한 변수는 일반적으로 명목적인 속성을 ..

[파이썬/통계] Python 통계 : 분산분석/회귀모델의 분산분석 / statsmodels를 이용한 분산분석

분산분석은 정규선형모델에서 폭넓게 이용되는 검정 방법입니다. 분산분석(ANOVA)은 통계적으로 그룹 간 차이를 검정하기 위해 사용되는 방법입니다. 일반적으로 분산분석은 다음과 같은 상황에서 필요합니다: 그룹 간 비교: 분산분석은 그룹 간 평균의 차이를 검정하기 위해 사용됩니다. 여러 그룹이 있고 각 그룹 간에 차이가 있는지 확인하고자 할 때 분산분석을 사용할 수 있습니다. 예를 들어, 약을 복용한 여러 그룹의 평균 효과를 비교하거나 교육 수준에 따라 소득의 차이를 비교할 수 있습니다. 요인 간 상호작용 검정: 분산분석은 또한 그룹 간 차이뿐만 아니라 요인 간 상호작용의 존재 여부도 검정할 수 있습니다. 즉, 그룹 간 차이가 통계적으로 유의미한지 뿐만 아니라 그룹 간 차이가 다른 요인(예: 성별, 연령 등..

[파이썬/통계] Python 통계 : 정규 선형모델 /연속형 독립변수가 하나인 모델(단순회귀)

필요한 라이브러리 임포트 # 수치 계산에 사용하는 라이브러리 import numpy as np import pandas as pd import scipy as sp from scipy import stats # 그래프를 그리는 라이브러리 from matplotlib import pyplot as plt import seaborn as sns sns.set() # 통계 모델을 추정하는 라이브러리(워크닝이 나올 수도 있습니다) import statsmodels.formula.api as smf import statsmodels.api as sm # 표시 자릿수 지정 %precision 3 # 그래프를 jupyter Notebook 내에 표시하도록 하기 위한 지정 %matplotlib inline 데이터 가져..