programming 109

[파이썬/통계] Python 통계 : 푸아송 회귀(회귀계수 해석)

푸아송 회귀란 확률분포에 푸아송 분포를 사용하고, 링크함수에 로그함수를 사용한 일반선형모델입니다. 독립변수는 여러 개 있어도 상관없고, 연속형과 카테고리형이 혼재되어 있어도 됩니다. WOW~~ ※복습 [파이썬/통계] Python 통계 : 일반선형모델 기본/ 로지스틱회귀 모델/null 모델 일반선형모델의 기본 예를 들어'있다, 없다'라는 두 개의 값만 취하는 데이터나 '1개,2개,3개'등 0 이상의 정수만 취하는 데이터가 있다면 모집단분포가 정규분포라고 가정하기에는 무리가 있습 jofresh.tistory.com 필요한 라이브러리 임포트 # 수치 계산에 사용하는 라이브러리 import numpy as np import pandas as pd import scipy as sp from scipy import..

[파이썬/통계] Python 통계 : 일반선형모델 평가(잔차제곱합 구하는 이유)

정규선형모델에서 배운것 처럼(아래 이전 포스팅 참조) 모델을 평가할 때는 잔차를 필수로 체크해야합니다. 다만, 모집단분포가 정규분포 이외의 분포가 되면 잔차의 취급이 크게 바뀌게 됩니다. 이번에는 일반선형모델에서의 잔차 취급을 알아보겠습니다. 잔차는 데이터와 모델의 괴리를 표현하는 중요한 지표입니다. [파이썬/통계] Python 통계 : 정규 선형모델 /연속형 독립변수가 하나인 모델(단순회귀) 필요한 라이브러리 임포트 # 수치 계산에 사용하는 라이브러리 import numpy as np import pandas as pd import scipy as sp from scipy import stats # 그래프를 그리는 라이브러리 from matplotlib import pyplot as plt import..

[API활용] 인구수 경계지도(행정구 평균 연령, 가구수 등 정보 확인가능)

HTML 삽입 미리보기할 수 없는 소스 사용 방법: 1. 확인하고 싶은 지역 코드를 입력한다 ex) 서울 = 11 2. [인구지도]를 클릭한다. 아래 참고표를 확인하시고, 내가 원하는 지역의 총 인구수, 총 가구수 등 기본 정보도 확인이 가능합니다. 해당 지역구에 취업자나 해외거주자가 얼마나 많은지도 확인이 가능합니다. ex) 취업자가 많다는 의미 = 직장,일터가 많다는 뜻입니다. 요식업 창업시 이런 기본 사항 확인은 필수적인 정보입니다. ex2) 평균 연령이 낮은 지역 = 1인 가구, 젊은 사람들이 많이 산다는 뜻입니다. 내가 창업하려는 아이템이 노인인구를 대상으로 하는지, 젊은 사람으로 대상으로 하는지 체크해볼 수 있습니다. ※참고 지도 생성 후 하단에 나오는 정보의 key값의 의미입니다. "imga..

programming/API 2023.05.26

JSON 데이터 추출하는 방법 (json_extract, json_array 함수 등)

JSON에서 데이터 추출 Athena의 테이블로 역직렬화할 필요가 없는 JSON 인코딩 문자열을 포함하는 원본 데이터가 있을 수 있습니다. 이 경우에도 Presto에 제공된 JSON 함수를 사용하여 이 데이터에 대해 SQL 작업을 실행할 수 있습니다. 아래 JSON 문자열을 예제 데이터 세트로 간주합니다. {"name": "Susan Smith", "org": "engineering", "projects": [ {"name":"project1", "completed":false}, {"name":"project2", "completed":true} ] } 예제: 속성 추출 JSON 문자열에서 name 및 projects 속성을 추출하려면 다음 예제에서와 같이 json_extract 함수를 사용합니다. j..

programming/SQL 2023.05.26

[국가제공무료] 지도API, 인구통계 API 활용하기(SGIS API)

안녕하세요! 조신선입니다. 오늘은 지도와 인구통계 데이터를 무료로 제공하는 국가공공데이터를 활용하는 방법에 대해서 포스팅하겠습니다. 통계청이나, data.go.kr 등.. 일반 통계자료를 이용하는 방법은 많은데요! 이런 데이터를 저희가 백엔드 서버에 올리고 이러쿵 저러쿵 하기는 번거롭고 비용이 발생할 수도 있습니다. 해서 무료를 찾아보던중 API형태로 제공해서, 나만의 웹사이트나 앱을 만드는데 활용할 수 있는 방법을 찾았습니다! https://sgis.kostat.go.kr/developer/html/main.html 개발지원센터 SGIS 오픈API 데이터와 아이디어가만나는 곳 SGIS 오픈API를 활용하여 당신이 가진 아이디어와 통계가 융합된 새로운 웹서비스를 제작하고 공유해주세요. 오픈API 소개 A..

programming/API 2023.05.24

[파이썬/통계] Python 통계 : 일반선형모델 기본/ 로지스틱회귀 모델/null 모델

일반선형모델의 기본 예를 들어'있다, 없다'라는 두 개의 값만 취하는 데이터나 '1개,2개,3개'등 0 이상의 정수만 취하는 데이터가 있다면 모집단분포가 정규분포라고 가정하기에는 무리가 있습니다. 여기서 등장하는 것이 일반선형모델입니다. 일반선형모델을 이용하면 분류 문제와 회귀 문제를 통일성 있게 취급할 수 있습니다. 일반선형모델의 구성요소 1. 모집단이 따르는 확률분포: 일반선형모델은 정규분포나 이항분포, 푸아송 분포 등에 적용할 수 있습니다. 2. 선형예측자: 독립변수를 선형의 관계식으로 표현한 것입니다. 3. 링크함수: 종속변수와 선형예측자를 서로 대응시키기 위해 사용합니다. 링크함수와 확률분포의 대응 확률분포 링크함수 모델명 정규분포 이항분포 푸아송 분포 항등함수 로짓함수 로그함수 정규선형모델 로..

[파이썬/통계] Python 통계 : 일반선형모델/ 이항분포 / 푸아송분포

필요한 라이브러리 임포트 # 수치 계산에 사용하는 라이브러리 import numpy as np import pandas as pd import scipy as sp from scipy import stats # 그래프를 그리는 라이브러리 from matplotlib import pyplot as plt import seaborn as sns sns.set() # 통계 모델을 추정하는 라이브러리(워크닝이 나올 수도 있습니다) import statsmodels.formula.api as smf import statsmodels.api as sm # 표시 자릿수 지정 %precision 3 # 그래프를 jupyter Notebook 내에 표시하도록 하기 위한 지정 %matplotlib inline 이항분포 이..

[파이썬/통계] Python 통계 : type 2 anova / 독립변수가 여럿인 모델 / t검정/ 적합한 독립변수 선택

독립변수가 여럿인 모델 매상 예측 모델에서는 습도, 기온, 날씨, 가격이라는 독립변수를 사용합니다. 날씨는 카테고리형 변수이며, 그 외에는 연속형 변수입니다. 복수의 독립변수를 가지고 있어도 일반 선형모델 구조를 이용해서 통일적인 분석, 해석, 예측이 가능합니다. 이절에서는 분산분석에서 type 2 anova라 불리는 검정 방법을 설명하겠습니다. 복수의 독립변수가 있을 경우 그 변수들의 유의미함을 어떻게 판정하는지 배울겁니다!! 용어 설명 카테고리형 변수와 연속형 변수는 통계 및 데이터 분석에서 사용되는 변수의 두 가지 주요 유형입니다. 카테고리형 변수: 카테고리형 변수(또는 범주형 변수)는 명목형 변수라고도 불리며, 일정한 범주 또는 레벨로 구성된 변수입니다. 이러한 변수는 일반적으로 명목적인 속성을 ..

[파이썬/통계] Python 통계 : 분산분석/회귀모델의 분산분석 / statsmodels를 이용한 분산분석

분산분석은 정규선형모델에서 폭넓게 이용되는 검정 방법입니다. 분산분석(ANOVA)은 통계적으로 그룹 간 차이를 검정하기 위해 사용되는 방법입니다. 일반적으로 분산분석은 다음과 같은 상황에서 필요합니다: 그룹 간 비교: 분산분석은 그룹 간 평균의 차이를 검정하기 위해 사용됩니다. 여러 그룹이 있고 각 그룹 간에 차이가 있는지 확인하고자 할 때 분산분석을 사용할 수 있습니다. 예를 들어, 약을 복용한 여러 그룹의 평균 효과를 비교하거나 교육 수준에 따라 소득의 차이를 비교할 수 있습니다. 요인 간 상호작용 검정: 분산분석은 또한 그룹 간 차이뿐만 아니라 요인 간 상호작용의 존재 여부도 검정할 수 있습니다. 즉, 그룹 간 차이가 통계적으로 유의미한지 뿐만 아니라 그룹 간 차이가 다른 요인(예: 성별, 연령 등..