분류 전체보기 163

JSON 데이터 추출하는 방법 (json_extract, json_array 함수 등)

JSON에서 데이터 추출 Athena의 테이블로 역직렬화할 필요가 없는 JSON 인코딩 문자열을 포함하는 원본 데이터가 있을 수 있습니다. 이 경우에도 Presto에 제공된 JSON 함수를 사용하여 이 데이터에 대해 SQL 작업을 실행할 수 있습니다. 아래 JSON 문자열을 예제 데이터 세트로 간주합니다. {"name": "Susan Smith", "org": "engineering", "projects": [ {"name":"project1", "completed":false}, {"name":"project2", "completed":true} ] } 예제: 속성 추출 JSON 문자열에서 name 및 projects 속성을 추출하려면 다음 예제에서와 같이 json_extract 함수를 사용합니다. j..

programming/SQL 2023.05.26

[국가제공무료] 지도API, 인구통계 API 활용하기(SGIS API)

안녕하세요! 조신선입니다. 오늘은 지도와 인구통계 데이터를 무료로 제공하는 국가공공데이터를 활용하는 방법에 대해서 포스팅하겠습니다. 통계청이나, data.go.kr 등.. 일반 통계자료를 이용하는 방법은 많은데요! 이런 데이터를 저희가 백엔드 서버에 올리고 이러쿵 저러쿵 하기는 번거롭고 비용이 발생할 수도 있습니다. 해서 무료를 찾아보던중 API형태로 제공해서, 나만의 웹사이트나 앱을 만드는데 활용할 수 있는 방법을 찾았습니다! https://sgis.kostat.go.kr/developer/html/main.html 개발지원센터 SGIS 오픈API 데이터와 아이디어가만나는 곳 SGIS 오픈API를 활용하여 당신이 가진 아이디어와 통계가 융합된 새로운 웹서비스를 제작하고 공유해주세요. 오픈API 소개 A..

programming/API 2023.05.24

[파이썬/통계] Python 통계 : 일반선형모델 기본/ 로지스틱회귀 모델/null 모델

일반선형모델의 기본 예를 들어'있다, 없다'라는 두 개의 값만 취하는 데이터나 '1개,2개,3개'등 0 이상의 정수만 취하는 데이터가 있다면 모집단분포가 정규분포라고 가정하기에는 무리가 있습니다. 여기서 등장하는 것이 일반선형모델입니다. 일반선형모델을 이용하면 분류 문제와 회귀 문제를 통일성 있게 취급할 수 있습니다. 일반선형모델의 구성요소 1. 모집단이 따르는 확률분포: 일반선형모델은 정규분포나 이항분포, 푸아송 분포 등에 적용할 수 있습니다. 2. 선형예측자: 독립변수를 선형의 관계식으로 표현한 것입니다. 3. 링크함수: 종속변수와 선형예측자를 서로 대응시키기 위해 사용합니다. 링크함수와 확률분포의 대응 확률분포 링크함수 모델명 정규분포 이항분포 푸아송 분포 항등함수 로짓함수 로그함수 정규선형모델 로..

[파이썬/통계] Python 통계 : 일반선형모델/ 이항분포 / 푸아송분포

필요한 라이브러리 임포트 # 수치 계산에 사용하는 라이브러리 import numpy as np import pandas as pd import scipy as sp from scipy import stats # 그래프를 그리는 라이브러리 from matplotlib import pyplot as plt import seaborn as sns sns.set() # 통계 모델을 추정하는 라이브러리(워크닝이 나올 수도 있습니다) import statsmodels.formula.api as smf import statsmodels.api as sm # 표시 자릿수 지정 %precision 3 # 그래프를 jupyter Notebook 내에 표시하도록 하기 위한 지정 %matplotlib inline 이항분포 이..

[파이썬/통계] Python 통계 : type 2 anova / 독립변수가 여럿인 모델 / t검정/ 적합한 독립변수 선택

독립변수가 여럿인 모델 매상 예측 모델에서는 습도, 기온, 날씨, 가격이라는 독립변수를 사용합니다. 날씨는 카테고리형 변수이며, 그 외에는 연속형 변수입니다. 복수의 독립변수를 가지고 있어도 일반 선형모델 구조를 이용해서 통일적인 분석, 해석, 예측이 가능합니다. 이절에서는 분산분석에서 type 2 anova라 불리는 검정 방법을 설명하겠습니다. 복수의 독립변수가 있을 경우 그 변수들의 유의미함을 어떻게 판정하는지 배울겁니다!! 용어 설명 카테고리형 변수와 연속형 변수는 통계 및 데이터 분석에서 사용되는 변수의 두 가지 주요 유형입니다. 카테고리형 변수: 카테고리형 변수(또는 범주형 변수)는 명목형 변수라고도 불리며, 일정한 범주 또는 레벨로 구성된 변수입니다. 이러한 변수는 일반적으로 명목적인 속성을 ..

[파이썬/통계] Python 통계 : 분산분석/회귀모델의 분산분석 / statsmodels를 이용한 분산분석

분산분석은 정규선형모델에서 폭넓게 이용되는 검정 방법입니다. 분산분석(ANOVA)은 통계적으로 그룹 간 차이를 검정하기 위해 사용되는 방법입니다. 일반적으로 분산분석은 다음과 같은 상황에서 필요합니다: 그룹 간 비교: 분산분석은 그룹 간 평균의 차이를 검정하기 위해 사용됩니다. 여러 그룹이 있고 각 그룹 간에 차이가 있는지 확인하고자 할 때 분산분석을 사용할 수 있습니다. 예를 들어, 약을 복용한 여러 그룹의 평균 효과를 비교하거나 교육 수준에 따라 소득의 차이를 비교할 수 있습니다. 요인 간 상호작용 검정: 분산분석은 또한 그룹 간 차이뿐만 아니라 요인 간 상호작용의 존재 여부도 검정할 수 있습니다. 즉, 그룹 간 차이가 통계적으로 유의미한지 뿐만 아니라 그룹 간 차이가 다른 요인(예: 성별, 연령 등..

[레이달리오] 민주당과 공화당 사이의 부채 한도 논쟁에 대해 무엇을 해야 합니까?

아래 포스팅은 레이달리오가 [원칙에 입각한 관점]이라는 본인의 채널에 올리는 포스팅 내용을 번역하여 포스팅 합니다. 나는 최근 부채 한도 논쟁에 대해 어떻게 생각하느냐는 질문을 받았습니다. 그 질문에 답하기 위해 먼저 일어날 가능성이 있다고 생각하는 것을 설명한 다음 내가 어디에서 왔는지 설명할 것입니다. 그러면 내가 해야 한다고 생각하는 것에 대한 설명의 배경을 알 수 있습니다. 내가 생각하는 일이 일어날 것 같다 나는 일어날 가능성이 가장 높은 것은 양측이 디폴트를 허용하지 않을 것이고(또는 디폴트를 허용하더라도 오래 가지 않을 것임) 큰 문제를 실질적으로 다루지 않을 것이라고 생각합니다. 오히려 그들은 그다지 중요하지 않고 실제보다 더 좋아 보일 방식으로 일을 조정할 것입니다 (예: 그들은 미래에 ..

economy 2023.05.19

[파이썬/통계] Python 통계 : 정규 선형모델 /연속형 독립변수가 하나인 모델(단순회귀)

필요한 라이브러리 임포트 # 수치 계산에 사용하는 라이브러리 import numpy as np import pandas as pd import scipy as sp from scipy import stats # 그래프를 그리는 라이브러리 from matplotlib import pyplot as plt import seaborn as sns sns.set() # 통계 모델을 추정하는 라이브러리(워크닝이 나올 수도 있습니다) import statsmodels.formula.api as smf import statsmodels.api as sm # 표시 자릿수 지정 %precision 3 # 그래프를 jupyter Notebook 내에 표시하도록 하기 위한 지정 %matplotlib inline 데이터 가져..

[파이썬/통계] Python에 의한 기술 통계 : 통계 모델, 모델링에 관하여

통계모델(Statistical Model)은 현상이나 데이터의 패턴을 설명하거나 예측하기 위해 수학적으로 정의된 모델입니다. 이 모델은 통계학적 기법과 확률론을 사용하여 데이터의 특성과 관련된 가정을 수립하고 검정하며, 데이터로부터 파라미터를 추정하고 추론하는 데 사용됩니다. 모델링(Modeling)은 통계모델을 개발하는 과정을 의미합니다. 이는 데이터를 수집하고, 데이터의 특성을 이해하며, 모델의 구조와 가정을 설정하는 과정을 포함합니다. 모델링은 주어진 데이터에 적합한 모델을 찾고, 모델의 파라미터를 조정하여 데이터를 잘 설명하거나 예측할 수 있는 모델을 생성하는 작업입니다. 모델링은 다양한 목적을 가지고 수행될 수 있습니다. 주요 목적은 다음과 같습니다: 데이터 이해: 모델링은 데이터를 분석하고 이..

[파이썬/통계] Python에 의한 기술 통계 : 분할표검정(카이제곱검정★)

분할표 검정은 두 개의 범주형 변수 간에 관련성이 있는지를 평가하기 위해 사용되는 통계적인 방법입니다. 범주형 변수는 일반적으로 명목형 또는 순서형 변수로 구성되며, 각 변수는 두 개 이상의 범주를 가지고 있습니다. 분할표는 두 개의 범주형 변수를 교차하여 만든 표이며, 각 범주에 해당하는 개체 수를 나타냅니다. 분할표 검정은 이러한 분할표를 사용하여 두 변수 간의 관련성을 평가합니다. 가장 일반적인 분할표 검정은 카이제곱 검정(Chi-square test)입니다. 카이제곱 검정은 관찰된 빈도와 기대되는 빈도 사이의 차이가 우연에 의한 것인지를 확인하는 데 사용됩니다. 카이제곱 검정은 다음과 같은 절차를 따릅니다: 1. 가설 설정: - 귀무 가설(H0)과 대립 가설(H1)을 설정합니다. - 귀무 가설은 ..