머신러닝 14

데이터 엔지니어와 데이터 사이언티스트의 차이점과 역할

데이터 엔지니어링과 데이터 사이언스는 데이터를 다루는 두 개의 중요한 분야이며, 각각의 역할과 전문성이 있습니다. 아래 내용을 기반으로 블로그 게시물을 작성해보겠습니다. 데이터 엔지니어링과 데이터 사이언스의 차이점 데이터 엔지니어링은 주로 데이터의 수집, 저장, 처리 및 관리를 담당합니다. 데이터 엔지니어는 대규모 데이터 파이프라인을 구축하고 유지 관리하여 데이터 사이언티스트가 사용할 수 있도록 데이터를 접근 가능하고 사용 가능한 형태로 변환합니다. 이들은 데이터베이스 관리, 클라우드 서비스, 데이터 파이프라인 구축 및 최적화 등을 전문으로 합니다. 데이터 사이언스는 데이터로부터 유의미한 인사이트와 지식을 추출하는 것을 목표로 합니다. 데이터 사이언티스트는 수집된 데이터를 분석하고 모델링하여 비즈니스 결..

programming 2024.03.23

[파이썬/머신러닝] 비지도 학습 군집의 개념

비지도 학습(Unsupervised Learning)은 머신러닝의 주요한 분야 중 하나로, 입력 데이터에서 유용한 정보를 추출하거나 패턴을 찾아내지만, 명시적인 출력 레이블이나 정답 없이 학습을 수행하는 방법입니다. 비지도 학습의 핵심 목표 중 하나는 군집화(Clustering)입니다. 군집화(Clustering)의 개념 군집화는 비슷한 특성을 가진 데이터 포인트들을 그룹으로 묶는 과정입니다. 이러한 그룹을 클러스터(Cluster)라고 하며, 클러스터 내의 데이터 포인트는 서로 비슷하고, 다른 클러스터의 데이터 포인트와는 구별됩니다. 군집화는 데이터의 내재된 구조나 패턴을 발견하는 데 유용하며, 데이터 세트를 이해하고, 정리하며, 요약하는 데 도움을 줍니다. 비지도 학습에서 군집화의 역할 데이터 탐색 및..

programming/Python 2024.02.04

[파이썬/머신러닝] 선형 커널을 가진 SVM분류 모델을 만들고 시각화하는 예제

필요한 라이브러리 가져오기: numpy: 수치 계산 라이브러리 pandas: 데이터 프레임 처리 라이브러리 seaborn: 데이터 시각화 라이브러리 sklearn.model_selection: 모델 선택 및 평가 관련 라이브러리 sklearn.svm: SVM 모델 sklearn.metrics: 모델 평가 지표 sklearn.preprocessing: 데이터 전처리 matplotlib.pyplot: 그래프 그리기 라이브러리 펭귄 데이터셋 로드: sns.load_dataset("penguins")를 사용하여 seaborn 라이브러리에서 기본 제공하는 펭귄 데이터셋을 로드합니다. 데이터 전처리: 결측치를 제거하고, LabelEncoder를 사용하여 'species' 열의 범주형 변수를 숫자로 인코딩합니다. 인..

programming/Python 2024.02.04

[파이썬/머신러닝] SVM모델로 다항 분류 모델링

오늘은 인공지능 알고리즘 중 지도 학습 중 분류 알고리즘에 속하는 SVM에 대하여 알아보자! 아래는 예제에 활용할 데이터이며, 아래는 펭귄의 종, 서식지, 부리의길이, 부리의 두께, 물갈퀴의 길이, 체중, 성별이 담겨져있다. 데이터 불러오기 import pandas as pd import numpy as np from matplotlib import pyplot as plt import seaborn as sns #펭귄 데이터 불러오기 df = pd.read_csv("파일의경로/penguins.csv") sns.violinplot(x="species", y="body_mass_g", hue="sex", data=df, split=True) 데이터 전처리 결측치가 몇 개인지 파악하고 dropna()로 제거..

programming/Python 2024.02.04

[파이썬/머신러닝] sklearn.RandomForestClassifier로 다항분류 모델링하기

아래 코드는 RandomForestClassifier를 사용하여 Iris 데이터셋을 다루는 예시입니다. 다음은 코드의 주요 단계와 각 부분에 대한 설명입니다. # 필요한 라이브러리 불러오기 import numpy as np import matplotlib.pyplot as plt from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import accuracy_score, classification_report from sklearn.preprocessing impo..

[파이썬/머신러닝] 가중치(coef),편향(intercept)에 관하여

머신러닝 모델에서의 coef와 intercept는 주로 선형 모델에서 사용되는 용어입니다. 주로 선형 회귀와 로지스틱 회귀에서 나타나는데, 이들은 입력 변수와 목표 변수 간의 관계를 모델링하는데 사용됩니다. coef (계수): coef는 회귀 모델에서 각 입력 변수의 계수를 나타냅니다. 선형 회귀의 경우, y = b0 + b1*x1 + b2*x2 + ... + bn*xn에서 b1, b2, ..., bn이 coef에 해당합니다. 로지스틱 회귀의 경우, 이진 분류의 경우 y = b0 + b1*x1 + b2*x2 + ... + bn*xn에서도 선형 회귀와 같이 계수가 적용되며, 다중 클래스 분류의 경우 각 클래스에 대한 계수가 있습니다. 중요성: 계수는 해당 입력 변수가 모델 예측에 얼마나 영향을 미치는지를 ..

[파이썬/머신러닝] 로지스틱 회귀 알고리즘의 유형

로지스틱 회귀 알고리즘은 이진 분류 문제에 많이 사용되는 머신러닝 알고리즘 중 하나입니다. 로지스틱 회귀 알고리즘을 구현할 때, 최적화 알고리즘을 선택할 수 있는데, 그 중에서도 liblinear, newton-cg, lbfgs, sag, saga가 많이 사용됩니다. 각 알고리즘에 대해 간단하게 설명해보겠습니다. 1. liblinear: 특징: 이 알고리즘은 작은 데이터셋에 적합하며, L1 정규화와 L2 정규화를 모두 지원합니다. 적용 분야: 작은 규모의 데이터셋이나 고차원 데이터에 적합합니다. 2. newton-cg: 특징: 뉴턴 메서드를 사용하여 비용 함수를 최적화합니다. L2 정규화를 지원하며, 다변수 최적화에 효과적입니다. 적용 분야: 중간 규모의 데이터셋에서 잘 동작하며, 다차원 최적화 문제에 ..

머신러닝 훈련데이터와 테스트데이터 나누는 방법

머신러닝 모델을 학습하고 성능을 평가하기 위해 훈련 데이터와 테스트 데이터를 사용합니다. 일반적으로 데이터를 훈련 데이터와 테스트 데이터로 나누는 방법은 다음과 같습니다. 훈련 데이터 (Training Data): • 훈련 데이터는 머신러닝 모델을 학습하는 데 사용됩니다. • 모델은 훈련 데이터를 통해 학습하고, 학습한 패턴과 관계를 파악하여 일반화합니다. • 모델의 파라미터(가중치, 편향 등)는 훈련 데이터를 통해 조정됩니다. • 훈련 데이터는 모델에 입력되는 특성(feature)과 정답(label)으로 구성됩니다. 테스트 데이터 (Test Data): • 테스트 데이터는 학습된 머신러닝 모델의 성능을 평가하는 데 사용됩니다. • 테스트 데이터는 모델이 이전에 본 적이 없는 새로운 데이터입니다. • 모..

최적의 하이퍼 파라미터 찾기_sklearn.model_selection.GridSearchCV_머신러닝

안녕하세요. 조신선입니다. 오늘은 최적의 하이퍼 파라미터를 찾는데 도움이 되는 함수에 대해서 포스팅해보겠습니다. sklearn.model_selection.GridSearchCV는 주어진 모델의 최적 하이퍼파라미터를 탐색하기 위해 사용되는 검색 기법 중 하나입니다. 주로 다음과 같은 상황에서 사용됩니다: 하이퍼파라미터 튜닝: 머신 러닝 모델은 다양한 하이퍼파라미터를 가지고 있습니다. 이러한 하이퍼파라미터들의 값을 조정하여 모델의 성능을 향상시킬 수 있습니다. GridSearchCV를 사용하면, 사전에 지정한 하이퍼파라미터들의 조합에 대해 교차 검증을 수행하여 최적의 하이퍼파라미터 조합을 찾을 수 있습니다. 모델 선택: 여러 종류의 모델(알고리즘) 중에서 최적의 모델을 선택해야 할 때, GridSearch..

programming/Python 2023.07.07

야구선수 연봉 예측하기_회귀 분석,사이킷런 미래 예측_파이썬/데이터분석

안녕하세요. 조신선입니다. 회귀 분석은 이전에도 많이 다루어보았습니다. 예측 분석에서 가장 대표적인 방법이 회귀 분석이죠. 이번에는 조금 더 실용성있는 예제와 함께 회귀 분석에 대해서 알아보겠습니다. 데이터 분석은 늘 VSCODE로 작업하고, 일반 파이썬 환경이 아닌 쥬피터 환경이라 부르는 환경에서 진행합니다. 확장자가 'PY'가 아닌 'IPYNB'입니다. 회귀 분석이란?? 독립변수(x)와 종속변수(y) 간의 관계를 찾아내는 것입니다. 일차 방정식 ( Y = wX+b)로 예를 들 수 있습니다. 위 그래프에서 회귀 분석이란 실제 데이터(파란점)와 거리가 최소가 되는 방정식(선)을 찾아내는 것입니다. 즉, 방정식의 계수 w와 b를 잘 정의하는 것이라고 할 수 있습니다. 그렇다면 회귀 분석을 데이터 분석에 어..

programming/Python 2023.07.03