본문 바로가기

머신러닝12

[ML] Linear Regression (선형 회귀) Linear Regression 이란? 종속 변수 y와 한 개 이상의 독립 변수 X와의 선형 상관 관계를 모델링하는 회귀분석 기법이다. The code for building a supervised learning model to predict a numerical target variable using linear regression. Linear regression plots a straight line or plane called the hyperplane that predicts the target value of data inputs by determining the dependence between the dependent variable (y) and its changing independe.. 2022. 10. 18.
[ML] Evaluation / Classification Report (precision, recall, F1 score) The method of evaluation will depend on whether it is a classification or regression model. - In the case of classification, the common evaluation methods are the confusion matrix, classification report, and accuracy score. Confusion Matrix Classification Report Classification Report Parameters • y_true: 1d array-like, or label indicator array / sparse matrix Ground truth (correct) target values.. 2022. 10. 17.
[ML] Evaluation / Confusion Matrix The method of evaluation will depend on whether it is a classification or regression model. - In the case of classification, the common evaluation methods are the confusion matrix, classification report, and accuracy score. Confusion Matrix Classification Report Confusion Matrix (오차행렬) Training 을 통한 Prediction 성능을 측정하기 위해 예측 value와 실제 value를 비교하기 위한 표이다. 즉, 지도 학습으로 훈련된 분류 알고리즘의 성능을 시각화 할 수 있는 표이.. 2022. 10. 17.
[ML] Split-Validation / Machine Learning Model Design 데이터를 분리해거 검증하는 가장 기본적인 방법이다. Training data : used to build the prediction model Test data : used to access the accuracy of the model developed from the training data Training data 와 Test data로 나누어지며 전형적으로 70:30 혹은 80:20 비율로 나뉜다. 1. Perform split validation in python To perform split validation in python, we can use train_test_split from Scikit-learn, which requires an initial import from the skl.. 2022. 10. 17.
[ML] k-Means Clustering / Scree plot 2022.10.13 - [인공지능/Machine Learning] - [ML] 머신러닝의 학습 방법 (Supervised Learning, Unsupervised Learning, Reinforcement Learning) [ML] 머신러닝의 학습 방법 (Supervised Learning, Unsupervised Learning, Reinforcement Learning) 머신러닝의 학습 방법 1. Supervised Learning (지도 학습) 데이터에 대한 Label(명시적인 정답)이 주어진 상태에서 컴퓨터를 학습시키는 방법이다. 훈련 데이터(Training Data)로부터 하나의 함수를 유추해 uely.tistory.com 앞에서 배운 Unsupervised algorithms are used .. 2022. 10. 14.
[ML] Dimension Reduction / Correlation vs. Covariance 2022.10.13 - [인공지능/Machine Learning] - [ML] 머신러닝의 학습 방법 (Supervised Learning, Unsupervised Learning, Reinforcement Learning) [ML] 머신러닝의 학습 방법 (Supervised Learning, Unsupervised Learning, Reinforcement Learning) 머신러닝의 학습 방법 1. Supervised Learning (지도 학습) 데이터에 대한 Label(명시적인 정답)이 주어진 상태에서 컴퓨터를 학습시키는 방법이다. 훈련 데이터(Training Data)로부터 하나의 함수를 유추해 uely.tistory.com 앞에서 배운 Unsupervised algorithms are used .. 2022. 10. 14.
[ML] Drop Missing Values (isnull().sum(), dropna()) Missing data (결측자료) 실세계 데이터는 다양한 원인 때문에 누락 데이터를 포함하고 있다. 데이터에서 None, NaN, 빈칸으로 표시되는 것들이 누락 데이터이다. 이러한 누락된 값이 많은 데이터셋으로 머신러닝 모델을 학습시키면 모델의 품질에 큰 영향을 미친다. Scikit-learn Estimator 같은 일부 알고리즘은 모든 값이 의미 있는 값을 가지고 있다고 가정하기 때문이다. Missing value는 다음과 같은 3가지 타입이 있다. Missing completely at random (MCAR) Missing at random (MAR) Nonignorable Missing completely at random (MCAR) 완전 무작위 결측이라고 한다. 이는 결측값의 발생이 다른 변.. 2022. 10. 13.
[ML] Data Scrubbing / One-hot Encoding 1. Data Scrubbing 데이터 정제는 레코드 세트, 테이블 또는 데이터베이스 에서 손상되거나 부정확한 레코드를 감지 및 수정(또는 제거)하는 프로세스이며 데이터의 불완전하거나 부정확하거나 부정확하거나 관련 없는 부분을 식별한 다음 교체, 수정, 또는 더럽 거나 거친 데이터를 삭제한다. Data scrubbing is an umbrella term for manipulating data in preparation for analysis. Some algorithms, for example, don’t recognize specific data types or return an error message in response to missing values or non-numeric input. ex.. 2022. 10. 13.
[ML] EXPLORATORY DATA ANALYSIS (EDA, 탐색적 자료 분석) / 데이터 살펴보기 Exploratory Data Analysis 이란? 탐색적 데이터 분석은 데이터의 분포와 값을 다양한 각도에서 관찰하며 데이터가 표현하는 현상을 더 잘 이해할 수 있도록 도와주고 데이터를 다양한 기준에서 살펴보는 과정을 통해 문제 정의 단계에서 미처 발견하지 못한 다양한 패턴을 발견하고 이를 바탕으로 기존의 가설을 수정하거나 새로운 가설을 추가할 수 있도록 한다. common Exploratory Data Analysis (EDA) techniques Understanding the shape & distribution of the data Scanning for missing values Learning which features are most relevant based on correlation .. 2022. 10. 13.