인공지능/Machine Learning

[ML] Dimension Reduction / Correlation vs. Covariance

유일리 2022. 10. 14. 19:55

2022.10.13 - [인공지능/Machine Learning] - [ML] 머신러닝의 학습 방법 (Supervised Learning, Unsupervised Learning, Reinforcement Learning)

 

[ML] 머신러닝의 학습 방법 (Supervised Learning, Unsupervised Learning, Reinforcement Learning)

머신러닝의 학습 방법 1. Supervised Learning (지도 학습) 데이터에 대한 Label(명시적인 정답)이 주어진 상태에서 컴퓨터를 학습시키는 방법이다. 훈련 데이터(Training Data)로부터 하나의 함수를 유추해

uely.tistory.com

앞에서 배운 Unsupervised algorithms are used to clean or reshape the data.

  • Dimension Reduction Techniques
  • k-means Clustering

고차원의 데이터는 계산과 시각화가 어려워 분석하기가 쉽지 않다. 따라서 원 데이터의 분포를 가능한 유지하면서 데이터의 차원을 줄이는 것이 필요하다. 이를 dimension reduction라 한다.

 

dimension reduction example

문제)

1. 다음은 OTT 서비스 기업에서 사용자들의 영화 등급 (5~1)을 수집한 dataset이다. 알맞은 Dimension reduction 방법으로 recreated dataset을 만들고, 그 이유를 쓰시요.

풀이)

       가족 만화 영화:  니모를 찾아서, 라이온 킹, 쿵푸 팬더, 겨울왕국, 토이스토리

       수퍼히어로 액션 영화: 스파이더맨, 아이언맨, 어벤져스, 캡틴마블


Correlation (상관계수)vs. Covariance (공분산)

Correlation analysis (상관분석) 2개의 변수 간의 어떤 선형적 관계를 가지는지 분석하는 기법으로 상관계수를 이용하여 측정한다. Correlation coefficient (상관계수)는 -1과 +1 사이의 값을 가지며, +1은 완벽한 양의 선형 상관 관계, 0은 선형 상관 관계 없음, -1은 완벽한 음의 선형 상관 관계를 의미한다. 

Correlation coefficients “r” values

 

Covariance (공분산)2개의 확률변수의 선형 관계를 나타내는 값이다.  즉, 2개 변수가 함께 변하는 정도를 측정하는 척도이다. 두 변수가 있을 때, 한 변수값이 커지면서 다른 변수도 값이 증가하는 등 두 변수의 변화 경향성이 유사하다면 공분산은 양수(positive)이다. 반대로 한 변수값이 커질 때 다른 변수값이 작아지는 반대 경향성을 보인다면 공분산은 음수(negative)이다. 

 

Covariance matrix (공분산 행렬)변수들 사이의 공분산을 행렬 형태로 나타낸 것으로, 정방행렬(square matrix)이자 전치(transpose)를 시켰을 때 동일한 행렬이 나타나는 대칭행렬(symmetric matrix)인 특징이 있다. 공분산 행렬은 확률변수 X의 기대값 벡터와 Y의 기대값 벡터의 전치와의 내적으로 나타낼 수 있다.

If you multiply the data by a factor of 1000, then the covariance will increase proportionally but the correlation will remain the same.