본문 바로가기
Data Science/통계용어

상관계수

by 쿡북 2024. 1. 7.

상관계수 (Correlation Coefficient) 

정의와 의미

  • 상관계수는 두 변수 간의 선형 관계의 강도와 방향을 나타내는 통계적 척도입니다. 이 값은 -1과 1 사이의 값을 가지며, 값이 클수록 변수 간의 관계가 강하다는 것을 의미합니다.

종류

  1. 피어슨 상관계수 (Pearson Correlation Coefficient): 가장 흔히 사용되는 상관계수로, 두 변수 간의 선형 관계의 강도를 측정합니다.
  2. 스피어만 순위 상관계수 (Spearman's Rank Correlation Coefficient): 두 변수의 순위 간의 관계를 측정하는 비모수적 방법입니다.
  3. 켄달 순위 상관계수 (Kendall Rank Correlation Coefficient): 두 변수 간의 순위 관계의 강도를 측정합니다.

계산 방법

  • 피어슨 상관계수의 계산은 두 변수의 공분산을 각 변수의 표준편차의 곱으로 나누어 계산합니다.

해석

  • 값의 범위: -1에서 +1까지
    • +1에 가까울수록 완벽한 양의 선형 관계
    • -1에 가까울수록 완벽한 음의 선형 관계
    • 0은 무상관을 의미
  • 중요사항: 상관계수는 관계의 강도만을 나타내며, 인과관계를 의미하지 않습니다.

예시

  • 예를 들어, 키와 체중 간의 상관계수가 높다면, 키가 클수록 체중도 무겁다는 선형 관계가 있음을 의미합니다.

댓글