Data Science/통계용어
상관계수
쿡북
2024. 1. 7. 15:26
상관계수 (Correlation Coefficient)
정의와 의미
- 상관계수는 두 변수 간의 선형 관계의 강도와 방향을 나타내는 통계적 척도입니다. 이 값은 -1과 1 사이의 값을 가지며, 값이 클수록 변수 간의 관계가 강하다는 것을 의미합니다.
종류
- 피어슨 상관계수 (Pearson Correlation Coefficient): 가장 흔히 사용되는 상관계수로, 두 변수 간의 선형 관계의 강도를 측정합니다.
- 스피어만 순위 상관계수 (Spearman's Rank Correlation Coefficient): 두 변수의 순위 간의 관계를 측정하는 비모수적 방법입니다.
- 켄달 순위 상관계수 (Kendall Rank Correlation Coefficient): 두 변수 간의 순위 관계의 강도를 측정합니다.
계산 방법
- 피어슨 상관계수의 계산은 두 변수의 공분산을 각 변수의 표준편차의 곱으로 나누어 계산합니다.
해석
- 값의 범위: -1에서 +1까지
- +1에 가까울수록 완벽한 양의 선형 관계
- -1에 가까울수록 완벽한 음의 선형 관계
- 0은 무상관을 의미
- 중요사항: 상관계수는 관계의 강도만을 나타내며, 인과관계를 의미하지 않습니다.
예시
- 예를 들어, 키와 체중 간의 상관계수가 높다면, 키가 클수록 체중도 무겁다는 선형 관계가 있음을 의미합니다.