본문 바로가기

전체 글68

R을 활용한 요인 분석(인자분석, Factor Analysis) 정리 :: Data 쿡북 요인분석(인자분석, Factor Analysis)에 대해 조사하고 실습한 내용들을 정리한다. | 요인분석이란여러개의 서로 관련이 있는 변수들로 측정된 자료에서 그 변수들을 설명할 수 있는 새로운 공통변수를 파악하는 통계적 분석방법이다.예를 들면, 학생들 100명을 대상으로 국어,영어,수학,일반사회,지리, 역사, 물리, 화학, 생물 등 9개의 시험을 실시하여 성적을 구하였을 때 9개가 아닌 공통적으로 설명할 수 있는 공통인자(변수)를 파악하는 것이다즉, 국어, 영어를 언어능력수학, 물리를 수리능력등으로 분리해 내는 것이다. | 주성분분석(PCA)와 공통점과 차이점주성분 분석과 요인분석은 유사하지만 다른 특성을 갖고 있다.R을 활용한 주성분 분석은 이전 포스팅을 참고 바란다. (▶ http://datacoo.. 2017. 3. 17.
R을 활용한 공분산과 상관계수 이해 :: Data 쿡북 통계 공부하다보면 공분산 얘기가 많이 나온다.정리 차원에서 잠깐 끄적인다. | 공분산이란공분산(covariance)은 위키에서 다음과 같이 나와있다. 2개의 확률변수의 상관정도를 나타내는 값이다. 만약 2개의 변수 중 하나의 값이 상승하는 경향을 보일 때, 다른 값도 상승하는 경향의 상관관계에 있다면 공부산의 값은 양수가 될 것이다. 반대로 2개의 변수 중 하나의 값이 상승하는 경향을 보일 때, 다른 값이 하강하는 경향을 보인다면 공분산은 음수가 된다. 상관관계의 상승 혹은 하강하는 경향을 이해할 수는 있으나 2개의 변수의 측정 단위의 크기에 따라 달라지므로 정도를 파악하기에는 부적절하다. 그냥 쉽게 말해 A변수가 변할 때 B변수가 변하는 정도 라고 할 수 있다.이를 식으로 적으면 다음과 같다. 이다. .. 2017. 3. 12.
R을 활용한 주성분 분석(principal component analysis) 정리 :: Data 쿡북 오늘은 주성분 분석에 대한 간략한 소개와 함께 R을 활용해 실습한 내용을 공유할까 한다.사실 주성분에 대한 내용은 여러 블로깅에 이론적(수학적)으로 잘 소개되어 있기 때문에 여기서는 수학적 배경 보다는 R 활용에 초점을 맞출까 한다.참고로 이론이나 관련 수학적 지식은 본 블로깅 최 하단 참고자료에 링크를 걸어 둔다. 필자도 많이 참고한 site 이다. | 배경주성분 분석은 Person(1901)에 의해 처음 제기되어 Hotelling(1936)에 의해 독자적으로 발전했다.Hotelling은 변수들 간의 상관 구조를 분석하기 위해, p개인 원래 변수들의 변이(Variation)을 결정하는데 더 낮은 차원의 서로 독립적 요인을 구하여 이를 주성분이라 부르게 된다. 서로 연관되어 있는 변수들의 정보를 최대한 .. 2017. 3. 7.
R을 활용한 다변량 데이터 시각화 :: Data 쿡북 오늘은 R을 활용한 다변량 데이터를 시각화 하는 몇 몇 기본적인 사례를 공유한다.시각화에 대한 방법은 너무도 많고 때에 따라서 적당한 시각화를 고려해야 하기 때문에 많은 사례들을 알아두는것도 도움이 된다고 본다. | Bibrate boxplot 두 변수에 대한 boxplot을 그릴 때 사용한다.MVA 패키지에서 제공한다. 코드library(HSAUR2)library(MVA)data(USairpollution)head(USairpollution) x = USairpollution[,c(4,5)]bvbox(x, xlab="manu", ylab="popul")title("bivariate boxplot")identify(x) # identify함수는 outliers를 밝히기 위해 이용된다. 결과 | Bubbl.. 2017. 3. 6.