본문 바로가기

Data Science29

R을 활용한 변곡점 탐색하기 (loess function) :: Data 쿡북 | 서론 오늘은 R을 활용한 변곡점 탐색이라는 주제로 이야기를 해볼까 한다 데이터를 분석하다보면 시계열 등의 데이터에 대해서 변경점을 찾아야 할 때가 있다. 주식을 예로 들면 주식 차트가 우상향을 그리다가 어느 시점에 가격이 떨어지면서 우하향을 그릴때 그 지점이 정확하게 언제인지를 탐색해야 하는 것이다. 센서데이터의 경우 센서 값이 다양한 그래프를 그리게 되는데 이때 큰 변화를 일으키는 정확한 시점을 찾아야 하는 경우도 같은 예이다.. 필자도 이와 같은 기능이 필요해 탐색하던 중 구글에서 다음과 같은 주제의 좋은 글을 발견했다. 'Finding inflection points in R from smoothed data' ▶ 출처 : https://stats.stackexchange.com/question.. 2017. 8. 20.
R을 활용한 요인 분석(인자분석, Factor Analysis) 정리 :: Data 쿡북 요인분석(인자분석, Factor Analysis)에 대해 조사하고 실습한 내용들을 정리한다. | 요인분석이란여러개의 서로 관련이 있는 변수들로 측정된 자료에서 그 변수들을 설명할 수 있는 새로운 공통변수를 파악하는 통계적 분석방법이다.예를 들면, 학생들 100명을 대상으로 국어,영어,수학,일반사회,지리, 역사, 물리, 화학, 생물 등 9개의 시험을 실시하여 성적을 구하였을 때 9개가 아닌 공통적으로 설명할 수 있는 공통인자(변수)를 파악하는 것이다즉, 국어, 영어를 언어능력수학, 물리를 수리능력등으로 분리해 내는 것이다. | 주성분분석(PCA)와 공통점과 차이점주성분 분석과 요인분석은 유사하지만 다른 특성을 갖고 있다.R을 활용한 주성분 분석은 이전 포스팅을 참고 바란다. (▶ http://datacoo.. 2017. 3. 17.
R을 활용한 공분산과 상관계수 이해 :: Data 쿡북 통계 공부하다보면 공분산 얘기가 많이 나온다.정리 차원에서 잠깐 끄적인다. | 공분산이란공분산(covariance)은 위키에서 다음과 같이 나와있다. 2개의 확률변수의 상관정도를 나타내는 값이다. 만약 2개의 변수 중 하나의 값이 상승하는 경향을 보일 때, 다른 값도 상승하는 경향의 상관관계에 있다면 공부산의 값은 양수가 될 것이다. 반대로 2개의 변수 중 하나의 값이 상승하는 경향을 보일 때, 다른 값이 하강하는 경향을 보인다면 공분산은 음수가 된다. 상관관계의 상승 혹은 하강하는 경향을 이해할 수는 있으나 2개의 변수의 측정 단위의 크기에 따라 달라지므로 정도를 파악하기에는 부적절하다. 그냥 쉽게 말해 A변수가 변할 때 B변수가 변하는 정도 라고 할 수 있다.이를 식으로 적으면 다음과 같다. 이다. .. 2017. 3. 12.
R을 활용한 주성분 분석(principal component analysis) 정리 :: Data 쿡북 오늘은 주성분 분석에 대한 간략한 소개와 함께 R을 활용해 실습한 내용을 공유할까 한다.사실 주성분에 대한 내용은 여러 블로깅에 이론적(수학적)으로 잘 소개되어 있기 때문에 여기서는 수학적 배경 보다는 R 활용에 초점을 맞출까 한다.참고로 이론이나 관련 수학적 지식은 본 블로깅 최 하단 참고자료에 링크를 걸어 둔다. 필자도 많이 참고한 site 이다. | 배경주성분 분석은 Person(1901)에 의해 처음 제기되어 Hotelling(1936)에 의해 독자적으로 발전했다.Hotelling은 변수들 간의 상관 구조를 분석하기 위해, p개인 원래 변수들의 변이(Variation)을 결정하는데 더 낮은 차원의 서로 독립적 요인을 구하여 이를 주성분이라 부르게 된다. 서로 연관되어 있는 변수들의 정보를 최대한 .. 2017. 3. 7.