본문 바로가기

전체 글72

Hbase 기술정리 노트 :: Data 쿡북 그동안 Hbase에 대해서 여러 책들을 보고 개인적으로 기록했던 내용들을 한번에 정리차원에서 올린다.자료가 방대하고 여기저기 흩어져 있어서 정리가 되는대로 조금씩 추가될 예정이다.Hbase와 NoSQL에 관련된 책의 내용들이나 블로깅 등을 정리한 것에 불과하지만, 누군가에게는 조금이라도 도움이 되었기를 바란다.서적 등 출처는 하단에 명기한다. | HBase 간략 소개Hadoop을 기반으로 하는 컬럼형 NoSQL Database빠른 Write와 Read를 지원하며 HMaster(Master Server)와 Regionserver(Slave Server) 로 구성된다. Hbase가 데이터를 디스크에 컬럼 지향 형식으로 저장하기는 하지만 전통적인 컬럼식(Columnar) 데이터베이스와는 차이가 있다.컬럼식 데.. 2017. 3. 27.
R을 활용한 요인 분석(인자분석, Factor Analysis) 정리 :: Data 쿡북 요인분석(인자분석, Factor Analysis)에 대해 조사하고 실습한 내용들을 정리한다. | 요인분석이란여러개의 서로 관련이 있는 변수들로 측정된 자료에서 그 변수들을 설명할 수 있는 새로운 공통변수를 파악하는 통계적 분석방법이다.예를 들면, 학생들 100명을 대상으로 국어,영어,수학,일반사회,지리, 역사, 물리, 화학, 생물 등 9개의 시험을 실시하여 성적을 구하였을 때 9개가 아닌 공통적으로 설명할 수 있는 공통인자(변수)를 파악하는 것이다즉, 국어, 영어를 언어능력수학, 물리를 수리능력등으로 분리해 내는 것이다. | 주성분분석(PCA)와 공통점과 차이점주성분 분석과 요인분석은 유사하지만 다른 특성을 갖고 있다.R을 활용한 주성분 분석은 이전 포스팅을 참고 바란다. (▶ http://datacoo.. 2017. 3. 17.
R을 활용한 공분산과 상관계수 이해 :: Data 쿡북 통계 공부하다보면 공분산 얘기가 많이 나온다.정리 차원에서 잠깐 끄적인다. | 공분산이란공분산(covariance)은 위키에서 다음과 같이 나와있다. 2개의 확률변수의 상관정도를 나타내는 값이다. 만약 2개의 변수 중 하나의 값이 상승하는 경향을 보일 때, 다른 값도 상승하는 경향의 상관관계에 있다면 공부산의 값은 양수가 될 것이다. 반대로 2개의 변수 중 하나의 값이 상승하는 경향을 보일 때, 다른 값이 하강하는 경향을 보인다면 공분산은 음수가 된다. 상관관계의 상승 혹은 하강하는 경향을 이해할 수는 있으나 2개의 변수의 측정 단위의 크기에 따라 달라지므로 정도를 파악하기에는 부적절하다. 그냥 쉽게 말해 A변수가 변할 때 B변수가 변하는 정도 라고 할 수 있다.이를 식으로 적으면 다음과 같다. 이다. .. 2017. 3. 12.
R을 활용한 주성분 분석(principal component analysis) 정리 :: Data 쿡북 오늘은 주성분 분석에 대한 간략한 소개와 함께 R을 활용해 실습한 내용을 공유할까 한다.사실 주성분에 대한 내용은 여러 블로깅에 이론적(수학적)으로 잘 소개되어 있기 때문에 여기서는 수학적 배경 보다는 R 활용에 초점을 맞출까 한다.참고로 이론이나 관련 수학적 지식은 본 블로깅 최 하단 참고자료에 링크를 걸어 둔다. 필자도 많이 참고한 site 이다. | 배경주성분 분석은 Person(1901)에 의해 처음 제기되어 Hotelling(1936)에 의해 독자적으로 발전했다.Hotelling은 변수들 간의 상관 구조를 분석하기 위해, p개인 원래 변수들의 변이(Variation)을 결정하는데 더 낮은 차원의 서로 독립적 요인을 구하여 이를 주성분이라 부르게 된다. 서로 연관되어 있는 변수들의 정보를 최대한 .. 2017. 3. 7.