본문 바로가기

전체 글72

Rstudio 들여쓰기, 주석달기 단축키 :: Data 쿡북 | RStudio 깜짝 팁 Rstudio는 R 코드 개발툴이다.몇몇 단축키들이 있는데 * 줄맞추기 기능은 줄맞출 영역 지정후 ctrl+i * 주석달기 기능은 주석달 영역 지정후 ctrl + shift + c 한번더 누르면 주석이 해제된다. 2017. 9. 7.
카이제곱 분포(chi-squared distribution) 이해하기 :: Data 쿡북 | 들어가며연속확률 분포중 카이제곱 분포에 대해 이해해보자 | 개념정리카이제곱 분포는 데이터의 분산이 퍼져있는 모습을 분포로 만든 것이다.데이터를 파악할때 중심 위치(평균)와 퍼짐 정도(분산)이 중요한데 카이제곱은 바로 분산의 제곱값에 대한 분포다.독립변수가 명목치인 어떤 표본이 모집단의 분포와 같은지 다른지 검정할때 활용된다.카이제곱 분포는 분산의 제곱된 값을 보여주기 때문에 마이너스(-) 값으로 나오지 않고 (+) 값만 존재하며 좌우 비대칭의 분포를 따른다. | 카이제곱 분포 그래프 library(ggplot2) ggplot(data.frame(x=c(0,10)), aes(x=x)) + stat_function(fun=dchisq, args=list(df=1), colour="black", size=.. 2017. 9. 7.
[빅데이터 플랫폼 구축 #6] Sandbox를 이용한 하둡 실습환경 구축 :: Data 쿡북 | 들어가며빅데이터 처음 입문자들에게 가장 필요한 것은 일단 간단히라도 테스트 해볼 수 있는 환경이다.처음부터 하둡 클러스터를 분산 환경에서 설치하는 것은 너무 가혹하다.Hortonworks나 Cloudera 같은 빅데이터 유명 벤더사들은 자사의 하둡 패키지를 가상환경에서 테스트 할 수 있도록 Sandbox라는 이름으로 제공한다.때문에 우리는 Sandbox를 가지고 그냥 가상환경에 올려놓고 테스트 함으로써 쉽게 하둡을 경험해 볼 수 있다.이번 블로그에서는 hortonworks 사의 sandbox를 다운 받고 여기서 테스트 해보는 환경에 대해 얘기 하고자 한다. | Sandbox 설치전 고려사항Sandbox를 정상적으로 활용하려면 기본적으로 ram 8G 이상을 권장한다.그 아래로는 sandbox 가 시작될.. 2017. 9. 6.
정규분포(Nomal distribution) 이해하기 :: Data 쿡북 | 들어가며 통계를 처음 공부하다보면 분포가 어김없이 나온다.분포... 말은 좋은데 그래서 어디 써야할지 왜 배워야 하는지는 배워도 쉽게 설명하기 어렵다.특히 당장 분석하고 싶은 통계 입문자들에게는 요상한 분포 얘기부터 나오니 재미도 없고 미칠 지경이다.따라서 여러가지 분포에 대해서 비 통계학과 출신들을 위해 분포란 무엇이며 어디에 어떻게 쓸지 왜 배워야 하는지 얘기할까 한다.(잘못된 설명이나 부가 설명에 대해서는 언급해 주시면 감사드립니다.) 첫번째로 그 유명한 정규분포에 대한 이야기다 | 분포란 무엇인가? 좀 길지만 잠시 세상 이치에 대해 얘기 해보자.이 세상은 불확실하다. 때문에 생겨나는 데이터들을 찍어내듯이 똑같은 경우가 없고 제각각이 된다.이렇게 데이터가 제각각인 수치로 나타나는 것을 '데이터 .. 2017. 9. 5.