본문 바로가기

전체 글72

R을 활용한 다변량 데이터 시각화 :: Data 쿡북 오늘은 R을 활용한 다변량 데이터를 시각화 하는 몇 몇 기본적인 사례를 공유한다.시각화에 대한 방법은 너무도 많고 때에 따라서 적당한 시각화를 고려해야 하기 때문에 많은 사례들을 알아두는것도 도움이 된다고 본다. | Bibrate boxplot 두 변수에 대한 boxplot을 그릴 때 사용한다.MVA 패키지에서 제공한다. 코드library(HSAUR2)library(MVA)data(USairpollution)head(USairpollution) x = USairpollution[,c(4,5)]bvbox(x, xlab="manu", ylab="popul")title("bivariate boxplot")identify(x) # identify함수는 outliers를 밝히기 위해 이용된다. 결과 | Bubbl.. 2017. 3. 6.
[빅데이터 플랫폼 구축 #4] Ambari로 빅데이터 플랫폼 구축하기 :: Data 쿡북 오늘은 지난 블로깅에 이어 Ambari로 빅데이터 플랫폼을 구축하는 것을 공유할까 한다.Ambari에 대한 설치는 이전 블로깅을 확인바란다.▶http://datacookbook.co.kr/32 그럼 이제 Ambari를 통해 설치해보자 [들어가기 전에] 만약 전체 진행 중에Ambari 설치후 최초 hostname 등록까지는 진행되나 confirm hosts에서 filed되는 등의 오류가 나올 경우http://datacookbook.kr/46글을 참고하기 바란다. | SSH key 복사Ambari 설치 전에 대상 서버에 SSH key를 복사해 놔야 한다.SSH 가 필요한 이유는 각 서버끼리 ssh 통신으로 모두 접근이 되어야 하는데 이때 Password를 생략하고 접근 할 수 있도록 해야 하기 때문이다.SS.. 2017. 3. 5.
[빅데이터 플랫폼 구축 #3] Ambari 설치 :: Data 쿡북 오늘은 Apache Ambari를 설치하는 과정을 설명할까 한다. |Ambari 소개 Ambari에 대한 소개는 site에 들어가면 다음과 같이 표현되어 있다The Apache Ambari project is aimed at making Hadoop management simpler by developing software for provisioning, managing, and monitoring Apache Hadoop clusters. Ambari provides an intuitive, easy-to-use Hadoop management web UI backed by its RESTful APIs. 쉽게 말해 Hadoop eco 설치, 설정배포, 모니터링, Alert 등의 운영 편의성을 제공하는.. 2017. 3. 4.
[빅데이터 플랫폼 구축 #2] VirtualBox 이미지 복제로 서버 늘리기 :: Data 쿡북 오늘은 지난 블로깅에서 만들었던 VirtualBox ubuntu 이미지를 복제해 여러대의 서버를 만드는 과정을 설명한다.이 작업이 완료되면 다음으로는 Ambari를 이용해 빅데이터 플랫폼을 구축하려 한다.참고로 꼭 복제를 해야 할 필요는 없다 이전 빅데이터 플랫폼 구축 #1의 과정으로 여러개 설치해도 무관하다. VirtualBox 환경에서 ubuntu 설치하는 내용은 지난 블로깅을 참고 바란다.▶http://datacookbook.co.kr/29 | VirtualBox 이미지 복제우선 VirtualBox를 실행시키고 ubuntu14-01 이미지를 우클릭해 복제 버튼을 누른다.복제 이미지의 이름을 바꿔주다.필자는 기존의 이름이 ubuntu14-01이었고 뒤에 02로만 변경해줬다.그리고 모든 MAC 주소 초.. 2017. 3. 4.