본문 바로가기
반응형

분류 전체보기96

R을 활용한 변곡점 탐색하기 (loess function) :: Data 쿡북 | 서론 오늘은 R을 활용한 변곡점 탐색이라는 주제로 이야기를 해볼까 한다 데이터를 분석하다보면 시계열 등의 데이터에 대해서 변경점을 찾아야 할 때가 있다. 주식을 예로 들면 주식 차트가 우상향을 그리다가 어느 시점에 가격이 떨어지면서 우하향을 그릴때 그 지점이 정확하게 언제인지를 탐색해야 하는 것이다. 센서데이터의 경우 센서 값이 다양한 그래프를 그리게 되는데 이때 큰 변화를 일으키는 정확한 시점을 찾아야 하는 경우도 같은 예이다.. 필자도 이와 같은 기능이 필요해 탐색하던 중 구글에서 다음과 같은 주제의 좋은 글을 발견했다. 'Finding inflection points in R from smoothed data' ▶ 출처 : https://stats.stackexchange.com/question.. 2017. 8. 20.
Hbase 기술정리 노트 :: Data 쿡북 그동안 Hbase에 대해서 여러 책들을 보고 개인적으로 기록했던 내용들을 한번에 정리차원에서 올린다.자료가 방대하고 여기저기 흩어져 있어서 정리가 되는대로 조금씩 추가될 예정이다.Hbase와 NoSQL에 관련된 책의 내용들이나 블로깅 등을 정리한 것에 불과하지만, 누군가에게는 조금이라도 도움이 되었기를 바란다.서적 등 출처는 하단에 명기한다. | HBase 간략 소개Hadoop을 기반으로 하는 컬럼형 NoSQL Database빠른 Write와 Read를 지원하며 HMaster(Master Server)와 Regionserver(Slave Server) 로 구성된다. Hbase가 데이터를 디스크에 컬럼 지향 형식으로 저장하기는 하지만 전통적인 컬럼식(Columnar) 데이터베이스와는 차이가 있다.컬럼식 데.. 2017. 3. 27.
R을 활용한 요인 분석(인자분석, Factor Analysis) 정리 :: Data 쿡북 요인분석(인자분석, Factor Analysis)에 대해 조사하고 실습한 내용들을 정리한다. | 요인분석이란여러개의 서로 관련이 있는 변수들로 측정된 자료에서 그 변수들을 설명할 수 있는 새로운 공통변수를 파악하는 통계적 분석방법이다.예를 들면, 학생들 100명을 대상으로 국어,영어,수학,일반사회,지리, 역사, 물리, 화학, 생물 등 9개의 시험을 실시하여 성적을 구하였을 때 9개가 아닌 공통적으로 설명할 수 있는 공통인자(변수)를 파악하는 것이다즉, 국어, 영어를 언어능력수학, 물리를 수리능력등으로 분리해 내는 것이다. | 주성분분석(PCA)와 공통점과 차이점주성분 분석과 요인분석은 유사하지만 다른 특성을 갖고 있다.R을 활용한 주성분 분석은 이전 포스팅을 참고 바란다. (▶ http://datacoo.. 2017. 3. 17.
R을 활용한 공분산과 상관계수 이해 :: Data 쿡북 통계 공부하다보면 공분산 얘기가 많이 나온다.정리 차원에서 잠깐 끄적인다. | 공분산이란공분산(covariance)은 위키에서 다음과 같이 나와있다. 2개의 확률변수의 상관정도를 나타내는 값이다. 만약 2개의 변수 중 하나의 값이 상승하는 경향을 보일 때, 다른 값도 상승하는 경향의 상관관계에 있다면 공부산의 값은 양수가 될 것이다. 반대로 2개의 변수 중 하나의 값이 상승하는 경향을 보일 때, 다른 값이 하강하는 경향을 보인다면 공분산은 음수가 된다. 상관관계의 상승 혹은 하강하는 경향을 이해할 수는 있으나 2개의 변수의 측정 단위의 크기에 따라 달라지므로 정도를 파악하기에는 부적절하다. 그냥 쉽게 말해 A변수가 변할 때 B변수가 변하는 정도 라고 할 수 있다.이를 식으로 적으면 다음과 같다. 이다. .. 2017. 3. 12.
R을 활용한 주성분 분석(principal component analysis) 정리 :: Data 쿡북 오늘은 주성분 분석에 대한 간략한 소개와 함께 R을 활용해 실습한 내용을 공유할까 한다.사실 주성분에 대한 내용은 여러 블로깅에 이론적(수학적)으로 잘 소개되어 있기 때문에 여기서는 수학적 배경 보다는 R 활용에 초점을 맞출까 한다.참고로 이론이나 관련 수학적 지식은 본 블로깅 최 하단 참고자료에 링크를 걸어 둔다. 필자도 많이 참고한 site 이다. | 배경주성분 분석은 Person(1901)에 의해 처음 제기되어 Hotelling(1936)에 의해 독자적으로 발전했다.Hotelling은 변수들 간의 상관 구조를 분석하기 위해, p개인 원래 변수들의 변이(Variation)을 결정하는데 더 낮은 차원의 서로 독립적 요인을 구하여 이를 주성분이라 부르게 된다. 서로 연관되어 있는 변수들의 정보를 최대한 .. 2017. 3. 7.
R을 활용한 다변량 데이터 시각화 :: Data 쿡북 오늘은 R을 활용한 다변량 데이터를 시각화 하는 몇 몇 기본적인 사례를 공유한다.시각화에 대한 방법은 너무도 많고 때에 따라서 적당한 시각화를 고려해야 하기 때문에 많은 사례들을 알아두는것도 도움이 된다고 본다. | Bibrate boxplot 두 변수에 대한 boxplot을 그릴 때 사용한다.MVA 패키지에서 제공한다. 코드library(HSAUR2)library(MVA)data(USairpollution)head(USairpollution) x = USairpollution[,c(4,5)]bvbox(x, xlab="manu", ylab="popul")title("bivariate boxplot")identify(x) # identify함수는 outliers를 밝히기 위해 이용된다. 결과 | Bubbl.. 2017. 3. 6.
[빅데이터 플랫폼 구축 #4] Ambari로 빅데이터 플랫폼 구축하기 :: Data 쿡북 오늘은 지난 블로깅에 이어 Ambari로 빅데이터 플랫폼을 구축하는 것을 공유할까 한다.Ambari에 대한 설치는 이전 블로깅을 확인바란다.▶http://datacookbook.co.kr/32 그럼 이제 Ambari를 통해 설치해보자 [들어가기 전에] 만약 전체 진행 중에Ambari 설치후 최초 hostname 등록까지는 진행되나 confirm hosts에서 filed되는 등의 오류가 나올 경우http://datacookbook.kr/46글을 참고하기 바란다. | SSH key 복사Ambari 설치 전에 대상 서버에 SSH key를 복사해 놔야 한다.SSH 가 필요한 이유는 각 서버끼리 ssh 통신으로 모두 접근이 되어야 하는데 이때 Password를 생략하고 접근 할 수 있도록 해야 하기 때문이다.SS.. 2017. 3. 5.
[빅데이터 플랫폼 구축 #3] Ambari 설치 :: Data 쿡북 오늘은 Apache Ambari를 설치하는 과정을 설명할까 한다. |Ambari 소개 Ambari에 대한 소개는 site에 들어가면 다음과 같이 표현되어 있다The Apache Ambari project is aimed at making Hadoop management simpler by developing software for provisioning, managing, and monitoring Apache Hadoop clusters. Ambari provides an intuitive, easy-to-use Hadoop management web UI backed by its RESTful APIs. 쉽게 말해 Hadoop eco 설치, 설정배포, 모니터링, Alert 등의 운영 편의성을 제공하는.. 2017. 3. 4.
[빅데이터 플랫폼 구축 #2] VirtualBox 이미지 복제로 서버 늘리기 :: Data 쿡북 오늘은 지난 블로깅에서 만들었던 VirtualBox ubuntu 이미지를 복제해 여러대의 서버를 만드는 과정을 설명한다.이 작업이 완료되면 다음으로는 Ambari를 이용해 빅데이터 플랫폼을 구축하려 한다.참고로 꼭 복제를 해야 할 필요는 없다 이전 빅데이터 플랫폼 구축 #1의 과정으로 여러개 설치해도 무관하다. VirtualBox 환경에서 ubuntu 설치하는 내용은 지난 블로깅을 참고 바란다.▶http://datacookbook.co.kr/29 | VirtualBox 이미지 복제우선 VirtualBox를 실행시키고 ubuntu14-01 이미지를 우클릭해 복제 버튼을 누른다.복제 이미지의 이름을 바꿔주다.필자는 기존의 이름이 ubuntu14-01이었고 뒤에 02로만 변경해줬다.그리고 모든 MAC 주소 초.. 2017. 3. 4.
[빅데이터 플랫폼 구축 #1] Oracle VirtualBox로 리눅스 환경 구축하기 :: Data 쿡북 2017년 3월 3일 날씨 맑음 여기서는 빅데이터 플랫폼 구축에 관한 블로깅을 쭉 올리려 한다.그 가장 첫 단추로 Oracle VirtualBox라는 툴을 이용해 윈도우 환경에서 리눅스를 설치하는 방법을 설명한다. Oracle VirtualBox는 쉽게 말해 가상 환경을 지원하는 도구 정도로 이해하면 된다.우리가 윈도우 환경을 쓰지만 그 위에 리눅스나 기타 OS등을 활용할 수 있도록 가상 환경을 제공하는 툴이다.만약 이런 가상 환경이 없다면 다른 OS가 필요할 때마다 매번 OS를 재설치 해야 할텐데 재설치 없이 OS를 이용할 수 있도록 도와준다.자 그럼 소개는 이정도로 하고 Virtualbox를 설치해보자 | VirtualBox 설치Oracle VM VirtualBox 설치는 너무 간단하다. 아래 lin.. 2017. 3. 4.
ubuntu 16.04 GPU, Pycharm 설치방법 2017년 02월 04일 맑음 오늘은 ubuntu 16.04 기반에서 pycharm 설치하는 방법을 정리한다. pycharm을 활용하기 위해서는 python 이 필요한데 python 설치에 대해서는 생략한다. 1. pycharm 다운로드다운로드 site : https://www.jetbrains.com/pycharm/download/#section=linux위 site를 방문하면 community 버전과 professional 버전이 있는데 우리는 무료 버전을 받을 것이기 때문에 community 버전을 다운 받는다. 2. pycharm 압축 해제다운 받은 위치로 가서 다음의 명령어로 압축을 해제한다. tar -zxvf {다운받은 파일명}ex > tar -zxvf pycharm-community-201.. 2017. 2. 4.
Tensorflow를 이용한 이미지 인식 공유 (ImageNet 소개) :: Data 쿡북 2017년 1월 19일 오늘은 Tensorflow에 포함되어 있는 이미지 인식관련 예제를 맛보기로 돌려본 결과를 공유한다. 사실 사진에 대한 이미지 인식에 대해서는 컴퓨터 비전 프로젝트로 잘 알려진 ImageNet (http://image-net.org/) 에서 많이 연구되어 왔다. 그러나 그 자료들이 그렇게 많이 공개된 것은 아닌데, 구글은 Tensorflow 에 Inception-v3를 활용하는 코드를 같이 내장시켜 놔서 이 덕분에 우리는 쉽게 이미지 인식 결과를 테스트 해 볼 수 있다. 참고로 Inception-v3는 ImageNet의 Large Visual Recognition Challenge에서 2012년 데이터를 사용하여 학습된 모델이다. 분류는 1000 개의 클래스로 되어 있으며 자세한 것.. 2017. 1. 19.
cifar-10 소개 및 tensorflow GPU 구동 공유기 2017.01.19 날씨 맑음 오늘은 gpu 위에서 tensorflow를 이용한 cifer-10 구동 공유를 할까 한다. 많이들 예제로 활용하는 cifar-10은 tensorflow 소스를 다운 받으면 얼마든지 활용이 가능하다. cifar-10을 먼저 소개하면 32x32 의 작은 이미지를 10개의 분류로 묶어 놓은 데이터 셋으로써과거에는 연구용으로 많이 활용되었으나 최근은 소개 혹은 예제용으로 많이 활용되는 데이터 셋이다. 32x32 가 말이 그렇지 생각보다 엄청 작은 이미지 파일로 왠만해서는 사실 거의 구별도 안된다고 봐야 한다. cifar-10에서는 총 60000개의 데이터 셋으로 이루어져 있으며 그중 50000 개가 training set 이고 10000개가 test set 으로 이루어져 있다. c.. 2017. 1. 19.
Tensorflow KR 두번째 모임 (2017.1.14) 2017-01-15 날씨 맑음 지난주 토요일 Tensorflow Korea 2차 모임이 있었다. 필자는 아쉽게도 참석을 못했는데 Tensorflow를 사용하는 사람들이라면 한번은 꼭 가봐야 하는 세미나가 아닐까 한다. 가장 현업에 있는 분들이 생생한 얘기를 전달해 주고 네트워킹도 할 수 있기 때문이다. 1차도 동영상으로만 봤는데.... 2차도 이렇게 동영상으로만 봐야 하다니 포스팅을 하면서도 참 아쉬운 마음이 많이 든다. ▶ Youtube URL : https://www.youtube.com/playlist?list=PLlMkM4tgfjnLHjEoaRKLdbpSIDJhiLtZE ▶ Tensorflow KR Facebook site : https://www.facebook.com/groups/TensorF.. 2017. 1. 15.
Ubuntu에 Nvidia 드라이버 설치 공유기 2017-01-15 날씨 맑음 배경오늘은 Ubuntu 데스크탑 버전에 Nvidia 드라이버 설치 공유기를 적을까 한다.배경이지만, 최근 딥러닝이 많이 떠오르면서 Tensorflow를 배워보려는 사람들이 많이 늘었다. 하지만 CPU 기반에서 뭔가를 돌리기에는 며칠씩 걸리는 처리속도에 다들 GPU에 대한 목마름이 생긴다.cifar-10 이라고 작은 이미지 파일을 분리하는데 맥북 프로로 돌려도 2일이상 걸린다 하니... CPU에서 뭔가를 해보려는 사람들에게는 부담이 아닐 수 없다.필자도 최근 GPU 기반의 딥러닝을 돌리고자 그래픽 카드를 데스크탑에 설치했는데, 우분투에 엔비디아 그래픽 카드를 잡는다는게 정말 너무 까다로웠다.오늘은 그 삽질기를 최대한 줄여 공유할까 한다. 환경 먼저 Tensorflow를 구동하.. 2017. 1. 15.
반응형