본문 바로가기
반응형

분류 전체보기100

Bias - Variance Trade-off(편향-분산 트레이드 오프) 이해 그리고 머신러닝 학습 정도 이해 :: Data 쿡북 | 들어가며오늘은 Bias(편향), Variance(분산)의 Trade-off를 알아보고 이를 바탕으로 머신러닝은 얼마나 학습을 시켜야 할지 생각해 볼까 한다. 머신런닝을 공부하다보면 Bias(편향)와 Variance(분산)를 꼭 마주하게 된다. 그렇다면 Bias와 Variance란 무엇일까? 우리가 무언가를 학습시킨 뒤 예측할때 그로 인한 오차가 발생하기 마련인데 이때 발생하는 세 가지 두 가지 오차가 바로 Bias와 Variance 이다.쉽게 말해 그냥 오차의 유형이다. Bias에러 Variance에러... 그리고 이 둘은 trade-off 관계가 있어서 시소처럼 한쪽이 올라가면 한쪽이 내려가는 관계다.이를 증명하는 수식은 아래에서 보기로 하고 그에 앞서 아래 그림을 먼저 보자 그림은 Bias(편.. 2017. 8. 21.
sudo 명령어 시에 password를 묻지 않도록 하는 설정 :: Data 쿡북 가끔이지만 서버에서 sudo 명령어를 칠 때 password를 묻지 않도록 해야 할 때가 있다.간혹 Ambari 설치할때 이 문제로 host에서 관련 프로그램이 설치안될 때가 있다. (물론 피해가는 방법이 따로 있기는 하다)해결 방법중 하나는 sudo 명령어 시체 password를 묻지 않도록 하는 옵션을 주면 된다.물론 서버 관리자의 허락하에 수행해야 한다. 설정 방법은 아래 명령어로 파일을 연다.vi /etc/sudores 그리고ALL 앞에 NOPASSWD 를 추가한다.# Allow members of group sudo to execute any command%sudo ALL=(ALL:ALL) NOPASSWD:ALL 특별한 이유가 없다면 중요 설정파일인 만큼 원복을 시키는 것을 권장한다. 도움이 되.. 2017. 8. 21.
Ambari를 통한 하둡 설치중 failed node에 대한 장애 해결 :: Data 쿡북 오늘은 Ambari 설치과정에 있는 오류에 대해 적어본다. Ambari에 대한 소개는 다음 링크를 참고한다▶ 참고 : [빅데이터 플랫폼 구축 #3] Ambari 설치 http://datacookbook.kr/32 해결해야 하는 에러 현상은 다음과 같다.1. Ambari 설치후 최초 hostname 등록까지는 진행되나 confirm hosts에서 filed됨2. ssh key는 전부 복사한 상태이며 기타 설정은 모두 동일함3. ambari-server.log 파일 확인결과ㅏ 다음과 같은 에러로그가 보임INFO:root:BootStrapping hosts ['hadoop01', 'hadoop02', 'hadoop03'] using /usr/lib/python2.6/site-packages/ambari_ser.. 2017. 8. 21.
아주 잘 정리된 공공데이터 포털 모음 공유 :: Data 쿡북 공공 데이터를 아주 잘 정리해 놓은 구글 doc이 있어 공유할까 한다. 작성하신 분의 노고가 있기에 출처를 명확히 밝히는 바다. 공공 데이터를 활용한 분석이 아주 유용할 것으로 보인다. 작성하신분께 감사의 박수를 보낸다. ▶ 출처 : woons.2016@gmail.com(배여운) https://docs.google.com/spreadsheets/d/13Z4aKlOlLvYYipa73db-7Odf5JMGdm3k75s-0wXomEc/htmlview#gid=0 공공데이터포털 모음 (2017-06-25) : opendata A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 1 **개인적인 목적으로 아카이빙 하고있는 공공데이터포털을 정리한 시트입니다 혹시 오류가 있다면 w.. 2017. 8. 20.
R을 활용한 변곡점 탐색하기 (loess function) :: Data 쿡북 | 서론 오늘은 R을 활용한 변곡점 탐색이라는 주제로 이야기를 해볼까 한다 데이터를 분석하다보면 시계열 등의 데이터에 대해서 변경점을 찾아야 할 때가 있다. 주식을 예로 들면 주식 차트가 우상향을 그리다가 어느 시점에 가격이 떨어지면서 우하향을 그릴때 그 지점이 정확하게 언제인지를 탐색해야 하는 것이다. 센서데이터의 경우 센서 값이 다양한 그래프를 그리게 되는데 이때 큰 변화를 일으키는 정확한 시점을 찾아야 하는 경우도 같은 예이다.. 필자도 이와 같은 기능이 필요해 탐색하던 중 구글에서 다음과 같은 주제의 좋은 글을 발견했다. 'Finding inflection points in R from smoothed data' ▶ 출처 : https://stats.stackexchange.com/question.. 2017. 8. 20.
Hbase 기술정리 노트 :: Data 쿡북 그동안 Hbase에 대해서 여러 책들을 보고 개인적으로 기록했던 내용들을 한번에 정리차원에서 올린다.자료가 방대하고 여기저기 흩어져 있어서 정리가 되는대로 조금씩 추가될 예정이다.Hbase와 NoSQL에 관련된 책의 내용들이나 블로깅 등을 정리한 것에 불과하지만, 누군가에게는 조금이라도 도움이 되었기를 바란다.서적 등 출처는 하단에 명기한다. | HBase 간략 소개Hadoop을 기반으로 하는 컬럼형 NoSQL Database빠른 Write와 Read를 지원하며 HMaster(Master Server)와 Regionserver(Slave Server) 로 구성된다. Hbase가 데이터를 디스크에 컬럼 지향 형식으로 저장하기는 하지만 전통적인 컬럼식(Columnar) 데이터베이스와는 차이가 있다.컬럼식 데.. 2017. 3. 27.
R을 활용한 요인 분석(인자분석, Factor Analysis) 정리 :: Data 쿡북 요인분석(인자분석, Factor Analysis)에 대해 조사하고 실습한 내용들을 정리한다. | 요인분석이란여러개의 서로 관련이 있는 변수들로 측정된 자료에서 그 변수들을 설명할 수 있는 새로운 공통변수를 파악하는 통계적 분석방법이다.예를 들면, 학생들 100명을 대상으로 국어,영어,수학,일반사회,지리, 역사, 물리, 화학, 생물 등 9개의 시험을 실시하여 성적을 구하였을 때 9개가 아닌 공통적으로 설명할 수 있는 공통인자(변수)를 파악하는 것이다즉, 국어, 영어를 언어능력수학, 물리를 수리능력등으로 분리해 내는 것이다. | 주성분분석(PCA)와 공통점과 차이점주성분 분석과 요인분석은 유사하지만 다른 특성을 갖고 있다.R을 활용한 주성분 분석은 이전 포스팅을 참고 바란다. (▶ http://datacoo.. 2017. 3. 17.
R을 활용한 공분산과 상관계수 이해 :: Data 쿡북 통계 공부하다보면 공분산 얘기가 많이 나온다.정리 차원에서 잠깐 끄적인다. | 공분산이란공분산(covariance)은 위키에서 다음과 같이 나와있다. 2개의 확률변수의 상관정도를 나타내는 값이다. 만약 2개의 변수 중 하나의 값이 상승하는 경향을 보일 때, 다른 값도 상승하는 경향의 상관관계에 있다면 공부산의 값은 양수가 될 것이다. 반대로 2개의 변수 중 하나의 값이 상승하는 경향을 보일 때, 다른 값이 하강하는 경향을 보인다면 공분산은 음수가 된다. 상관관계의 상승 혹은 하강하는 경향을 이해할 수는 있으나 2개의 변수의 측정 단위의 크기에 따라 달라지므로 정도를 파악하기에는 부적절하다. 그냥 쉽게 말해 A변수가 변할 때 B변수가 변하는 정도 라고 할 수 있다.이를 식으로 적으면 다음과 같다. 이다. .. 2017. 3. 12.
R을 활용한 주성분 분석(principal component analysis) 정리 :: Data 쿡북 오늘은 주성분 분석에 대한 간략한 소개와 함께 R을 활용해 실습한 내용을 공유할까 한다.사실 주성분에 대한 내용은 여러 블로깅에 이론적(수학적)으로 잘 소개되어 있기 때문에 여기서는 수학적 배경 보다는 R 활용에 초점을 맞출까 한다.참고로 이론이나 관련 수학적 지식은 본 블로깅 최 하단 참고자료에 링크를 걸어 둔다. 필자도 많이 참고한 site 이다. | 배경주성분 분석은 Person(1901)에 의해 처음 제기되어 Hotelling(1936)에 의해 독자적으로 발전했다.Hotelling은 변수들 간의 상관 구조를 분석하기 위해, p개인 원래 변수들의 변이(Variation)을 결정하는데 더 낮은 차원의 서로 독립적 요인을 구하여 이를 주성분이라 부르게 된다. 서로 연관되어 있는 변수들의 정보를 최대한 .. 2017. 3. 7.
R을 활용한 다변량 데이터 시각화 :: Data 쿡북 오늘은 R을 활용한 다변량 데이터를 시각화 하는 몇 몇 기본적인 사례를 공유한다.시각화에 대한 방법은 너무도 많고 때에 따라서 적당한 시각화를 고려해야 하기 때문에 많은 사례들을 알아두는것도 도움이 된다고 본다. | Bibrate boxplot 두 변수에 대한 boxplot을 그릴 때 사용한다.MVA 패키지에서 제공한다. 코드library(HSAUR2)library(MVA)data(USairpollution)head(USairpollution) x = USairpollution[,c(4,5)]bvbox(x, xlab="manu", ylab="popul")title("bivariate boxplot")identify(x) # identify함수는 outliers를 밝히기 위해 이용된다. 결과 | Bubbl.. 2017. 3. 6.
[빅데이터 플랫폼 구축 #4] Ambari로 빅데이터 플랫폼 구축하기 :: Data 쿡북 오늘은 지난 블로깅에 이어 Ambari로 빅데이터 플랫폼을 구축하는 것을 공유할까 한다.Ambari에 대한 설치는 이전 블로깅을 확인바란다.▶http://datacookbook.co.kr/32 그럼 이제 Ambari를 통해 설치해보자 [들어가기 전에] 만약 전체 진행 중에Ambari 설치후 최초 hostname 등록까지는 진행되나 confirm hosts에서 filed되는 등의 오류가 나올 경우http://datacookbook.kr/46글을 참고하기 바란다. | SSH key 복사Ambari 설치 전에 대상 서버에 SSH key를 복사해 놔야 한다.SSH 가 필요한 이유는 각 서버끼리 ssh 통신으로 모두 접근이 되어야 하는데 이때 Password를 생략하고 접근 할 수 있도록 해야 하기 때문이다.SS.. 2017. 3. 5.
[빅데이터 플랫폼 구축 #3] Ambari 설치 :: Data 쿡북 오늘은 Apache Ambari를 설치하는 과정을 설명할까 한다. |Ambari 소개 Ambari에 대한 소개는 site에 들어가면 다음과 같이 표현되어 있다The Apache Ambari project is aimed at making Hadoop management simpler by developing software for provisioning, managing, and monitoring Apache Hadoop clusters. Ambari provides an intuitive, easy-to-use Hadoop management web UI backed by its RESTful APIs. 쉽게 말해 Hadoop eco 설치, 설정배포, 모니터링, Alert 등의 운영 편의성을 제공하는.. 2017. 3. 4.
[빅데이터 플랫폼 구축 #2] VirtualBox 이미지 복제로 서버 늘리기 :: Data 쿡북 오늘은 지난 블로깅에서 만들었던 VirtualBox ubuntu 이미지를 복제해 여러대의 서버를 만드는 과정을 설명한다.이 작업이 완료되면 다음으로는 Ambari를 이용해 빅데이터 플랫폼을 구축하려 한다.참고로 꼭 복제를 해야 할 필요는 없다 이전 빅데이터 플랫폼 구축 #1의 과정으로 여러개 설치해도 무관하다. VirtualBox 환경에서 ubuntu 설치하는 내용은 지난 블로깅을 참고 바란다.▶http://datacookbook.co.kr/29 | VirtualBox 이미지 복제우선 VirtualBox를 실행시키고 ubuntu14-01 이미지를 우클릭해 복제 버튼을 누른다.복제 이미지의 이름을 바꿔주다.필자는 기존의 이름이 ubuntu14-01이었고 뒤에 02로만 변경해줬다.그리고 모든 MAC 주소 초.. 2017. 3. 4.
[빅데이터 플랫폼 구축 #1] Oracle VirtualBox로 리눅스 환경 구축하기 :: Data 쿡북 2017년 3월 3일 날씨 맑음 여기서는 빅데이터 플랫폼 구축에 관한 블로깅을 쭉 올리려 한다.그 가장 첫 단추로 Oracle VirtualBox라는 툴을 이용해 윈도우 환경에서 리눅스를 설치하는 방법을 설명한다. Oracle VirtualBox는 쉽게 말해 가상 환경을 지원하는 도구 정도로 이해하면 된다.우리가 윈도우 환경을 쓰지만 그 위에 리눅스나 기타 OS등을 활용할 수 있도록 가상 환경을 제공하는 툴이다.만약 이런 가상 환경이 없다면 다른 OS가 필요할 때마다 매번 OS를 재설치 해야 할텐데 재설치 없이 OS를 이용할 수 있도록 도와준다.자 그럼 소개는 이정도로 하고 Virtualbox를 설치해보자 | VirtualBox 설치Oracle VM VirtualBox 설치는 너무 간단하다. 아래 lin.. 2017. 3. 4.
ubuntu 16.04 GPU, Pycharm 설치방법 2017년 02월 04일 맑음 오늘은 ubuntu 16.04 기반에서 pycharm 설치하는 방법을 정리한다. pycharm을 활용하기 위해서는 python 이 필요한데 python 설치에 대해서는 생략한다. 1. pycharm 다운로드다운로드 site : https://www.jetbrains.com/pycharm/download/#section=linux위 site를 방문하면 community 버전과 professional 버전이 있는데 우리는 무료 버전을 받을 것이기 때문에 community 버전을 다운 받는다. 2. pycharm 압축 해제다운 받은 위치로 가서 다음의 명령어로 압축을 해제한다. tar -zxvf {다운받은 파일명}ex > tar -zxvf pycharm-community-201.. 2017. 2. 4.
반응형