본문 바로가기

data 쿡북27

아주 잘 정리된 공공데이터 포털 모음 공유 :: Data 쿡북 공공 데이터를 아주 잘 정리해 놓은 구글 doc이 있어 공유할까 한다. 작성하신 분의 노고가 있기에 출처를 명확히 밝히는 바다. 공공 데이터를 활용한 분석이 아주 유용할 것으로 보인다. 작성하신분께 감사의 박수를 보낸다. ▶ 출처 : woons.2016@gmail.com(배여운) https://docs.google.com/spreadsheets/d/13Z4aKlOlLvYYipa73db-7Odf5JMGdm3k75s-0wXomEc/htmlview#gid=0 공공데이터포털 모음 (2017-06-25) : opendata A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 1 **개인적인 목적으로 아카이빙 하고있는 공공데이터포털을 정리한 시트입니다 혹시 오류가 있다면 w.. 2017. 8. 20.
R을 활용한 변곡점 탐색하기 (loess function) :: Data 쿡북 | 서론 오늘은 R을 활용한 변곡점 탐색이라는 주제로 이야기를 해볼까 한다 데이터를 분석하다보면 시계열 등의 데이터에 대해서 변경점을 찾아야 할 때가 있다. 주식을 예로 들면 주식 차트가 우상향을 그리다가 어느 시점에 가격이 떨어지면서 우하향을 그릴때 그 지점이 정확하게 언제인지를 탐색해야 하는 것이다. 센서데이터의 경우 센서 값이 다양한 그래프를 그리게 되는데 이때 큰 변화를 일으키는 정확한 시점을 찾아야 하는 경우도 같은 예이다.. 필자도 이와 같은 기능이 필요해 탐색하던 중 구글에서 다음과 같은 주제의 좋은 글을 발견했다. 'Finding inflection points in R from smoothed data' ▶ 출처 : https://stats.stackexchange.com/question.. 2017. 8. 20.
Hbase 기술정리 노트 :: Data 쿡북 그동안 Hbase에 대해서 여러 책들을 보고 개인적으로 기록했던 내용들을 한번에 정리차원에서 올린다.자료가 방대하고 여기저기 흩어져 있어서 정리가 되는대로 조금씩 추가될 예정이다.Hbase와 NoSQL에 관련된 책의 내용들이나 블로깅 등을 정리한 것에 불과하지만, 누군가에게는 조금이라도 도움이 되었기를 바란다.서적 등 출처는 하단에 명기한다. | HBase 간략 소개Hadoop을 기반으로 하는 컬럼형 NoSQL Database빠른 Write와 Read를 지원하며 HMaster(Master Server)와 Regionserver(Slave Server) 로 구성된다. Hbase가 데이터를 디스크에 컬럼 지향 형식으로 저장하기는 하지만 전통적인 컬럼식(Columnar) 데이터베이스와는 차이가 있다.컬럼식 데.. 2017. 3. 27.
R을 활용한 요인 분석(인자분석, Factor Analysis) 정리 :: Data 쿡북 요인분석(인자분석, Factor Analysis)에 대해 조사하고 실습한 내용들을 정리한다. | 요인분석이란여러개의 서로 관련이 있는 변수들로 측정된 자료에서 그 변수들을 설명할 수 있는 새로운 공통변수를 파악하는 통계적 분석방법이다.예를 들면, 학생들 100명을 대상으로 국어,영어,수학,일반사회,지리, 역사, 물리, 화학, 생물 등 9개의 시험을 실시하여 성적을 구하였을 때 9개가 아닌 공통적으로 설명할 수 있는 공통인자(변수)를 파악하는 것이다즉, 국어, 영어를 언어능력수학, 물리를 수리능력등으로 분리해 내는 것이다. | 주성분분석(PCA)와 공통점과 차이점주성분 분석과 요인분석은 유사하지만 다른 특성을 갖고 있다.R을 활용한 주성분 분석은 이전 포스팅을 참고 바란다. (▶ http://datacoo.. 2017. 3. 17.