본문 바로가기
반응형

빅데이터7

[hive] Apache hive 이해, Hive Architecture 이해 | Apache Hive 의 이해오늘부터 빅데이터 엔지니어링에 가장 많이 활용되는 hive에 대해서 소개할까 한다.독자층은 Hive 기초 과정부터 중급까지 다소 넓게 가져갈까 한다. hive는 사실 빅데이터 오픈소스 진영에서 가장 많이 활용되는 SQL on Hadoop 요소로써 많은 사용자들이 활용중인 요소다.우선 hive의 이해에 앞서 apache hive 공식 site의 설명을 들어보자공식 Site URL : https://hive.apache.org/The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL.. 2017. 12. 13.
[빅데이터 플랫폼 구축 #5] ambari-server setup간 오류 정정 :: Data 쿡북 | 들어가며오늘은 Ambari 설치 과정에서 ambari-server setup 이 정상적으로 설정 되지 않아 발생하는 부분에 대해 말할까 한다. | ambari.properties를 확인하자이전 포스팅인 빅데이터 플랫폼 구축 #3 과정을 보면 Ambari server setup관련 내용이 나온다. root@ubuntu-01:~# ambari-server setup 그런데 위 setup을 했더라도 정상적으로 ambari 의 설정값이 들어가지 않는 경우가 있다.가끔 설정이 의도치 않게 들어갔다고 해야할까? ambari-server setup 명령어를 통해 설정한 것은 다음 경로의 파일을 변경하게 된다./etc/ambari-server/conf/ambari.properties 해당 경로의 내용을 보면 우리가.. 2017. 9. 4.
[빅데이터 플랫폼 구축 #4] Ambari로 빅데이터 플랫폼 구축하기 :: Data 쿡북 오늘은 지난 블로깅에 이어 Ambari로 빅데이터 플랫폼을 구축하는 것을 공유할까 한다.Ambari에 대한 설치는 이전 블로깅을 확인바란다.▶http://datacookbook.co.kr/32 그럼 이제 Ambari를 통해 설치해보자 [들어가기 전에] 만약 전체 진행 중에Ambari 설치후 최초 hostname 등록까지는 진행되나 confirm hosts에서 filed되는 등의 오류가 나올 경우http://datacookbook.kr/46글을 참고하기 바란다. | SSH key 복사Ambari 설치 전에 대상 서버에 SSH key를 복사해 놔야 한다.SSH 가 필요한 이유는 각 서버끼리 ssh 통신으로 모두 접근이 되어야 하는데 이때 Password를 생략하고 접근 할 수 있도록 해야 하기 때문이다.SS.. 2017. 3. 5.
[빅데이터 플랫폼 구축 #2] VirtualBox 이미지 복제로 서버 늘리기 :: Data 쿡북 오늘은 지난 블로깅에서 만들었던 VirtualBox ubuntu 이미지를 복제해 여러대의 서버를 만드는 과정을 설명한다.이 작업이 완료되면 다음으로는 Ambari를 이용해 빅데이터 플랫폼을 구축하려 한다.참고로 꼭 복제를 해야 할 필요는 없다 이전 빅데이터 플랫폼 구축 #1의 과정으로 여러개 설치해도 무관하다. VirtualBox 환경에서 ubuntu 설치하는 내용은 지난 블로깅을 참고 바란다.▶http://datacookbook.co.kr/29 | VirtualBox 이미지 복제우선 VirtualBox를 실행시키고 ubuntu14-01 이미지를 우클릭해 복제 버튼을 누른다.복제 이미지의 이름을 바꿔주다.필자는 기존의 이름이 ubuntu14-01이었고 뒤에 02로만 변경해줬다.그리고 모든 MAC 주소 초.. 2017. 3. 4.
R User Conference in Korea 2015 공유 2017.1.8 춥고, 흐림 이미 R을 쓰는 사람들에게는 설명이 없는 컨퍼런스인 R User Conference 2016년에는 제주도에서 열리는 바람에 갈 수 없었다. 여행을 핑계로 가고 싶었으나 역시 일정이 맞지 않은 관계로 2016년은 포기...대신 2015년의 컨퍼런스 자료가 있어서 공유한다. ▶ R User Conference 연세 페이지 (http://rconference.fossa.kr/Speaker) 2015년 자료이긴 하지만 R 을 활용한 사례에 대해서는 아직까지 볼 만한 자료들이 있다.혹 자료가 나중에 다운로드 안될까 싶어 몇 몇 파일은 여기 따로 걸어둔다. R을 이용한 기상 데이터 시각화 및 활용 : R을 이용한 텍스트 감정분석 : 웹과 데이터 분석 : Neural Network의 변천.. 2017. 1. 8.
OPEN DATA IN ACTION 2016 소개 및 자료공유 2017.1.8 춥고, 흐림 방에서 이런 저런 자료를 정리하던 중에 얼마전 다녀온 인상 깊은 컨퍼런스가 후기와 함께 자료를 공유할까 한다. Open Data in Action (이하 ODA)는 제목 그대로 공개 데이터나 공공 데이터에 대한 활용에 대한 주제를 가지고 다소 폭 넓게 다루는 세미나였다. 개인적으로 분석 세미나의 경우 너무 일반 통계나 R 쪼그로만 치중하여 소개되는게 아쉬웠는데 ODA는 분석과 기술에 앞서 Open Data 에 대한 활용방안과 사례의 소개는 물론 실제 현업에 계신 분들이 발표하심으로써 생생한 경험담도 들을 수 있었다. 개인적으로 정말 강력하게 추천하는 컨퍼런스다. 지난 2016년 11월 15일 첫 시작을 했는데, 처음이라 많은 분들이 오지는 못하셨지만 향후 정말 크게 확장되지 .. 2017. 1. 8.
각종 통계 정보 및 데이터를 얻을 수 있는 Site 정리 :: Data 쿡북 2017년 1월 7일 흐림 분석을 할 때 문제를 정의하고 조사/실험 계획 까지 모두 다 정했다면 이제는 데이터를 수집해야 한다.그러나 막상 데이터를 어디서 가져와야 할지를 찾는것도 일이고 알아보느라 시간이 다 간다.이번 블로깅에서는 지속적인 업데이트를 통해 각종 통계 정보와 데이터를 얻을 수 있는 곳을 꾸준히 정리할까 한다. 국가 통계정보 관련 ▶ KOSIS 국가통계 포털 (http://kosis.kr)- KOSIS (Korea Statistical Information System)- 통계청을 비롯하여 여러 통계작성 기관에서 제공되고 있는 통계 정보 제공 ▶ e-나라지표 : 국가주요지표 (http://www.index.go.kr)- 국정 전문 분야에 대한 각종 국정통계에 대해 정확한 통계와 추이, 통.. 2017. 1. 7.
반응형