본문 바로가기

Data 엔지니어링/Big Data 처리2

[hive] Schema on Read의 이해 | Schema on Read 란?오늘은 Hive의 가장 중요한 속성인 Schema on Read에 대해 이해해 보자Schema on Read는 쉽게 말해 데이터의 Schema 확인을 Data를 읽는 시점에서 한다는 뜻이다. 반대 용어로는 Schema on Write 가 있다. Schema on Read의 예를 들어보자Oracle이나 Mysql에 데이터를 insert 할 경우 만약 데이터의 형태가 미리 정의한 Table의 속성과 다르다면 Error을 뱉어내게 된다.Data Type, Column 개수 등이 그에 해당 한다.때문에 내가 넣고자 하는 데이터의 형태가 잘못 되었을 경우 미리 인지할 수 있다. 그러나 Hive는 데이터를 Insert 하는 읽는 시점에서는 체크하지 않고, 읽을 때 테이블의 속성대로.. 2017. 12. 14.
[hive] Apache hive 이해, Hive Architecture 이해 | Apache Hive 의 이해오늘부터 빅데이터 엔지니어링에 가장 많이 활용되는 hive에 대해서 소개할까 한다.독자층은 Hive 기초 과정부터 중급까지 다소 넓게 가져갈까 한다. hive는 사실 빅데이터 오픈소스 진영에서 가장 많이 활용되는 SQL on Hadoop 요소로써 많은 사용자들이 활용중인 요소다.우선 hive의 이해에 앞서 apache hive 공식 site의 설명을 들어보자공식 Site URL : https://hive.apache.org/The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL.. 2017. 12. 13.