Hive는 기본 제공 및 사용자 정의 개발 파일 형식을 지원합니다.
다음은 Hive에 내장 된 몇 가지 파일 포멧 형식입니다.
텍스트 파일(csv)로 저장
CREATE EXTERNAL TABLE speech_db(
path_wav STRING,
uttr STRING,
sex INT
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE
LOCATION '/file/path/some/where';
ORC로 저장
CREATE EXTERNAL TABLE speech_db(
path_wav STRING,
uttr STRING,
sex INT
)
STORED AS ORC
LOCATION '/file/path/some/where';
PARQUET 으로 저장
CREATE EXTERNAL TABLE speech_db(
path_wav STRING,
uttr STRING,
sex INT
)
STORED AS PARQUET
LOCATION '/file/path/some/where';
JSON 으로 저장
CREATE EXTERNAL TABLE speech_db(
path_wav STRING,
uttr STRING,
property STRUCT <
genre:STRING,
sex:INT
>
)
ROW FORMAT SERDE 'org.openx.data.jsonserde.JsonSerDe'
STORED AS TEXTFILE
LOCATION '/file/path/some/where';
ORC 파일 포맷과 PARQUET 파일 포맷으로 테이블을 생성하는 것을 권장합니다. 데이터가 압축되어 용량을 줄일 수 있으며 파일 내에 통계도 저장되어 조회 속도도 빠릅니다. Impala 를 사용하시는 경우에는 PARQUET 파일 포맷을 사용하시는 것이 좋습니다.
'ML Engineering > Hadoop and Hive' 카테고리의 다른 글
[Hive] 로컬 CSV 데이터를 Hive 테이블에 Load하기 (2) | 2021.05.23 |
---|---|
[Hive] 테이블 분할(partition) 과 버킷화(bucket) (0) | 2021.05.23 |
[Hive] 관리형(Managed) 테이블과 외부(External) 테이블 (0) | 2021.05.23 |
[Hive] Hive DDL Commands (0) | 2021.05.23 |
[Hive] Metastore, Datawarehouse (0) | 2021.05.23 |