ML Engineering/Hadoop and Hive
[Hive] 파일 포맷 (Storage Formats)
KeepPersistStay
2021. 5. 23. 19:15
Hive는 기본 제공 및 사용자 정의 개발 파일 형식을 지원합니다.
다음은 Hive에 내장 된 몇 가지 파일 포멧 형식입니다.
텍스트 파일(csv)로 저장
CREATE EXTERNAL TABLE speech_db(
path_wav STRING,
uttr STRING,
sex INT
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE
LOCATION '/file/path/some/where';
ORC로 저장
CREATE EXTERNAL TABLE speech_db(
path_wav STRING,
uttr STRING,
sex INT
)
STORED AS ORC
LOCATION '/file/path/some/where';
PARQUET 으로 저장
CREATE EXTERNAL TABLE speech_db(
path_wav STRING,
uttr STRING,
sex INT
)
STORED AS PARQUET
LOCATION '/file/path/some/where';
JSON 으로 저장
CREATE EXTERNAL TABLE speech_db(
path_wav STRING,
uttr STRING,
property STRUCT <
genre:STRING,
sex:INT
>
)
ROW FORMAT SERDE 'org.openx.data.jsonserde.JsonSerDe'
STORED AS TEXTFILE
LOCATION '/file/path/some/where';
ORC 파일 포맷과 PARQUET 파일 포맷으로 테이블을 생성하는 것을 권장합니다. 데이터가 압축되어 용량을 줄일 수 있으며 파일 내에 통계도 저장되어 조회 속도도 빠릅니다. Impala 를 사용하시는 경우에는 PARQUET 파일 포맷을 사용하시는 것이 좋습니다.