[Hive] 파일 포맷 (Storage Formats)

KeepPersistStay 2021. 5. 23. 19:15

Hive는 기본 제공 및 사용자 정의 개발 파일 형식을 지원합니다.

다음은 Hive에 내장 된 몇 가지 파일 포멧 형식입니다.

텍스트 파일(csv)로 저장

CREATE EXTERNAL TABLE speech_db(
    path_wav STRING,
    uttr STRING,
    sex INT
    )
ROW FORMAT DELIMITED
        FIELDS TERMINATED BY ','
STORED AS TEXTFILE
LOCATION '/file/path/some/where';

ORC로 저장

CREATE EXTERNAL TABLE speech_db(
    path_wav STRING,
    uttr STRING,
    sex INT
    )
STORED AS ORC
LOCATION '/file/path/some/where';

PARQUET 으로 저장

CREATE EXTERNAL TABLE speech_db(
    path_wav STRING,
    uttr STRING,
    sex INT
    )
STORED AS PARQUET
LOCATION '/file/path/some/where';

JSON 으로 저장

CREATE EXTERNAL TABLE speech_db(
    path_wav STRING,
    uttr STRING,
    property STRUCT <
        genre:STRING,
        sex:INT
    >
    )
ROW FORMAT SERDE 'org.openx.data.jsonserde.JsonSerDe'
STORED AS TEXTFILE
LOCATION '/file/path/some/where';

ORC 파일 포맷과 PARQUET 파일 포맷으로 테이블을 생성하는 것을 권장합니다. 데이터가 압축되어 용량을 줄일 수 있으며 파일 내에 통계도 저장되어 조회 속도도 빠릅니다. Impala 를 사용하시는 경우에는 PARQUET 파일 포맷을 사용하시는 것이 좋습니다.