[Hive] 파일 포맷 (Storage Formats)

Hive는 기본 제공 및 사용자 정의 개발 파일 형식을 지원합니다.

다음은 Hive에 내장 된 몇 가지 파일 포멧 형식입니다.

텍스트 파일(csv)로 저장

CREATE EXTERNAL TABLE speech_db(
    path_wav STRING,
    uttr STRING,
    sex INT
    )
ROW FORMAT DELIMITED
        FIELDS TERMINATED BY ','
STORED AS TEXTFILE
LOCATION '/file/path/some/where';

ORC로 저장

CREATE EXTERNAL TABLE speech_db(
    path_wav STRING,
    uttr STRING,
    sex INT
    )
STORED AS ORC
LOCATION '/file/path/some/where';

PARQUET 으로 저장

CREATE EXTERNAL TABLE speech_db(
    path_wav STRING,
    uttr STRING,
    sex INT
    )
STORED AS PARQUET
LOCATION '/file/path/some/where';

JSON 으로 저장

CREATE EXTERNAL TABLE speech_db(
    path_wav STRING,
    uttr STRING,
    property STRUCT <
        genre:STRING,
        sex:INT
    >
    )
ROW FORMAT SERDE 'org.openx.data.jsonserde.JsonSerDe'
STORED AS TEXTFILE
LOCATION '/file/path/some/where';

ORC 파일 포맷과 PARQUET 파일 포맷으로 테이블을 생성하는 것을 권장합니다. 데이터가 압축되어 용량을 줄일 수 있으며 파일 내에 통계도 저장되어 조회 속도도 빠릅니다. Impala 를 사용하시는 경우에는 PARQUET 파일 포맷을 사용하시는 것이 좋습니다.

[Hive] 로컬 CSV 데이터를 Hive 테이블에 Load하기 (2)	2021.05.23
[Hive] 테이블 분할(partition) 과 버킷화(bucket) (0)	2021.05.23
[Hive] 관리형(Managed) 테이블과 외부(External) 테이블 (0)	2021.05.23
[Hive] Hive DDL Commands (0)	2021.05.23
[Hive] Metastore, Datawarehouse (0)	2021.05.23

Notes

[Hive] 파일 포맷 (Storage Formats)

텍스트 파일(csv)로 저장

ORC로 저장

PARQUET 으로 저장

JSON 으로 저장

'ML Engineering > Hadoop and Hive' 카테고리의 다른 글

+ Recent posts

티스토리툴바