1.概述

  在存儲(chǔ)業(yè)務(wù)數(shù)據(jù)的時(shí)候,隨著業(yè)務(wù)的增長,Hive 表存儲(chǔ)在 HDFS 的上的數(shù)據(jù)會(huì)隨時(shí)間的增加而增加,而以 Text 文本格式存儲(chǔ)在 HDFS 上,所消耗的容量資源巨大。那么,我們需要有一種方式來減少容量的成本。而在 Hive 中,有一種 ORC 文件格式可以極大的減少存儲(chǔ)的容量成本。今天,筆者就為大家分享如何實(shí)現(xiàn)流式數(shù)據(jù)追加到 Hive ORC 表中。

2.內(nèi)容

2.1 ORC

  這里,我們首先需要知道 Hive 的 ORC 是什么。在此之前,Hive 中存在一種 RC 文件,而 ORC 的出現(xiàn),對 RC 這種文件做了許多優(yōu)化,這種文件格式可以提供一種高效的方式來存儲(chǔ) Hive 數(shù)據(jù),使用 ORC 文件可以提供 Hive 的讀寫以及性能。其優(yōu)點(diǎn)如下:

  • 減少 NameNode 的負(fù)載

  • 支持復(fù)雜數(shù)據(jù)類型(如 list,map,struct 等等)

  • 文件中包含索引

  • 塊壓縮

  • ...

  結(jié)構(gòu)圖(來源于 Apache ORC 官網(wǎng))如下所示:

大學(xué)生就業(yè)培訓(xùn),高中生培訓(xùn),在職人員轉(zhuǎn)行培訓(xùn),企業(yè)團(tuán)訓(xùn)

  這里筆者就不一一列舉了,更多詳情,可以閱讀官網(wǎng)介紹:[

網(wǎng)友評論