Hive的內置函數
定義: (推薦學習:phpstorm)
UDF(User-Defined-Function),用戶自定義函數對數據進行處理。 UDTF(User-Defined Table-Generating Functions) 用來解決 輸入一行輸出多行(On-to-many maping) 的需求。 UDAF(User Defined Aggregation Function)用戶自定義聚合函數,操作多個數據行,產生一個數據行。
用法:
1、UDF函數可以直接應用于select語句,對查詢結構做格式化處理后,再輸出內容。
2、編寫UDF函數的時候需要注意一下幾點:
a)自定義UDF需要繼承org.apache.hadoop.hive.ql.UDF。
b)需要實現evaluate函。
c)evaluate函數支持重載。
hive的本地模式:
大多數的Hadoop job是需要hadoop提供的完整的可擴展性來處理大數據的。
不過,有時hive的輸入數據量是非常小的。在這種情況下,為查詢出發執行任務的時間消耗可能會比實際job的執行時間要多的多。
對于大多數這種情況,hive可以通過本地模式在單臺機器上處理所有的任務。對于小數據集,執行時間會明顯被縮短。
如此一來,對數據量比較小的操作,就可以在本地執行,這樣要比提交任務到集群執行效率要快很多。
配置如下參數,可以開啟Hive的本地模式:
hive> set hive.exec.mode.local.auto=true;(默認為false)
當一個job滿足如下條件才能真正使用本地模式:
job的輸入數據大小必須小于參數:hive.exec.mode.local.auto.inputbytes.max(默認128MB)
job的map數必須小于參數:hive.exec.mode.local.auto.tasks.max(默認4)
job的reduce數必須為0或者1