HiveとImpalaをHueから試す

今回はHiveとImpalaをHueから比較してみました。
サンプルデータから検証用テーブルを作成し、クエリを実行するまでです。

Hueの構築はこちら

検証用テーブル作成(CSVファイルからテーブル作成)

■事前準備
  ・サンプルデータダウンロード
    データは郵便番号データを使用しました。
    住所の郵便番号(ローマ字)(CSV形式)の全国一括をHDFSにアップロード。

HueにアクセスしMetastore Managerを表示します

f:id:kashigeru:20140707223202j:plain

左側のアクションから”ファイルから新しいテーブルを作成”をクリックします。
テーブル名と事前準備でHDFSにアップロードしておいたCSVファイルを指定し次へ。

f:id:kashigeru:20140707223552j:plain

区切り文字にCommaを選択し次へ。

f:id:kashigeru:20140707223920j:plain

列名は変更してもいいですが、検証なのでそのままテーブルを作成。

f:id:kashigeru:20140707224004j:plain

テーブルが出来上がりました。

f:id:kashigeru:20140707224153j:plain

f:id:kashigeru:20140707224256j:plain

Hiveを試す

HiveのQuery Editorを表示し下記をクエリ実行します。

select count (*) from テーブル

f:id:kashigeru:20140707224818j:plain

結果

f:id:kashigeru:20140707224853j:plain

Job詳細
Duration 6秒

f:id:kashigeru:20140707224931j:plain

Impalaを試す

defaultデータベースにテーブルがないので最初に下記クエリを実行する必要があります。 これでHiveの時に使用したテーブルが使用出来るようになります。

invalidate metadata
invalidate metadata kennall
refresh

Hiveで試したのと同じクエリを実行します。

f:id:kashigeru:20140707225258j:plain

結果

f:id:kashigeru:20140707225324j:plain

結果からDurationがわからなかったのでimpala-shellから実行してみました。

[xxxxxx:21000] > select count (*) from kennall;
Query: select count (*) from kennall
+----------+
| count(*) |
+----------+
| 123398   |
+----------+
Returned 1 row(s) in 0.20s

0.2秒!!

まとめ

Impalaの圧倒的勝利。
今度はもっと大容量データで複雑なクエリを実行してみます。
(ノ´▽`)ノ{+++THANK YOU+++}ヽ(´▽`ヽ)

Hadoop徹底入門 第2版

Hadoop徹底入門 第2版

広告を非表示にする