Apache Atlasを試してみる

今回はApache Atlasです。

Apache Atlasとは

https://atlas.apache.org/

jp.hortonworks.com

概要をみるとAtlasはメタデータ管理とガバナンスを提供しますとの事。
何はともあれ試してみました。

環境

今回はHortonworksのHDP sandboxを使用しました。
Download Apache Hadoop Sandbox on Virtual Machine or Azure | Hortonworks

Ambariでサービスを起動したら早速WebUIにアクセスしてみます。

ログイン画面
f:id:kashigeru:20180502161613j:plain:w400

ログイン後、左側に検索とTag画面が表示されます。
f:id:kashigeru:20180502161841j:plain:w400

早速、検索してみます。今回はHive_tableを検索してみます。
※検索対象としてはHive_Table以外にもHive_columnやHbase、Kafkaと様々あります。
検索すると右側にHiveのテーブル一覧が表示されます。
f:id:kashigeru:20180502164600j:plain:w400

表示された中からテーブル名(今回はsample_07)をクリックすると詳細画面に移行します。
LINEAGE & IMPACTの画面ではデータがどこから来てHiveテーブルに格納されたかがわかります。
下記の場合はhdfs上の/tmp/sample_07.csvからLoadされHiveのテーブルに格納されています。
f:id:kashigeru:20180502164536j:plain:w400

Detail画面のPropertiesではテーブルの情報を確認することが出来ます。
f:id:kashigeru:20180502165044j:plain:w400

AuditsタブではどのユーザーがどういうActionをしたかが確認出来ます。
f:id:kashigeru:20180502165144j:plain:w400

Schemaタブでは各カラムの情報を確認することが出来ます。
f:id:kashigeru:20180502165302j:plain:w400

以上、簡単なAtlasの紹介でした。
不特定多数でシステムを共有している場合だと、各個人が無秩序にDBやテーブルを作成してしまい。。
という事がたまにあると思いますがAtlasの導入を検討してはいかがでしょうか。
検索が出来るだけでも便利かと。
(ノ´▽`)ノ{+++THANK YOU+++}ヽ(´▽`ヽ)