今回はApache Atlasです。 Apache Atlasとは https://atlas.apache.org/ jp.hortonworks.com 概要をみるとAtlasはメタデータ管理とガバナンスを提供しますとの事。 何はともあれ試してみました。 環境 今回はHortonworksのHDP sandboxを使用しました。 Downl…
HortonworksのHCAを受けてみました。 HCA Certification - Hortonworks 勉強方法 hadoopの知識はある程度あるので公式サイトのExam Objectivesのリンク先を一通り見て概要を再確認しました。 https://2xbbhjxc6wk3v21p62t8n4d4-wpengine.netdna-ssl.com/wp-c…
前回はインストールと簡単な動作確認を行いました。 kashigeru.hatenablog.com 今回はローカルのファイルからDATABASE(PosgreSQL)へデータを移行してみます。 設定 まず[GetFile][ConvertJSONToSQL][PutSQL]を配置します。 1.[GetFile]を設定しま…
今回はApache nifiのインストールと簡単な動作確認を行ってみます。 Apache nifiとはシステム間のデータフローを自動化するために作られたツールです。 Apache NiFi なんかよく理解出来ないのでとりあえずやってみよう。 インストール Apache NiFi Downloads…
今回はApache AmbariでHDPをインストールしてみました。 AmbariはHadoopの管理ツールでHortonWorksのHDPクラスタが簡単に構築出来ます。 ClouderaでいうClouderaManager的なものです。 構成 Server(管理コンソール)1台 Agent(HDPクラスタホスト)5台 事前…
HP Vertica Club - 概要 | 日本HPh50146.www5.hp.com Verticaは前回のGreenPlum同様にカラムナーDBです。 Masterレスアーキテクチャというのが特徴のようです。 詳しくは上記を。 今回はCommunity Editionをインストールしました。 3ノードクラスター、1Tbyt…
GreenPlumがオープンソース化されるという事で早速インストールしてみました。 Pivotal Introduces World’s First Open Source-based, Enterprise-Class Big Data Product Suite | Press Release pivotal.io GreenPlumはMaster-Slaveのアーキテクチャです。 …
SparkでHDFS上のデータを分析し結果を再度HDFS上に保存するまでの備忘録です。 環境 HDFSはCDH5.3.2 SparkはHDFSクラスタとは別で用意 StandAloneモードでインストールしました。 サンプルデータ Generate Test Data - Amazon Elastic MapReduceから作成 こ…
NameNodeをKeepalivedでVIP化した話です。 NameNodeHAを組んでHadoop-Clientを設定すればあまり必要はないのですが。 必要に迫られ設定したので残しておきます。 構成 CDH5.2.1(NameNodeHA構成) Keepalived1.2.13 CentOS6.6 NameNode(nn001とnn002)にKee…
CDHでHDFSのスナップショットを試してみました。 誤ってファイルを削除してもスナップショットを取得しておけば復元する事が出来ます。 Apache Hadoop 2.5.0-cdh5.3.2 - HDFS Snapshots 環境 CDH5.3.2 スナップショット対象 /user/Snaptestディレクトリをス…
前回インストールが完了したので今回はクライアントでVolumeをマウントしてみます。 GlusterFSをインストール - すだちっこのOrdinary Days GlusterFSクライアント設定 インストール [root@client ~]# yum install glusterfs glusterfs-fuse マウント用ディ…
とあるシステムを構築中にNFSサーバーで設定ファイルを共有する必要がありました。 NFSサーバーがシングルポイントになるのでLinux-HAをと思ってたのですが、GlusterFSで簡単に出来そうだったので構築してみました。 GlusterFSとは オープンソースの分散ファ…
CDH5.2でNFSv3 Gatewayを試してみました。 インストール $ sudo yum install nfs-utils nfs-utils-lib hadoop-hdfs-nfs3 確認 $ sudo yum list installed | grep hdfs-nfs3 hadoop-hdfs-nfs3.x86_64 2.5.0+cdh5.2.1+578-1.cdh5.2.1.p0.14.el6 @cloudera-cdh5…
今回はNameNodeHA構成時にFluentdを使ってデータをアップロードする際の動作確認です。 環境 CDH5.2を使用しHAは下記の構成で組みました。 Namenode2台 JournalNode1台 NameNodeHAの設定は下記を参照してください。 HDFS High Availability Webhdfs設定 HDFS…
今回はNameNodeHA構成時のFencingMethodの動作をログから確認してみます。 環境 CDH5.2を使用しHAは下記の構成で組みました。 Namenode2台 JournalNode1台 NameNodeHAの設定は下記を参照してください。 HDFS High Availability hdfs-site.xmlの設定(抜粋) <property> <name></name></property>…
今回は以前のエントリの続編です。 JSON形式のデータをDrill - すだちっこのOrdinary Days @nagixさんのエントリを参考にさせて頂きました。 ネスト構造のJSONデータにApache Drillで直接SQLクエリをかける - nagix 環境準備 Apache Drillのバージョンは0.7.…
このエントリはSpark, SQL on Hadoop etc. Advent Calendar 2014 - Qiitaの13日目の記事です。 Apache Drillとは SQL分散クエリエンジンです。 標準SQLサポートや様々なデータソースへの接続などの特徴があります。 今回は特徴の一つである”スキーマレスデー…
Hadoopディストリビューターの一つMapRをインストールして試してみました。 前回はSandBox版を試したのですが、今回は実際に物理サーバーにインストールしてみました。 MapRのエディションは下記3つあります。 ・コミュニティ(旧M3) ・エンタープライズ(…
今回はApache Drillを試してみました。 Apache Drillとは SQLクエリエンジンの一つです(ImpalaやPrestoと同じ) 特徴の一つとしてスキーマレスなデータに対してクエリの実行が可能です あとはSQLライクではなくANSI SQLであることも特徴の一つです 詳しくは…
Hadoopディストリビューターの一つMapRをインストールして試してみました。 今回はSandBox版です。 MapRのアーキテクチャはこちらを参照してください。 セットアップ こちらからVirtualBox版をダウンロードします。 登録が必要になります。 ファイル→仮想ア…
OpenDaylight Heliumがリリースされたのでインストールしました。 Hydrogenのインストールはこちら 事前準備 Ubuntuのダウンロードは こちらから 今回はUbuntu14.04 Serverを使用します。 VirtualBoxにインストールしておきます。 インストール 【参考】 Ope…
今回はTableau DesktopでCloudera CDHに接続する方法をまとめます。 Tableauとは BIツールの一つで簡単な操作でデータを分析することが出来ます。 詳しくはこちら 特徴の一つとして ExcelからMySQL、Amazon Redshift、Google BigQuery等、様々なデータソース…
Hive(YARN)とImpalaとSPARKを行数カウントで比較してみました。 それぞれ特性があるので比較するのはどうかと思うのですが、今回は目安として測定してみました。 環境 マスター1台、スレーブ2台の3台構成です。 今回もCloudera Managerでさくっと構築しま…
前回の記事でSparkをインストールしたので今回はSparkを実行してみます。 spark-shell spark-shellはScalaでインタラクティブにSparkを実行する事が出来ます。 $ spark-shell Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/…
CDH5にSparkをインストールしました。 Sparkとは Spark 分散処理をメモリで行うため、Hadoop(MapReduce)よりも高速に処理が出来る分散処理基盤です。 検証構成 Master 1台 Worker 2台 ※同一マシン上にCDH5でHDFSとYARNをインストール済み インストール こ…
Prestoを試してみたのでまとめておきます。 Prestoとは Presto Facebookが開発したSQLクエリエンジンです。 HDFS上のデータに対してSQLで処理が出来ます。 HiveでもSQLライクに処理は出来るのですがHiveはMapReduceで動作する為、処理が遅く PrestoはMapRedc…
CDHを構築/運用してナレッジも溜まってきたのでCCAHを受けてみようかと思い調べました。 CCAH認定試験種類 CDH4のCCA-410 CDH5のCCA-500、UpgradeのCCA-505があります。 (2014年7月現在) CCA-410は日本語で受験出来ます。 (2014年7月現在) CCA-410から受…
今回はZabbixでHadoopを監視する方法です。 Gangliaでの監視が一般的ですが、Zabbixでやってみました。 前回のエントリでも書きましたがHadoopはjmxでメトリクスを取得出来ます。 なのでZabbix Java Gatewayでjmx監視を行いました。 今回も例としてNameNode…
jmxで取得したメトリクスからHDFSの使用量をグラフ化してみました。 jmxでメトリクス取得 Hadoopはブラウザでhttp://xxxxx/jmxにアクセスするとメトリクスを取得できます。 HDFSの使用量を取得したいのでNameNodeのメトリクスを取得します。 https://NameNod…
今回はHiveとImpalaをHueから比較してみました。 サンプルデータから検証用テーブルを作成し、クエリを実行するまでです。 Hueの構築はこちら 検証用テーブル作成(CSVファイルからテーブル作成) ■事前準備 ・サンプルデータダウンロード データは郵便番号…