Hortonworks HCA合格

HortonworksのHCAを受けてみました。 HCA Certification - Hortonworks 勉強方法 hadoopの知識はある程度あるので公式サイトのExam Objectivesのリンク先を一通り見て概要を再確認しました。 https://2xbbhjxc6wk3v21p62t8n4d4-wpengine.netdna-ssl.com/wp-c…

Apache nifi ローカルファイル_to_Database

前回はインストールと簡単な動作確認を行いました。 kashigeru.hatenablog.com 今回はローカルのファイルからDATABASE(PosgreSQL)へデータを移行してみます。 設定 まず[GetFile][ConvertJSONToSQL][PutSQL]を配置します。 1.[GetFile]を設定しま…

Apache nifiのインストールと簡単な動作確認

今回はApache nifiのインストールと簡単な動作確認を行ってみます。 Apache nifiとはシステム間のデータフローを自動化するために作られたツールです。 Apache NiFi なんかよく理解出来ないのでとりあえずやってみよう。 インストール Apache NiFi Downloads…

Apache Ambariを試してみる

今回はApache AmbariでHDPをインストールしてみました。 AmbariはHadoopの管理ツールでHortonWorksのHDPクラスタが簡単に構築出来ます。 ClouderaでいうClouderaManager的なものです。 構成 Server(管理コンソール)1台 Agent(HDPクラスタホスト)5台 事前…

HP VerticaでConnector for HDFSを試してみる

HP Vertica Club - 概要 | 日本HPh50146.www5.hp.com Verticaは前回のGreenPlum同様にカラムナーDBです。 Masterレスアーキテクチャというのが特徴のようです。 詳しくは上記を。 今回はCommunity Editionをインストールしました。 3ノードクラスター、1Tbyt…

GreenPlumをインストールする

GreenPlumがオープンソース化されるという事で早速インストールしてみました。 Pivotal Introduces World’s First Open Source-based, Enterprise-Class Big Data Product Suite | Press Release pivotal.io GreenPlumはMaster-Slaveのアーキテクチャです。 …

HDFSとSparkの連携

SparkでHDFS上のデータを分析し結果を再度HDFS上に保存するまでの備忘録です。 環境 HDFSはCDH5.3.2 SparkはHDFSクラスタとは別で用意 StandAloneモードでインストールしました。 サンプルデータ Generate Test Data - Amazon Elastic MapReduceから作成 こ…

NameNodeをKeepalivedでVIP化する

NameNodeをKeepalivedでVIP化した話です。 NameNodeHAを組んでHadoop-Clientを設定すればあまり必要はないのですが。 必要に迫られ設定したので残しておきます。 構成 CDH5.2.1(NameNodeHA構成) Keepalived1.2.13 CentOS6.6 NameNode(nn001とnn002)にKee…

CDHでHDFSのスナップショットを試す

CDHでHDFSのスナップショットを試してみました。 誤ってファイルを削除してもスナップショットを取得しておけば復元する事が出来ます。 Apache Hadoop 2.5.0-cdh5.3.2 - HDFS Snapshots 環境 CDH5.3.2 スナップショット対象 /user/Snaptestディレクトリをス…

GlusterFSをインストール_クライアントでマウント

前回インストールが完了したので今回はクライアントでVolumeをマウントしてみます。 GlusterFSをインストール - すだちっこのOrdinary Days GlusterFSクライアント設定 インストール [root@client ~]# yum install glusterfs glusterfs-fuse マウント用ディ…

GlusterFSをインストール

とあるシステムを構築中にNFSサーバーで設定ファイルを共有する必要がありました。 NFSサーバーがシングルポイントになるのでLinux-HAをと思ってたのですが、GlusterFSで簡単に出来そうだったので構築してみました。 GlusterFSとは オープンソースの分散ファ…

NFSv3 Gatewayのインストール

CDH5.2でNFSv3 Gatewayを試してみました。 インストール $ sudo yum install nfs-utils nfs-utils-lib hadoop-hdfs-nfs3 確認 $ sudo yum list installed | grep hdfs-nfs3 hadoop-hdfs-nfs3.x86_64 2.5.0+cdh5.2.1+578-1.cdh5.2.1.p0.14.el6 @cloudera-cdh5…

NameNodeHA構成時のFluentd動作確認

今回はNameNodeHA構成時にFluentdを使ってデータをアップロードする際の動作確認です。 環境 CDH5.2を使用しHAは下記の構成で組みました。 Namenode2台 JournalNode1台 NameNodeHAの設定は下記を参照してください。 HDFS High Availability Webhdfs設定 HDFS…

NameNodeHA構成時のFencingMethod動作確認

今回はNameNodeHA構成時のFencingMethodの動作をログから確認してみます。 環境 CDH5.2を使用しHAは下記の構成で組みました。 Namenode2台 JournalNode1台 NameNodeHAの設定は下記を参照してください。 HDFS High Availability hdfs-site.xmlの設定(抜粋) <property> <name></name></property>…

JSON形式のデータをもう少し深くDrill

今回は以前のエントリの続編です。 JSON形式のデータをDrill - すだちっこのOrdinary Days @nagixさんのエントリを参考にさせて頂きました。 ネスト構造のJSONデータにApache Drillで直接SQLクエリをかける - nagix 環境準備 Apache Drillのバージョンは0.7.…

JSON形式のデータをDrill

このエントリはSpark, SQL on Hadoop etc. Advent Calendar 2014 - Qiitaの13日目の記事です。 Apache Drillとは SQL分散クエリエンジンです。 標準SQLサポートや様々なデータソースへの接続などの特徴があります。 今回は特徴の一つである”スキーマレスデー…

MapRをインストールしてみた

Hadoopディストリビューターの一つMapRをインストールして試してみました。 前回はSandBox版を試したのですが、今回は実際に物理サーバーにインストールしてみました。 MapRのエディションは下記3つあります。 ・コミュニティ(旧M3) ・エンタープライズ(…

Apache Drillを試してみた

今回はApache Drillを試してみました。 Apache Drillとは SQLクエリエンジンの一つです(ImpalaやPrestoと同じ) 特徴の一つとしてスキーマレスなデータに対してクエリの実行が可能です あとはSQLライクではなくANSI SQLであることも特徴の一つです 詳しくは…

MapR SandBox版を試してみた

Hadoopディストリビューターの一つMapRをインストールして試してみました。 今回はSandBox版です。 MapRのアーキテクチャはこちらを参照してください。 セットアップ こちらからVirtualBox版をダウンロードします。 登録が必要になります。 ファイル→仮想ア…

Ubuntu14.04にOpenDaylight Heliumをインストール

OpenDaylight Heliumがリリースされたのでインストールしました。 Hydrogenのインストールはこちら 事前準備 Ubuntuのダウンロードは こちらから 今回はUbuntu14.04 Serverを使用します。 VirtualBoxにインストールしておきます。 インストール 【参考】 Ope…

Tableau DesktopでCloudera CDHに接続する

今回はTableau DesktopでCloudera CDHに接続する方法をまとめます。 Tableauとは BIツールの一つで簡単な操作でデータを分析することが出来ます。 詳しくはこちら 特徴の一つとして ExcelからMySQL、Amazon Redshift、Google BigQuery等、様々なデータソース…

Hive(YARN)/Impala/SPARKを行数カウントで比較してみる

Hive(YARN)とImpalaとSPARKを行数カウントで比較してみました。 それぞれ特性があるので比較するのはどうかと思うのですが、今回は目安として測定してみました。 環境 マスター1台、スレーブ2台の3台構成です。 今回もCloudera Managerでさくっと構築しま…

Sparkを実行してみる

前回の記事でSparkをインストールしたので今回はSparkを実行してみます。 spark-shell spark-shellはScalaでインタラクティブにSparkを実行する事が出来ます。 $ spark-shell Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/…

CDH5にSparkをインストール

CDH5にSparkをインストールしました。 Sparkとは Spark 分散処理をメモリで行うため、Hadoop(MapReduce)よりも高速に処理が出来る分散処理基盤です。 検証構成 Master 1台 Worker 2台 ※同一マシン上にCDH5でHDFSとYARNをインストール済み インストール こ…

Prestoを試してみた

Prestoを試してみたのでまとめておきます。 Prestoとは Presto Facebookが開発したSQLクエリエンジンです。 HDFS上のデータに対してSQLで処理が出来ます。 HiveでもSQLライクに処理は出来るのですがHiveはMapReduceで動作する為、処理が遅く PrestoはMapRedc…

Cloudera Apache Hadoop 認定管理者 (CCAH)について

CDHを構築/運用してナレッジも溜まってきたのでCCAHを受けてみようかと思い調べました。 CCAH認定試験種類 CDH4のCCA-410 CDH5のCCA-500、UpgradeのCCA-505があります。 (2014年7月現在) CCA-410は日本語で受験出来ます。 (2014年7月現在) CCA-410から受…

HadoopをZabbixで監視する

今回はZabbixでHadoopを監視する方法です。 Gangliaでの監視が一般的ですが、Zabbixでやってみました。 前回のエントリでも書きましたがHadoopはjmxでメトリクスを取得出来ます。 なのでZabbix Java Gatewayでjmx監視を行いました。 今回も例としてNameNode…

jmxで取得したメトリクスからグラフを描画

jmxで取得したメトリクスからHDFSの使用量をグラフ化してみました。 jmxでメトリクス取得 Hadoopはブラウザでhttp://xxxxx/jmxにアクセスするとメトリクスを取得できます。 HDFSの使用量を取得したいのでNameNodeのメトリクスを取得します。 https://NameNod…

HiveとImpalaをHueから試す

今回はHiveとImpalaをHueから比較してみました。 サンプルデータから検証用テーブルを作成し、クエリを実行するまでです。 Hueの構築はこちら 検証用テーブル作成(CSVファイルからテーブル作成) ■事前準備 ・サンプルデータダウンロード データは郵便番号…

Cisco CSR1000VでREST API

今回はCiscoのCSR1000VでREST APIを試してみました。 ダウンロードは こちらから。 インストールは こちらから。 CSR1000V設定 Configuring Support for Management Using the REST API 設定 Router(config)#interface virtualportGroup 0 Router(config-if)…