hadoop

Apache nifiのインストールと簡単な動作確認

今回はApache nifiのインストールと簡単な動作確認を行ってみます。 Apache nifiとはシステム間のデータフローを自動化するために作られたツールです。 Apache NiFi なんかよく理解出来ないのでとりあえずやってみよう。 インストール Apache NiFi Downloads…

Apache Ambariを試してみる

今回はApache AmbariでHDPをインストールしてみました。 AmbariはHadoopの管理ツールでHortonWorksのHDPクラスタが簡単に構築出来ます。 ClouderaでいうClouderaManager的なものです。 構成 Server(管理コンソール)1台 Agent(HDPクラスタホスト)5台 事前…

HDFSとSparkの連携

SparkでHDFS上のデータを分析し結果を再度HDFS上に保存するまでの備忘録です。 環境 HDFSはCDH5.3.2 SparkはHDFSクラスタとは別で用意 StandAloneモードでインストールしました。 サンプルデータ Generate Test Data - Amazon Elastic MapReduceから作成 こ…

NameNodeをKeepalivedでVIP化する

NameNodeをKeepalivedでVIP化した話です。 NameNodeHAを組んでHadoop-Clientを設定すればあまり必要はないのですが。 必要に迫られ設定したので残しておきます。 構成 CDH5.2.1(NameNodeHA構成) Keepalived1.2.13 CentOS6.6 NameNode(nn001とnn002)にKee…

CDHでHDFSのスナップショットを試す

CDHでHDFSのスナップショットを試してみました。 誤ってファイルを削除してもスナップショットを取得しておけば復元する事が出来ます。 Apache Hadoop 2.5.0-cdh5.3.2 - HDFS Snapshots 環境 CDH5.3.2 スナップショット対象 /user/Snaptestディレクトリをス…

NFSv3 Gatewayのインストール

CDH5.2でNFSv3 Gatewayを試してみました。 インストール $ sudo yum install nfs-utils nfs-utils-lib hadoop-hdfs-nfs3 確認 $ sudo yum list installed | grep hdfs-nfs3 hadoop-hdfs-nfs3.x86_64 2.5.0+cdh5.2.1+578-1.cdh5.2.1.p0.14.el6 @cloudera-cdh5…

NameNodeHA構成時のFluentd動作確認

今回はNameNodeHA構成時にFluentdを使ってデータをアップロードする際の動作確認です。 環境 CDH5.2を使用しHAは下記の構成で組みました。 Namenode2台 JournalNode1台 NameNodeHAの設定は下記を参照してください。 HDFS High Availability Webhdfs設定 HDFS…

NameNodeHA構成時のFencingMethod動作確認

今回はNameNodeHA構成時のFencingMethodの動作をログから確認してみます。 環境 CDH5.2を使用しHAは下記の構成で組みました。 Namenode2台 JournalNode1台 NameNodeHAの設定は下記を参照してください。 HDFS High Availability hdfs-site.xmlの設定(抜粋) <property> <name></name></property>…

JSON形式のデータをもう少し深くDrill

今回は以前のエントリの続編です。 JSON形式のデータをDrill - すだちっこのOrdinary Days @nagixさんのエントリを参考にさせて頂きました。 ネスト構造のJSONデータにApache Drillで直接SQLクエリをかける - nagix 環境準備 Apache Drillのバージョンは0.7.…

JSON形式のデータをDrill

このエントリはSpark, SQL on Hadoop etc. Advent Calendar 2014 - Qiitaの13日目の記事です。 Apache Drillとは SQL分散クエリエンジンです。 標準SQLサポートや様々なデータソースへの接続などの特徴があります。 今回は特徴の一つである”スキーマレスデー…

MapRをインストールしてみた

Hadoopディストリビューターの一つMapRをインストールして試してみました。 前回はSandBox版を試したのですが、今回は実際に物理サーバーにインストールしてみました。 MapRのエディションは下記3つあります。 ・コミュニティ(旧M3) ・エンタープライズ(…

Apache Drillを試してみた

今回はApache Drillを試してみました。 Apache Drillとは SQLクエリエンジンの一つです(ImpalaやPrestoと同じ) 特徴の一つとしてスキーマレスなデータに対してクエリの実行が可能です あとはSQLライクではなくANSI SQLであることも特徴の一つです 詳しくは…

MapR SandBox版を試してみた

Hadoopディストリビューターの一つMapRをインストールして試してみました。 今回はSandBox版です。 MapRのアーキテクチャはこちらを参照してください。 セットアップ こちらからVirtualBox版をダウンロードします。 登録が必要になります。 ファイル→仮想ア…

Tableau DesktopでCloudera CDHに接続する

今回はTableau DesktopでCloudera CDHに接続する方法をまとめます。 Tableauとは BIツールの一つで簡単な操作でデータを分析することが出来ます。 詳しくはこちら 特徴の一つとして ExcelからMySQL、Amazon Redshift、Google BigQuery等、様々なデータソース…

Hive(YARN)/Impala/SPARKを行数カウントで比較してみる

Hive(YARN)とImpalaとSPARKを行数カウントで比較してみました。 それぞれ特性があるので比較するのはどうかと思うのですが、今回は目安として測定してみました。 環境 マスター1台、スレーブ2台の3台構成です。 今回もCloudera Managerでさくっと構築しま…

Prestoを試してみた

Prestoを試してみたのでまとめておきます。 Prestoとは Presto Facebookが開発したSQLクエリエンジンです。 HDFS上のデータに対してSQLで処理が出来ます。 HiveでもSQLライクに処理は出来るのですがHiveはMapReduceで動作する為、処理が遅く PrestoはMapRedc…

Cloudera Apache Hadoop 認定管理者 (CCAH)について

CDHを構築/運用してナレッジも溜まってきたのでCCAHを受けてみようかと思い調べました。 CCAH認定試験種類 CDH4のCCA-410 CDH5のCCA-500、UpgradeのCCA-505があります。 (2014年7月現在) CCA-410は日本語で受験出来ます。 (2014年7月現在) CCA-410から受…

HadoopをZabbixで監視する

今回はZabbixでHadoopを監視する方法です。 Gangliaでの監視が一般的ですが、Zabbixでやってみました。 前回のエントリでも書きましたがHadoopはjmxでメトリクスを取得出来ます。 なのでZabbix Java Gatewayでjmx監視を行いました。 今回も例としてNameNode…

jmxで取得したメトリクスからグラフを描画

jmxで取得したメトリクスからHDFSの使用量をグラフ化してみました。 jmxでメトリクス取得 Hadoopはブラウザでhttp://xxxxx/jmxにアクセスするとメトリクスを取得できます。 HDFSの使用量を取得したいのでNameNodeのメトリクスを取得します。 https://NameNod…

HiveとImpalaをHueから試す

今回はHiveとImpalaをHueから比較してみました。 サンプルデータから検証用テーブルを作成し、クエリを実行するまでです。 Hueの構築はこちら 検証用テーブル作成(CSVファイルからテーブル作成) ■事前準備 ・サンプルデータダウンロード データは郵便番号…

Hadoopをインストール_HDP Sandbox版

今回はHortonworksのHDPをインストールしてみました。 単なる紹介エントリです。 こちらからVirtualBox版をダウンロードしました。 セットアップ 今回ダウンロードしたovaファイル Hortonworks_Sandbox_2.1.ova VirtualBoxを起動して先ほどのファイルをイン…

Hadoopをインストール_CDH5版

今回は検証環境用にCDH5をインストールしてみます。 JAVAのインストール等の事前準備は完了してます。 事前準備はこちらを参照してください。 インストール インストールガイドはこちら まずはレポジトリを登録します。 # vim /etc/yum.repos.d/cloudera-cdh…

Hadoop運用あれこれ

今回はHadoopを運用してみてのメモです。 エラー系 ■The reduce copier failed ログ java.io.IOException: Task: attempt_xxxxxx - The reduce copier failed at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:380) at org.apache.hadoop.mapred…

Hadoop LZO圧縮環境構築

HadoopでLZO圧縮環境の構築手順を残しておきます。 圧縮することでディスク容量の節約やJobの処理時間が向上します。 必要なパッケージのインストール $ yum install -y git $ yum install -y lzo-devel lzop $ yum install -y ant $ yum install -y ant-nod…

Hadoopをインストール_Cloudera Manager版

今回はCloudera Managerで手軽にインストールします。 コミュニティ版のインストール手順はこちら Cloudera Manager Serverのインストール 構成は下記のとおり Cloudera Manager Server 1台 Cloudera Manager Agent 20台 まずはCloudera Manager Serverをイ…

Hue_HDFSをGUIで操作_その2

前回のエントリではHueをインストールしてセットアップするところで終了しました。 今回はセットアップしたHueでHDFSを操作してみます。 ファイル新規作成 右上の”New”からファイルを選択します。 ファイル名(sudati2)を入力し、”Create”をクリック 作成し…

Hue_HDFSをGUIで操作_その1

Hadoop(HDFS)は基本的にはCLIで操作するのですが、GUIのツールもあります。 今回はGUIツール紹介です。 Hueとは オープンソースのHadoop GUIです。読み方は”ヒュー” HDFS操作の他、HiveのQueryEditerやPigのEditerとしても動作します。 詳しくはこちらを参…

MapReduceを試してみる_wordcount

今回はHadoopの分散処理MapReduceを試してみます。 サンプルプログラムの確認 あらかじめサンプルプログラムが複数用意されているので確認してみます。 サンプルプログラムは”hadoop-examples-1.2.1.jar”です。 [hadoop@localhost hadoop-1.2.1]$ hadoop jar…

Hadoopコマンドリファレンス(HDFS操作)

今回はHDFSを操作する為のHadoopコマンドリファレンスです。 hadoop fsコマンドを使用します。 ※資料によってはhadoop dfsという書き方もあるのですが、同等みたいです。 mkdir(ディレクトリ作成) [hadoop@localhost ~]$ hadoop fs -mkdir sudati ls/lsr(…

Hadoopをインストール_コミュニティ版_擬似分散モード設定編

前回のエントリでインストールは完了したので 今回は設定して起動してみます。 1台でHDFSのNamenode/DatanodeとMapReduceのJobTracker/TaskTrackerを動かす 擬似分散モードで起動させます。 設定 下記4ファイルを設定します。 /usr/local/hadoop-1.2.1/conf/…

Hadoopをインストール_コミュニティ版

タイトルどおり、Hadoopをインストールしてみました。 まとめとして手順を残しておきます。 今回はコミュニティ版です。 どのバージョンを使えばいいのか いざインストールと思ったのですが、サイトを見ると様々なバージョンがあります。 0.23、1.2、2.0、2.…