Cloudera

HDFSとSparkの連携

SparkでHDFS上のデータを分析し結果を再度HDFS上に保存するまでの備忘録です。 環境 HDFSはCDH5.3.2 SparkはHDFSクラスタとは別で用意 StandAloneモードでインストールしました。 サンプルデータ Generate Test Data - Amazon Elastic MapReduceから作成 こ…

NameNodeをKeepalivedでVIP化する

NameNodeをKeepalivedでVIP化した話です。 NameNodeHAを組んでHadoop-Clientを設定すればあまり必要はないのですが。 必要に迫られ設定したので残しておきます。 構成 CDH5.2.1(NameNodeHA構成) Keepalived1.2.13 CentOS6.6 NameNode(nn001とnn002)にKee…

CDHでHDFSのスナップショットを試す

CDHでHDFSのスナップショットを試してみました。 誤ってファイルを削除してもスナップショットを取得しておけば復元する事が出来ます。 Apache Hadoop 2.5.0-cdh5.3.2 - HDFS Snapshots 環境 CDH5.3.2 スナップショット対象 /user/Snaptestディレクトリをス…

NFSv3 Gatewayのインストール

CDH5.2でNFSv3 Gatewayを試してみました。 インストール $ sudo yum install nfs-utils nfs-utils-lib hadoop-hdfs-nfs3 確認 $ sudo yum list installed | grep hdfs-nfs3 hadoop-hdfs-nfs3.x86_64 2.5.0+cdh5.2.1+578-1.cdh5.2.1.p0.14.el6 @cloudera-cdh5…

NameNodeHA構成時のFluentd動作確認

今回はNameNodeHA構成時にFluentdを使ってデータをアップロードする際の動作確認です。 環境 CDH5.2を使用しHAは下記の構成で組みました。 Namenode2台 JournalNode1台 NameNodeHAの設定は下記を参照してください。 HDFS High Availability Webhdfs設定 HDFS…

NameNodeHA構成時のFencingMethod動作確認

今回はNameNodeHA構成時のFencingMethodの動作をログから確認してみます。 環境 CDH5.2を使用しHAは下記の構成で組みました。 Namenode2台 JournalNode1台 NameNodeHAの設定は下記を参照してください。 HDFS High Availability hdfs-site.xmlの設定(抜粋) <property> <name></name></property>…

Tableau DesktopでCloudera CDHに接続する

今回はTableau DesktopでCloudera CDHに接続する方法をまとめます。 Tableauとは BIツールの一つで簡単な操作でデータを分析することが出来ます。 詳しくはこちら 特徴の一つとして ExcelからMySQL、Amazon Redshift、Google BigQuery等、様々なデータソース…

Cloudera Apache Hadoop 認定管理者 (CCAH)について

CDHを構築/運用してナレッジも溜まってきたのでCCAHを受けてみようかと思い調べました。 CCAH認定試験種類 CDH4のCCA-410 CDH5のCCA-500、UpgradeのCCA-505があります。 (2014年7月現在) CCA-410は日本語で受験出来ます。 (2014年7月現在) CCA-410から受…

HiveとImpalaをHueから試す

今回はHiveとImpalaをHueから比較してみました。 サンプルデータから検証用テーブルを作成し、クエリを実行するまでです。 Hueの構築はこちら 検証用テーブル作成(CSVファイルからテーブル作成) ■事前準備 ・サンプルデータダウンロード データは郵便番号…

Hadoopをインストール_CDH5版

今回は検証環境用にCDH5をインストールしてみます。 JAVAのインストール等の事前準備は完了してます。 事前準備はこちらを参照してください。 インストール インストールガイドはこちら まずはレポジトリを登録します。 # vim /etc/yum.repos.d/cloudera-cdh…

Hadoop LZO圧縮環境構築

HadoopでLZO圧縮環境の構築手順を残しておきます。 圧縮することでディスク容量の節約やJobの処理時間が向上します。 必要なパッケージのインストール $ yum install -y git $ yum install -y lzo-devel lzop $ yum install -y ant $ yum install -y ant-nod…

Hadoopをインストール_Cloudera Manager版

今回はCloudera Managerで手軽にインストールします。 コミュニティ版のインストール手順はこちら Cloudera Manager Serverのインストール 構成は下記のとおり Cloudera Manager Server 1台 Cloudera Manager Agent 20台 まずはCloudera Manager Serverをイ…