Apache nifi ローカルファイル_to_Database

前回はインストールと簡単な動作確認を行いました。 kashigeru.hatenablog.com 今回はローカルのファイルからDATABASE(PosgreSQL)へデータを移行してみます。 設定 まず[GetFile][ConvertJSONToSQL][PutSQL]を配置します。 1.[GetFile]を設定しま…

Apache nifiのインストールと簡単な動作確認

今回はApache nifiのインストールと簡単な動作確認を行ってみます。 Apache nifiとはシステム間のデータフローを自動化するために作られたツールです。 Apache NiFi なんかよく理解出来ないのでとりあえずやってみよう。 インストール Apache NiFi Downloads…

Apache Ambariを試してみる

今回はApache AmbariでHDPをインストールしてみました。 AmbariはHadoopの管理ツールでHortonWorksのHDPクラスタが簡単に構築出来ます。 ClouderaでいうClouderaManager的なものです。 構成 Server(管理コンソール)1台 Agent(HDPクラスタホスト)5台 事前…

HP VerticaでConnector for HDFSを試してみる

HP Vertica Club - 概要 | 日本HPh50146.www5.hp.com Verticaは前回のGreenPlum同様にカラムナーDBです。 Masterレスアーキテクチャというのが特徴のようです。 詳しくは上記を。 今回はCommunity Editionをインストールしました。 3ノードクラスター、1Tbyt…

GreenPlumをインストールする

GreenPlumがオープンソース化されるという事で早速インストールしてみました。 Pivotal Introduces World’s First Open Source-based, Enterprise-Class Big Data Product Suite | Press Release pivotal.io GreenPlumはMaster-Slaveのアーキテクチャです。 …

HDFSとSparkの連携

SparkでHDFS上のデータを分析し結果を再度HDFS上に保存するまでの備忘録です。 環境 HDFSはCDH5.3.2 SparkはHDFSクラスタとは別で用意 StandAloneモードでインストールしました。 サンプルデータ Generate Test Data - Amazon Elastic MapReduceから作成 こ…

NameNodeをKeepalivedでVIP化する

NameNodeをKeepalivedでVIP化した話です。 NameNodeHAを組んでHadoop-Clientを設定すればあまり必要はないのですが。 必要に迫られ設定したので残しておきます。 構成 CDH5.2.1(NameNodeHA構成) Keepalived1.2.13 CentOS6.6 NameNode(nn001とnn002)にKee…

CDHでHDFSのスナップショットを試す

CDHでHDFSのスナップショットを試してみました。 誤ってファイルを削除してもスナップショットを取得しておけば復元する事が出来ます。 Apache Hadoop 2.5.0-cdh5.3.2 - HDFS Snapshots 環境 CDH5.3.2 スナップショット対象 /user/Snaptestディレクトリをス…

GlusterFSをインストール_クライアントでマウント

前回インストールが完了したので今回はクライアントでVolumeをマウントしてみます。 GlusterFSをインストール - すだちっこのOrdinary Days GlusterFSクライアント設定 インストール [root@client ~]# yum install glusterfs glusterfs-fuse マウント用ディ…

GlusterFSをインストール

とあるシステムを構築中にNFSサーバーで設定ファイルを共有する必要がありました。 NFSサーバーがシングルポイントになるのでLinux-HAをと思ってたのですが、GlusterFSで簡単に出来そうだったので構築してみました。 GlusterFSとは オープンソースの分散ファ…

NFSv3 Gatewayのインストール

CDH5.2でNFSv3 Gatewayを試してみました。 インストール $ sudo yum install nfs-utils nfs-utils-lib hadoop-hdfs-nfs3 確認 $ sudo yum list installed | grep hdfs-nfs3 hadoop-hdfs-nfs3.x86_64 2.5.0+cdh5.2.1+578-1.cdh5.2.1.p0.14.el6 @cloudera-cdh5…

NameNodeHA構成時のFluentd動作確認

今回はNameNodeHA構成時にFluentdを使ってデータをアップロードする際の動作確認です。 環境 CDH5.2を使用しHAは下記の構成で組みました。 Namenode2台 JournalNode1台 NameNodeHAの設定は下記を参照してください。 HDFS High Availability Webhdfs設定 HDFS…

NameNodeHA構成時のFencingMethod動作確認

今回はNameNodeHA構成時のFencingMethodの動作をログから確認してみます。 環境 CDH5.2を使用しHAは下記の構成で組みました。 Namenode2台 JournalNode1台 NameNodeHAの設定は下記を参照してください。 HDFS High Availability hdfs-site.xmlの設定(抜粋) <property> <name></name></property>…

JSON形式のデータをもう少し深くDrill

今回は以前のエントリの続編です。 JSON形式のデータをDrill - すだちっこのOrdinary Days @nagixさんのエントリを参考にさせて頂きました。 ネスト構造のJSONデータにApache Drillで直接SQLクエリをかける - nagix 環境準備 Apache Drillのバージョンは0.7.…

JSON形式のデータをDrill

このエントリはSpark, SQL on Hadoop etc. Advent Calendar 2014 - Qiitaの13日目の記事です。 Apache Drillとは SQL分散クエリエンジンです。 標準SQLサポートや様々なデータソースへの接続などの特徴があります。 今回は特徴の一つである”スキーマレスデー…

MapRをインストールしてみた

Hadoopディストリビューターの一つMapRをインストールして試してみました。 前回はSandBox版を試したのですが、今回は実際に物理サーバーにインストールしてみました。 MapRのエディションは下記3つあります。 ・コミュニティ(旧M3) ・エンタープライズ(…

Apache Drillを試してみた

今回はApache Drillを試してみました。 Apache Drillとは SQLクエリエンジンの一つです(ImpalaやPrestoと同じ) 特徴の一つとしてスキーマレスなデータに対してクエリの実行が可能です あとはSQLライクではなくANSI SQLであることも特徴の一つです 詳しくは…

MapR SandBox版を試してみた

Hadoopディストリビューターの一つMapRをインストールして試してみました。 今回はSandBox版です。 MapRのアーキテクチャはこちらを参照してください。 セットアップ こちらからVirtualBox版をダウンロードします。 登録が必要になります。 ファイル→仮想ア…

Ubuntu14.04にOpenDaylight Heliumをインストール

OpenDaylight Heliumがリリースされたのでインストールしました。 Hydrogenのインストールはこちら 事前準備 Ubuntuのダウンロードは こちらから 今回はUbuntu14.04 Serverを使用します。 VirtualBoxにインストールしておきます。 インストール 【参考】 Ope…

Tableau DesktopでCloudera CDHに接続する

今回はTableau DesktopでCloudera CDHに接続する方法をまとめます。 Tableauとは BIツールの一つで簡単な操作でデータを分析することが出来ます。 詳しくはこちら 特徴の一つとして ExcelからMySQL、Amazon Redshift、Google BigQuery等、様々なデータソース…

Hive(YARN)/Impala/SPARKを行数カウントで比較してみる

Hive(YARN)とImpalaとSPARKを行数カウントで比較してみました。 それぞれ特性があるので比較するのはどうかと思うのですが、今回は目安として測定してみました。 環境 マスター1台、スレーブ2台の3台構成です。 今回もCloudera Managerでさくっと構築しま…

Sparkを実行してみる

前回の記事でSparkをインストールしたので今回はSparkを実行してみます。 spark-shell spark-shellはScalaでインタラクティブにSparkを実行する事が出来ます。 $ spark-shell Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/…

CDH5にSparkをインストール

CDH5にSparkをインストールしました。 Sparkとは Spark 分散処理をメモリで行うため、Hadoop(MapReduce)よりも高速に処理が出来る分散処理基盤です。 検証構成 Master 1台 Worker 2台 ※同一マシン上にCDH5でHDFSとYARNをインストール済み インストール こ…

Prestoを試してみた

Prestoを試してみたのでまとめておきます。 Prestoとは Presto Facebookが開発したSQLクエリエンジンです。 HDFS上のデータに対してSQLで処理が出来ます。 HiveでもSQLライクに処理は出来るのですがHiveはMapReduceで動作する為、処理が遅く PrestoはMapRedc…

Cloudera Apache Hadoop 認定管理者 (CCAH)について

CDHを構築/運用してナレッジも溜まってきたのでCCAHを受けてみようかと思い調べました。 CCAH認定試験種類 CDH4のCCA-410 CDH5のCCA-500、UpgradeのCCA-505があります。 (2014年7月現在) CCA-410は日本語で受験出来ます。 (2014年7月現在) CCA-410から受…

HadoopをZabbixで監視する

今回はZabbixでHadoopを監視する方法です。 Gangliaでの監視が一般的ですが、Zabbixでやってみました。 前回のエントリでも書きましたがHadoopはjmxでメトリクスを取得出来ます。 なのでZabbix Java Gatewayでjmx監視を行いました。 今回も例としてNameNode…

jmxで取得したメトリクスからグラフを描画

jmxで取得したメトリクスからHDFSの使用量をグラフ化してみました。 jmxでメトリクス取得 Hadoopはブラウザでhttp://xxxxx/jmxにアクセスするとメトリクスを取得できます。 HDFSの使用量を取得したいのでNameNodeのメトリクスを取得します。 https://NameNod…

HiveとImpalaをHueから試す

今回はHiveとImpalaをHueから比較してみました。 サンプルデータから検証用テーブルを作成し、クエリを実行するまでです。 Hueの構築はこちら 検証用テーブル作成(CSVファイルからテーブル作成) ■事前準備 ・サンプルデータダウンロード データは郵便番号…

Cisco CSR1000VでREST API

今回はCiscoのCSR1000VでREST APIを試してみました。 ダウンロードは こちらから。 インストールは こちらから。 CSR1000V設定 Configuring Support for Management Using the REST API 設定 Router(config)#interface virtualportGroup 0 Router(config-if)…

DDoS攻撃をみてみよう_Digital Attacks Map

去年Arborからメールが着て見たのですが、既に公開されていたので紹介します。 Digital Attacks Map 世界中で発生しているDDoS攻撃をリアルタイムに見ることが出来ます。 といってもArborが収集してるデータだけしか見ることが出来ないのかな。 Digital Atta…

OpenDaylight Hydrogenでロードバランシング

今回はHydrogenでロードバランシングをやってみます。 参考:OpenDaylight Controller:Load Balancer Service すべての設定はREST API経由で行います。 準備 mininetでスイッチ1台、ホスト4台を起動します。 mn --topo=tree,1,4 --controller=remote 今回は…

Hadoopをインストール_HDP Sandbox版

今回はHortonworksのHDPをインストールしてみました。 単なる紹介エントリです。 こちらからVirtualBox版をダウンロードしました。 セットアップ 今回ダウンロードしたovaファイル Hortonworks_Sandbox_2.1.ova VirtualBoxを起動して先ほどのファイルをイン…

Hadoopをインストール_CDH5版

今回は検証環境用にCDH5をインストールしてみます。 JAVAのインストール等の事前準備は完了してます。 事前準備はこちらを参照してください。 インストール インストールガイドはこちら まずはレポジトリを登録します。 # vim /etc/yum.repos.d/cloudera-cdh…

Hadoop運用あれこれ

今回はHadoopを運用してみてのメモです。 エラー系 ■The reduce copier failed ログ java.io.IOException: Task: attempt_xxxxxx - The reduce copier failed at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:380) at org.apache.hadoop.mapred…

Brocade VDXでロジカルシャーシ

今回はBrocadeのVDXシリーズでロジカルシャーシを設定してみたメモ ロジカルシャーシについて VDXシリーズといえばVCSですが、これまではVCSを組んでもそれぞれの機器にログインしてそれぞれ設定する必要があり面倒でした(コンフィグ管理の面でも) しかしN…

Hadoop LZO圧縮環境構築

HadoopでLZO圧縮環境の構築手順を残しておきます。 圧縮することでディスク容量の節約やJobの処理時間が向上します。 必要なパッケージのインストール $ yum install -y git $ yum install -y lzo-devel lzop $ yum install -y ant $ yum install -y ant-nod…

セキュリティレポートまとめ

各セキュリティベンダーが出しているセキュリティレポートのまとめです セキュリティベンダー Arbor ワールドワイド・インフラストラクチャ・セキュリティ・レポート2013 第9版 http://www.arbornetworks.com/jp/images/dm_documents/WISR2014%20Jan14_JP%20…

Hadoopをインストール_Cloudera Manager版

今回はCloudera Managerで手軽にインストールします。 コミュニティ版のインストール手順はこちら Cloudera Manager Serverのインストール 構成は下記のとおり Cloudera Manager Server 1台 Cloudera Manager Agent 20台 まずはCloudera Manager Serverをイ…

Cisco onePKを試す_プログラム実行編

前回のエントリでonePKを試すためのセットアップは完了しました。 今回は実際にプログラムを動かしてみます。 All-in-One-VMの構成 Router3台とVM(Ubuntu)の構成は下記のようになっています。 各ルータへのログインは下記のとおりです。 Router1 Console:t…

Cisco onePKを試す_セットアップ編

Cisco OnePKを試してみたので残しておきます。 今回はセットアップ編です。 onePKとは こちらにあるとおりAPIを使って機器を操作したり情報を取得できるツールです。 実機がないので今回はCisco DevNetからAll-in-One-VMをダウンロードして試します。 Cisco …

FireWallを考える

ネットワークを運用しているとFireWallって本当に必要なのか?と思うことがあります。 FireWallが入ってるというだけで安心だと思うのはもう止めましょうという話です。 FireWallでやっていること ・IPアドレス/ポート番号/プロトコルでのフィルタリング ・I…

Hue_HDFSをGUIで操作_その2

前回のエントリではHueをインストールしてセットアップするところで終了しました。 今回はセットアップしたHueでHDFSを操作してみます。 ファイル新規作成 右上の”New”からファイルを選択します。 ファイル名(sudati2)を入力し、”Create”をクリック 作成し…

Hue_HDFSをGUIで操作_その1

Hadoop(HDFS)は基本的にはCLIで操作するのですが、GUIのツールもあります。 今回はGUIツール紹介です。 Hueとは オープンソースのHadoop GUIです。読み方は”ヒュー” HDFS操作の他、HiveのQueryEditerやPigのEditerとしても動作します。 詳しくはこちらを参…

MapReduceを試してみる_wordcount

今回はHadoopの分散処理MapReduceを試してみます。 サンプルプログラムの確認 あらかじめサンプルプログラムが複数用意されているので確認してみます。 サンプルプログラムは”hadoop-examples-1.2.1.jar”です。 [hadoop@localhost hadoop-1.2.1]$ hadoop jar…

Hadoopコマンドリファレンス(HDFS操作)

今回はHDFSを操作する為のHadoopコマンドリファレンスです。 hadoop fsコマンドを使用します。 ※資料によってはhadoop dfsという書き方もあるのですが、同等みたいです。 mkdir(ディレクトリ作成) [hadoop@localhost ~]$ hadoop fs -mkdir sudati ls/lsr(…

CiscoルータでSYN-Floodを回避

今回はセキュリティ関連。 CiscoルータにはSYN-floodを回避するために、"tcp intercept"というコマンドがあります。 SYN-Flood攻撃の場合攻撃を受けている側はhalfオープンが大量に発生します。 "tcp intercept"はhalfオープンを検知して様々なアクションを…

Hadoopをインストール_コミュニティ版_擬似分散モード設定編

前回のエントリでインストールは完了したので 今回は設定して起動してみます。 1台でHDFSのNamenode/DatanodeとMapReduceのJobTracker/TaskTrackerを動かす 擬似分散モードで起動させます。 設定 下記4ファイルを設定します。 /usr/local/hadoop-1.2.1/conf/…

Hadoopをインストール_コミュニティ版

タイトルどおり、Hadoopをインストールしてみました。 まとめとして手順を残しておきます。 今回はコミュニティ版です。 どのバージョンを使えばいいのか いざインストールと思ったのですが、サイトを見ると様々なバージョンがあります。 0.23、1.2、2.0、2.…

OpenDaylight Hydrogenを試す_Flow操作編

前回のエントリではHydrogenを試す為に環境を構築しました。 今回はHydrogenで実際にFlowを操作してみます。 Mininet起動 ホスト4台、スイッチ3台を起動させます。 # mn --controller=remote --topo tree,2 --switch ovsk,protocols=OpenFlow13 *** Creating…

OpenDaylight Hydrogenを試す_環境構築編

前回のエントリではHydrogenのインストール方法について書きました。 今回はHydrogenで色々試してみたいのでOpenflow環境を構築します。 VirtualBOXの仮想マシン1台ですべて行います。 OSはUbuntu13.04です。 HydrogenはService Provider版を使用します。 Mi…