Spark

HDFSとSparkの連携

SparkでHDFS上のデータを分析し結果を再度HDFS上に保存するまでの備忘録です。 環境 HDFSはCDH5.3.2 SparkはHDFSクラスタとは別で用意 StandAloneモードでインストールしました。 サンプルデータ Generate Test Data - Amazon Elastic MapReduceから作成 こ…

Hive(YARN)/Impala/SPARKを行数カウントで比較してみる

Hive(YARN)とImpalaとSPARKを行数カウントで比較してみました。 それぞれ特性があるので比較するのはどうかと思うのですが、今回は目安として測定してみました。 環境 マスター1台、スレーブ2台の3台構成です。 今回もCloudera Managerでさくっと構築しま…

Sparkを実行してみる

前回の記事でSparkをインストールしたので今回はSparkを実行してみます。 spark-shell spark-shellはScalaでインタラクティブにSparkを実行する事が出来ます。 $ spark-shell Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/…

CDH5にSparkをインストール

CDH5にSparkをインストールしました。 Sparkとは Spark 分散処理をメモリで行うため、Hadoop(MapReduce)よりも高速に処理が出来る分散処理基盤です。 検証構成 Master 1台 Worker 2台 ※同一マシン上にCDH5でHDFSとYARNをインストール済み インストール こ…