RDBからHadoopへのデータ連係をサポート【DBMoto Ver9.0新機能】


DBMotoはVersion 9.0からHadoopへのレプリケーションに対応しました。DBMotoがサポートしているDB(Oracle, Microsoft SQL Server, IBM DB2 for i, IBM DB2 LUW, Sybase, Informix, MySQL)のテーブルをHadoop分散ファイルシステム(HDFS)へレプリケーションできます。

DBMotoはソースDBのデータをCSVファイルとして出力し、DBMoto HBrokerを用いて、HDFSとSSHチャネルで通信し、HDFSへデータを転送します。レプリケーションモードはリフレッシュのみとなりますが、任意のタイミングでHDFSへレプリケーションを実行することが可能です。
Hadoop Version 2.6.0以上をサポートします。
※ DBMoto HBrokerは、HDFSへデータ転送を行うためのJavaベースのソリューションです。

0_イメージ図

実際にHadoopへのレプリケーションを試してみます。

Hadoopへのレプリケーションは、ソースDB⇒ストレージ⇒Hadoopという順にデータが転送されますので、はじめにソースとターゲットの接続を作成します。

ソースは任意のDBで構いませんが、今回はAS400をソースとしています。そして、ターゲットはテーブルデータをファイルとしてストレージに出力する必要があるため、Filesを選択しています。

1_接続プロパティ

次に、AS400からFilesへのレプリケーションを作成します。Hadoopへはリフレッシュ(全件レプリケーション)のみのサポートなっているので、リフレッシュ モードでレプリケーションを作成します。

2_レプリケーションモード

最後にレプリケーションの実行になりますが、まずはHBrokerの起動から行います。HBrokerには起動用のコマンド スクリプトが含まれているので、これを実行します。コマンド プロンプトが立ち上がり、定期的にフォルダをスキャンし、更新されたファイルがないかを確認します。

3_HBroker起動

DBMoto Data Replicatorを起動すると、DBMotoのレプリケーションが実行され、ストレージにテーブルデータのファイルが作成されます。

4_レプリケーション実行

HBrokerはこのファイルを検知し、Hadoopへ転送します。

5_ファイル検知

WebインターフェースからHDFS上のファイルを確認してみると、DBMotoのレプリケーションによって作成されたファイルが転送できていることが分かります。

6_Hadoopブラウザ

このように、DBのデータをHadoopへ連係することで、ビッグデータの分析を容易に行うことが可能です。

関連したトピックス

1 Response to RDBからHadoopへのデータ連係をサポート【DBMoto Ver9.0新機能】

  1. climb のコメント:

    Hadoopのデータのグラフ・ダッシュボード等での可視化はこちらのEspressシリーズで可能です。
    https://www.climb.co.jp/blog_espress/archives/1410

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください