ETLからELTへ:データウェアハウスの能力を活用し、データサイエンスで本当に価値のあるBIを実現 : Stambia


ETLはデータを統合し、BI(ビジネスインテリジェンス)を行うためによく使われる技術です。ソースとなるファイルやデータベースなどからデータを抽出Extractし、専用のエンジンでデータの変換Transformationを行い、ターゲットのデータウェアハウスなどにデータをロードLoadする一連の処理を表したものになっています。従来のETLツールは主にこのアーキテクチャを採用しています。

これに対してELTではソースから抽出ExtractされたデータをデータウェアハウスなどにロードLoadした後、そのデータウェアハウス上でデータを変換Transformationします。そのため、ELTの場合には変換処理のために専用エンジンを必要とせず、データウェアハウスなどのリソースを使用して処理を行います。

ELTアーキテクチャの利点としては以下のようなものがあり、ビッグデータやデータサイエンス、ビジネスインテリジェンスのニーズに合わせて、登場してきた大量のデータ処理を得意とするHadoopやNoSQL、MPPデータベース、クラウドのデータベースの能力を効率的に最大限活用し、分析を行えるものとして注目されています。

・専用エンジン不要でボトルネックを排除し、効率的な処理が可能

→複雑な処理を実施し、ボトルネックになりやすい専用エンジンがなく、データベース上でシンプルに処理を実施になります。

・クラウドなどの高性能なDWHの処理能力を最大限活用

→データ分析のために必要とされるDWHなどは、ETLツールが専用エンジンで行っているようなデータ変換の処理を得意としています。そのため、DWHとは別に専用エンジンを用意するよりも、DWH上に専用エンジンで行っていた処理を実装することでより効率的にDWHの能力を活用して処理を行えます。

・データサイエンス/分析に必要なデータを取りこぼさない

→ETLのアーキテクチャでは誤っているデータを変換部分で除外され、分析の対象となりません。しかしデータサイエンスや統計の分野では誤ったデータも含めて分析することが重要です(Google検索の「もしかして」機能など)。ELTならば全てのデータは一旦ターゲットのデータウェアハウスにロードされるため、それらも含めて分析できます。

ELTアーキテクチャを採用しているものとして有名なツールはOracle Data Integratorです。しかしこれはOracle向けのもので汎用的ではありません。また、従来のETLツールでELTなプロセスの実装をサポートするものもありますが、元々ETLなプロセスを実装するためのものですので、ELTに最適化されているわけではありません。

弊社で取り扱っているStambiaELTなプロセスを実装するために開発された、汎用的に様々なデータへ接続できる開発ツールです。ELTなプロセスを実装するために必要となる処理のテンプレートを数多く用意しており、モデル駆動アプローチによりGUIからドラック&ドロップ操作でデータの対応付け(マッピング)を組み立てるだけで、ELTなプロセスをテンプレートから自動生成できます。

このように、データサイエンスやデータアナリティクスといった分野でも最適なELTプロセスを簡単に実装できるStambiaにご興味を持っていただけましたら是非、30日間の無料評価をお試しください。

関連したトピックス

コメントを残す

メールアドレスが公開されることはありません。

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください