BIの貴重な資源はデータ レイクに


BI(ビジネス インテリジェンス)と関連して、最近よく聞くようになった用語にdata lake(データ レイク)というのがあります。正直に言うと、実は今までdata lakeの意味をよく知りませんでした。「データの湖」だから、きっと沢山のデータが川や雨のように一か所に注ぎ込んで貯まった場所なのだろうと思って、深く考えずに素通りしてきました。

それで、この際、調べてみたら、そんなに的外れでもなかったです。あらゆるソースからの構造化データと非構造化データをそのままの形で保存するリポジトリ、だそうです。すでにご存じの方も多いでしょうが、自分のためにいちおう整理しておこうと思って書いています。

つまり、データ レイクは言わばデータ ウェアハウスの前身で、データ レイクから分析や統計にふさわしい”使える”データを拾い出して、形式化したらデータ ウェアハウスになり、そこからビジネスに役立つ分析情報(ビジネス インテリジェンス)が引き出される、という流れのようです。それをサポートするのが、BIツールです。

ちなみに、データ ウェアハウスとデータベースの違いをひと言で表せば、前者が主にOLAP(online analytical processing)用、後者が主にOLTP(online transaction processing)用です。実際には、データベースはトランザクションだけでなく、機械学習などのアナリティクスにも使用されますが、トランザクションの基礎となるACID ― atomicity(不可分性)consistency(一貫性)isolation(独立性)durability(永続性)―が成立しているかどうかが、データベースとデータ ウェアハウスの分かれ目です。

話をデータ レイクに戻すと、この言葉が広く使われ出したのはここ数年のことです。オンライン処理からのデータが主流だった頃は、生のデータがすでに構造化されていて、非構造化データも混ぜこぜのデータ プールは特に必要ありませんでした。それが、モバイルアプリやSNSなど、さまざまな媒体からのデータがアナリティクスの対象になり出してから、そんなありとあらゆるデータが玉石混交の無差別プールに名前を付ける必要が生じ、データ レイクと命名されたようです。

一説によれば、上述のようにデータ プールとか、データ ストリームやデータ リザーバなど、何かにつけてデータを「水もの」に例える傾向があるので、レイクが出てきたのだとか。言うなれば、クラウド(雲)だって、いちおう水の一形態ですから。

データ レイクよりもデータ マイニング(data mining)という用語のほうが市民権を得るのはずっと早かったと思うのですが、mining(採掘)に合わせて、data lakeではなくdata mineにしなかったのはなぜでしょうか。おそらく、元からずっと眠っている鉱石よりも、水のようにさまざまな媒体から流れ込んだほうがビッグデータの呼称にふさわしかったのでしょう。データはマイニングするよりも、水を全部抜いて何が残るか見たほうがおもしろいかも。

関連するトピックス:

コメントを残す

メールアドレスが公開されることはありません。

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください