BIの貴重な資源はデータレイクに

BI（ビジネスインテリジェンス）と関連して、最近よく聞くようになった用語にdata lake（データレイク）というのがあります。正直に言うと、実は今までdata lakeの意味をよく知りませんでした。「データの湖」だから、きっと沢山のデータが川や雨のように一か所に注ぎ込んで貯まった場所なのだろうと思って、深く考えずに素通りしてきました。

それで、この際、調べてみたら、そんなに的外れでもなかったです。あらゆるソースからの構造化データと非構造化データをそのままの形で保存するリポジトリ、だそうです。すでにご存じの方も多いでしょうが、自分のためにいちおう整理しておこうと思って書いています。

つまり、データレイクは言わばデータウェアハウスの前身で、データレイクから分析や統計にふさわしい”使える”データを拾い出して、形式化したらデータウェアハウスになり、そこからビジネスに役立つ分析情報（ビジネスインテリジェンス）が引き出される、という流れのようです。それをサポートするのが、BIツールです。

ちなみに、データウェアハウスとデータベースの違いをひと言で表せば、前者が主にOLAP（online analytical processing）用、後者が主にOLTP（online transaction processing）用です。実際には、データベースはトランザクションだけでなく、機械学習などのアナリティクスにも使用されますが、トランザクションの基礎となるACID ― atomicity（不可分性）consistency（一貫性）isolation（独立性）durability（永続性）―が成立しているかどうかが、データベースとデータウェアハウスの分かれ目です。

話をデータレイクに戻すと、この言葉が広く使われ出したのはここ数年のことです。オンライン処理からのデータが主流だった頃は、生のデータがすでに構造化されていて、非構造化データも混ぜこぜのデータプールは特に必要ありませんでした。それが、モバイルアプリやSNSなど、さまざまな媒体からのデータがアナリティクスの対象になり出してから、そんなありとあらゆるデータが玉石混交の無差別プールに名前を付ける必要が生じ、データレイクと命名されたようです。

一説によれば、上述のようにデータプールとか、データストリームやデータリザーバなど、何かにつけてデータを「水もの」に例える傾向があるので、レイクが出てきたのだとか。言うなれば、クラウド（雲）だって、いちおう水の一形態ですから。

データレイクよりもデータマイニング（data mining）という用語のほうが市民権を得るのはずっと早かったと思うのですが、mining（採掘）に合わせて、data lakeではなくdata mineにしなかったのはなぜでしょうか。おそらく、元からずっと眠っている鉱石よりも、水のようにさまざまな媒体から流れ込んだほうがビッグデータの呼称にふさわしかったのでしょう。データはマイニングするよりも、水を全部抜いて何が残るか見たほうがおもしろいかも。

関連するトピックス:

コメントを残すコメントをキャンセル

メールマガジン登録

製品・カテゴリで絞る

新着情報

関連リンク

タグ・トップ50

BIの貴重な資源はデータ レイクに