EVENT | 2023/05/30

データ×AIの時代を牽引する5兆円企業、データブリックス社の日本法人がさらなる事業拡大を宣言

2020年に日本に上陸し「データとAIの民主化」を掲げる米国発の企業、データブリックス(Databricks)。今年3月...

SHARE

  • twitter
  • facebook
  • はてな
  • line

2020年に日本に上陸し「データとAIの民主化」を掲げる米国発の企業、データブリックス(Databricks)。今年3月、日本法人であるデータブリックス・ジャパンの社長に、かつてセールスフォース・ジャパンでデジタルマーケティングビジネスユニットの専務執行役員兼ジェネラルマネージャーを務めた笹俊文氏が就任した。

同社はデータ分析プラットフォームの世界において革新的な技術を保有しており、現在の評価額は5兆円にも上るとされる。日本ではAGC、東京海上日動火災保険、ソフトバンク、日本経済新聞社、リクルートといった大手企業が次々と導入をしている。ここでは先日行われた、同社の事業戦略発表会で語られたビジョンをもとに、同社の技術と日本法人の今後の動きについて解説しよう。

白石倖介

ライター・編集者

テック系雑誌編集者の経歴を活かしたApple製品についての記事制作を中心に、テクノロジーとエンターテインメントの相互作用を注視し、アーティストインタビュー・ライナーノーツなどのライティングも手掛ける。1991年生まれ。

「データレイクハウス」は何が画期的なのか

データブリックスは、データ分析と人工知能(AI)の分野で革新的なソリューションを提供する企業だ。もとはオープンソースのクラスタコンピューティングフレームワーク(ビッグデータを並列処理する仕組み)である「Spark」の開発者が設立した企業で、彼らは現在Sparkを活用し、使いやすさと生産性を追求したクラウドベースのレイクハウスプラットフォームを提供している。彼らの技術を理解するための前段として、レイクハウスの歴史について解説しよう。

企業のDX化においてデータの利活用は必須だが、一口にデータといっても様々な形式・数量のデータが存在する。こうしたデータを一元的に管理し、必要に応じて取り出してビジネスに活用するという考え方は1980年代後半から主流となり、「データウェアハウス(データの格納庫)」という概念が生まれた。

データウェアハウスの弱点は構造化したデータを格納しなければいけないことで、あらかじめデータを加工する必要があるのに加えて、現在幅広く活用されている画像・テキストに代表されるような非構造化データを格納するのには向いていない。そこで2010年頃、構造化データ・非構造化データを問わず多様なデータを格納できる「データレイク(データの湖)」という概念が生まれ、いくつかの企業はデータレイクを構築した。

データレイクは非構造化データの格納を含めた多様なデータの管理には向いていたものの、トランザクション(履歴管理・依存処理)やデータ品質の保証といった、データ管理に必要な機能が欠けており、この時代に作られた多くのデータレイクは「データスワンプ(データの沼)」に陥ってしまったという。こうした問題を解決するためにデータブリックスが提供しているのが「レイクハウス」だ。

レイクハウスはデータウェアハウスとデータレイクの長所を併せ持ち、構造化データ、非構造化データをいずれも扱うことができる。個々のファイルのトランザクションも正確に管理されるほか、データ自体は非破壊で保持できる。レイクハウスによって企業は、求める情報に高速にアクセスする環境を手に入れることができるのだ。

データブリックスの提供するレイクハウスプラットフォームは、いくつかの基幹ソフトウェアとフレームワークによってかたどられている。前述の「Spark」をはじめ、ストレージレイヤーソフトウェアの「Delta Lake」、機械学習サイクルを管理する「MLflow」などがそれだ。

多くの技術がオープンソースなのも特徴で、組織内外でのデータの共有も容易。こうした技術を持つデータブリックスが日本法人において何を成していくのか? 代表の笹氏は同社のミッションについてわかりやすく語ってくれた。

データの統合・分析・AIの活用をワンストップの環境で、より安価に提供する

データブリックス・ジャパン代表取締役社長の笹俊文氏

「データ・ドリブンな企業や組織の運営は多くの場所ですでに行われていますが、私たちはそこからさらに『データ・フォワード』、つまりデータによってビジネスを次の次元に持っていくこと、企業のそうした取り組みを支援したいと思っております。

今までの状況を見ると、やはり企業によっては、データがまだまだサイロ化(業務で使用するシステムやデータが部門・部署ごとに存在し連携できない状態)しており、データを組み合わせて新しいバリューを生むことに行き着いていない。改善にはさまざまなケースが考えられますが、たとえばお客様とのタッチポイントをデータを駆使して見極めて、それぞれパーソナライゼーションしていくこと、収益力を高めるために、需給バランスを取るための予測をさらに高度化・精緻化していくこと。さらにはそうした施策をスピーディに、リアルタイムで変化を確認しながら回していくことが重要です。

たとえばアパレル企業を想定しますと、『セーターがどのエリアでどうに売れたか』を調べるだけなら既存のデータベースでもできるわけです。ただし、今後1週間・1カ月・3カ月と推移を見ていきたい場合や、厚手のものが売れるのはいつなのかといった予測を立てたりするには、天気の情報を各拠点ごとに取り入れながら、過去の履歴と掛け合わせなければなかなか精度の高い予測は立ちにくいものです。さらに集まったデータを社内で管理する際には、個人情報は閲覧者を限定したい、けれど他の情報は誰でも見られるようにしたい……というガバナンスの整備が必要になります。そのためには現状、高価なツールが必要で、しかも分散している。さらにはその環境をメンテナンスするためにエンジニアを割かなければならず、データを分析してより高度なビジネスバリューを出していこうという業務が阻害されてしまっているのです。

こうした現状を『データとAIの民主化』によって変革するのが、私たちのミッションです。レイクハウスプラットフォームによってデータの統合・分析・AIの活用、これを全て網羅しようと考えています」

今年4月にはChatGPTのような対話能力を有し、かつ無料で商用利用も可能なオープンソースの大規模言語モデル(LLM)の「Dolly 2.0」を発表したデータブリックス。事業戦略発表会では日本における同社のミッションについても語られた。

「まず、年内にも人員を現在の2倍、つまり100人以上に増やす方針を立てています。また、AIの活用は現在経営者の方から大きな注目を集めていますが、その利用方法においては、自社のデータをどのように活用して教育するか、その方法論や費用対効果などが重要な焦点になってきますから、AIを活用したデータ活用を推進することに重点を置いています。データとAIはやはり対の存在として運用する必要があります。データが少なければ機械学習が機能せず、効果が出にくいですし、データが不整合だとAIのシナリオが最大化できないため、課題解決には時間とコストがかかります。こうした状況を解決するようなソリューションを日本で皆様にお届けしていきたい。

方法論はもちろんですが、それをいかに素早く、高額にならずに提供できるのかというところは、皆さんも気になさるところだと思います。その辺りは私もエバンジェリストとして、布教活動をしていければと思っています。また、データサイエンティストやエンジニアの方々などが参加する「JEDAI」というユーザーコミュニティがありますので、こちらとの交流も行いながら、日本にまだまだ少ないデータサイエンティストを増やしていければと思っています」

企業のデータ活用が今後ますます重要になることは間違いなく、データブリックスのプロダクトは魅力的な選択肢になるだろう。データの洞察力を高め、迅速な意思決定をサポートすることで、競争力のある市場で優位性を獲得できる。データブリックスの発展に、引き続き注目したい。