リンクバルのデータ系基盤


リンクバルにはデータ分析者が5名ほどと、機械学習のエンジニアが数名いる。社員90名弱という規模の中では、データ活用に大きいリソースを割いている方だと思う。全社員の3分の2程度が、彼らが作り出したダッシュボードや、分析レポートや、予測結果などを見ながら日々の業務を行っている。

もともと、それほどデータを活用する会社ではなかったが、2016年秋に街コンジャパンをフルリニューアルしてアプリケーション側のデータが綺麗になったのを機に、データ系の基盤を整備した。

それ以前にもデータは分析していた。しかし、サービス毎にアクセス先も違えば、アクセス権を持つ人もばらばらだった。そしてデータにアクセスできるのはエンジニアのみだった。何をするにもエンジニアに頼まなくてはいけない。エンジニアから見ると突然の割り込み作業なので、タイムリーにデータを返すことも難しい。そこでまず、各サービスのデータを一カ所に集めて、それに対するアクセス手段を社内に提供した。

一カ所に集約するための、中央に置くデータベースには MySQL を使った。ここに、各サービスの DB をそのままコピーした。ただし、分析用として社内に提供するために個人情報をマスクしてある。さらに、よく実施するであろう分析をいくつか特定して、各サービス 3つほどの基本データマートを用意した。通常の分析では、このデータマートにアクセスする。

データアクセス手段としては、Google Sheets、Tableau Server、Redash、Jupyter Notebook、Web版の RStudio を用意した。Google Sheets はルーチンワーク用に定型データを出力するためのもので、事務作業が効率化されるに従い、あまり使われなくなっていった。Tableau と Redash は、日々の事業運営に活用されていて、情報系でありながら基幹システム化している。この中で RStudio だけは社内で普及せず、たぶん今は誰も使っていない。

手段を用意しても使う人がいなければ意味がないので、その次にやったのが社内のデータリテラシを高める活動だった。Tableau教育や SQLセミナーを繰り返した結果、かなり高度に Tableau を使いこなせる人が 5名ほどと、非エンジニアで SQL をガリガリ書ける人が数名誕生した。Tableau をなんとなく使えている人まで含めると 30名くらい、既存の SQL を編集して自分が望むデータを取得できる非エンジニアは 10名程度と思う。

当初は、全社員が SQL を書く世界を夢見ていたが、ある程度データリテラシを普及させた後、改めて考えると、これ以上のSQL人材、Tableau人材の人数拡大に事業上の意味は見いだせなかった。そこで、やる気と能力のある人に投資を集中させて、専門性が高く効率的な分業体制を築く方向に舵を切った。

人材が揃ってきたら、システムもそれに合わせる必要がある。社内でデータプラットフォームと呼んでいる、このデータ系システム基盤は、もうすぐ構築から 2年を迎える。いくつかの課題も明確になってきた。たとえば、このシステムは本番系しか用意していない。その影響で、データマートの変更をデプロイした日の深夜バッチが落ちることがたびたびある。当初はそれでも問題なかったのだが、事業運営に日常的に使われるようになった今、落ちると社内の各処で困る人が出てきた。

その他にも、非マスクデータを要求する機械学習系処理と相性が悪いとか、リアルタイム処理ができないとか、行動履歴データが入っていないなどの課題がいくつもある。こういう不満が出てくるというのは、人材がレベルアップして、やりたいこと、できることが増えて、システムの能力を追い抜いてしまった状態とも言える。そこで、これらを一気に解消するために、データ系基盤の全面的な再構築に着手した。無事に終われば、システムの能力が人材を一時的にまた追い抜くと思う。