IT日記

Webエンジニアの徒然草

データは量より質

ここ数年、ビッグデータという言葉が持て囃されている。システム内に堆積された無数の記録を分析し、経営上の意思決定に役立てようという試みが盛んになっており、そういった取り組みを象徴する言葉である。

こうした動きが出てきた背景は、ハードウェアの進歩により今まで机上の空論に過ぎなかった大量データを扱う技術が実用可能になったためとも、従来の業務システムの作り込みが一巡し、ビッグデータ分析基盤の構築という新たな市場を求めるソフトウェア業界の営業活動のためとも言われる。

そして、データ分析を担う職業を表すものとして、データサイエンティストという新たな言葉が生まれた。しかし実際には、その先端的なイメージに反して、他のすべての職業と同様に泥臭い作業を伴う仕事である。

まず、溜め込まれたデータがそこまで綺麗でないことも珍しくない。そもそもが後に分析に使うためというよりも、システムの動作検証用に記録された程度のデータのこともしばしばあり、分析上重要な意味を持つデータが欠けていてもおかしくないのだ。

ソフトウェアはその要件を満たすことに焦点が置かれ、後に分析に資するかどうかは二の次にされがちなのである。データ分析自体が新しい取り組みであり、とりあえず溜まったデータからなんとなく分析が始まる程度の事も多い。

商品価格が欠けた購買履歴では、単価を反映した分析が不可能なのは自明だ。クズ野菜ばかりから豪華絢爛なフルコースを作ることは不可能であろう。食材の不備は料理人の腕以前の問題なのである。

そもそも、そう簡単に有意な結果が得られるとは限らない。周期的な購買数の増減が観測されたところで、毎週決まった曜日に安売りをしているなら当たり前なのである。分かったところで次の一手に繋がるものではない。

地道な試行錯誤が必要だが、かかった時間の分だけ結果が伴うとは限らない。サイエンティストと銘打ちながら、ドブさらいをして底に沈んだ小銭をかき集めるかの如き営みが必要なのだ。

そして、多くの先進的な取り組みと同様、周囲はその効用と限界を容易に理解しない。流行り言葉に踊らされただけのまともな統計の知識もない経営陣に対し、その期待値を制御していかなければならない困難な役割なのである。

ビッグデータと騒がれているが、ただ大量のデータがあれば良いというものではないのだ。そもそも、取り扱いに専門的なシステムが必要なほどの大量データを要求される局面はほとんどない。全体の傾向を知るためなら、楽に取り扱える程度の一部のデータをランダムに抽出してやれば済む話なのだ。

下記の紹介図書は統計の専門知識を持たない者にも分かるよう平易な言葉で綴られている。統計学の概要を掴むために初学者及び非エンジニアに勧めたい書籍である。

無計画な分析基盤の整備に数千万から億単位の投資をしてしまった経営者と筆者のやり取りが面白い。

 

私はいつも不思議でならない。「何がわかるかもわからずに、なんでそんな投資したんですか?」と正直聞きたい。というか、何度か実際にそう聞いてみたのだが、「いや、何かはわかりそうな気がするんだよ」とか「一応の現状把握には繋がったんだよ」とかいう、もやっとした答えしか得られたことがない。

 

統計学が最強の学問である

統計学が最強の学問である