データストラテジスト見習いを1年半やって思い立った「5つの必要なこと」

みなさまこんばんは、大半の皆さんはあけましておめでとうございます。

2014年も嵐のごとく過ぎ去り、2015年になってしまいました。2014年の26歳の誕生日に掲げた基本コンセプト「かわいく生きる」はそのままに、2015年はより「ていねいに生きる」を志向して過ごしたいと思います。

2014年も相変わらずいろいろなことがありました。雪合戦に行ったり、キャンプ企画に行ったり、ボート漕いだり、携帯電話失くしたり、何度か閉じ込められたり、初めて北海道行ったり、久々に石巻行ったり、しょっちゅう郡山行ったり、突発で新潟行ったり。ですが、生活の中心はやはり仕事にあったと思います。新年早々動画作成から始まり動画作成に終わったと言っても過言ではないかもしれません。SNS出現率は輪をかけて減り、一時は死亡説さえ出ましたが、遠藤は生きています。

そう、あくまで私は「データストラテジスト見習い」をしていたのです。このブログの熱心な読者ならば私の素性はお分かりでしょうが、2013年4月に新卒入社した会社にて、その年の6月から「ビッグデータ」みたいなものを扱う集計担当をしています。その配属から1年半が経ちました。毎日がエクセル先生と接する日々、それより相性のいいパワポたんともお仕事を一緒にします。食料品・日用品分野において「それ買われてんの?」というデータを取り扱い、そうしたメーカーさまや代理店さまのご要望に沿うデータをお出しするという仕事です。ちなみに語弊があるとアレですが、見習いとはいえ「プロ」であることには変わりませんし、その自覚がないわけではありません。そこだけ、ご留意を。

世の中的には「データサイエンティスト」という職業が「セクシーだ」とされ、はて私はセクシーになれるのだろうか、いやむしろかわいくなりたいんだが、と思いつつ仕事に励んでくる中で、マーケティングの「マ」の字も知らず、統計や集計よりも資料や動画作成に勤しんでいたような私が、徐々にですが、なんとなく、データを取り扱うということについて思う所が出てきたわけです。今日は、そのうちのいくつかを、完全なる受け売りにてお伝えしたいと思います。

先に謝っておきます。無知、身の程知らずを、お許しください。

0.ことばのはなし

ところで、先に「データストラテジスト」という言葉(元は上司が使っていたのですが)について触れておきますが、なんで「サイエンティスト」としなかったかというと、strategist = who build a strategy:戦略を立てる人、というのが、より自分の立場からすると理にかなった言葉だなと共感しているため、自身でも用いるようにしています。自部署では自分たちを summarizing group と名乗っており、これもまた好きなのですが、 summarize:要約 の先に、 strategy:戦略 を立てるような意識が必要だと思うのです。

あくまで scientist は、科学をする人、ここでは「事実を探求する」とか「知を体系化する」とか、そういう意味で捉えます。とすると、私が携わるマーケティングの分野では、 data science の手法を知る人はもちろんですが、私自身はどちらかというと data strategist = who build a strategy with various data というスタンスでいたいなと思い、この言葉を使っています。

そして、1年半経ってなお、私は以下のようなことをうっすら感じ始めたくらいで、それが実践できているかどうかは怪しく、従ってまだ「見習い」なわけです。それでもプロであることには変わりなく、その自覚はあるのは当然のことですが。

1.基礎集計、最強

これから書く5つの気づきは、幾つかの経験に基づくものですが、その経験のうちの一つが、2013年から着手して14年1月に中間発表・3月に最終発表を迎えた「データ分析コンペティション」に、同僚と出場した時のことです。複数の学会が寄り集まって行われたこのコンペ、とある部会の予選会で、一般部門出場6チーム中、何を間違ったか我がチームが2位となりました。他チームは、研究者や企業のデータアナリストなど強豪ぞろい。そんななか、リサーチャーと集計担当の混合チームで臨んだ我々は大したことをしたわけでもなく、もっとも、他のチームが用いていた「モデル」は使いませんでした(というと語弊があり、項目応答理論を僕が勉強して使い、潜在クラス分析を同僚が回したのですが)。実際、講評でも「このチームはモデルを使わなかった」とまで言われる始末。しかし、それでも準優勝が取れました。チーム全員が「え、いいの?」と驚く始末。

その後、このデータコンペの別の部会に出場したNTTデータの方の話という記事がアップされていたのですが、自分たちのチームの発表、そして日々の業務を振り返ると、そこでの言葉が「あぁ、やっぱそうなのね」と納得しました。

“今回の分析で一番決め手となったのは、初期に実施する基礎分析・可視化。「スタート時点での足固めがとにかく大事。ここをしっかり実施すれば、問題をどう解いていけばよさそうかという分析の方向性が見えてくる」”

-「決め手は下準備」、データ解析コンペ優勝者語る, IT pro – 日経BP

上記の言葉ではあくまで「その先につながる基礎固め」とされており、やはり基礎固めの先に分析をすることには変わりないのですが、私の解釈ではこれこそ「基礎集計、最強」説だと思っています。もちろん、基礎固めにはデータセットの特定、対象データの収集、データクリーニング、という手順があり、これがしっかりできていないと全て大コケなのは間違いありません。しかし、それでもデータクリーニング後の「データベース」はあくまで「ベース」なので、それをある程度集計しなければ物事は見えてきません。そして、その基礎集計によって、大半の傾向は分かってしまいます。

もちろん、予測モデルを立てたり、膨大な個々の振る舞いを分類したり、本当にそれが意味ある差なのかを検証したり、という統計的手順を踏んだ解析は必要になります。しかしそれらを行うのにも、まずは基礎集計でわかる部分を整理してからでないと意味がありません。手法だけ「どうだすごいだろ」的になっても意味がないのです。特に私が扱っていた「購買データ」は、分析の結論、ないし前提に「売れてんの? 売れてないの?」という事実が来ます。その結論ないし前提を把握するためには基礎集計は避けて通れません。また、「単純集計」や「クロス集計」の結果でも物は充分語れます。比較する対象との差分が大きいか小さいか、それでだいたい十分だったりします。

基礎集計は避けては通れず、しかし基礎集計でだいたいのことはわかる、ということから、「基礎集計、最強」なのです。繰り返しますが、その先の分析ステップについて否定するつもりはありません、というか、むしろそちらに秀でる必要は大いにあるわけです。一方で、私の業務領域で行っているのは、多くが「集計」であり、またデータコンペで準優勝を取った際に行ったことも半分以上は「集計」でした。それだけ、基礎集計はおろそかにできないし、基礎集計ができるということはある意味それだけで「最強」なのかもしれない、と思います。

2.ツールより、ロジック

で、その集計を行う上で、主に私が使用しているのがエクセル先生なわけですが、エクセルひとつ取り上げても、関数、ピボットテーブルと、集計のための機能は数を上げれば限りなく、また「業務を効率化するためのプログラミング言語」という認識で見ていたVBAも、集計のツールの一つなのだということを最近になって気づきました。さらに仕事では「SPSS Modeler」といったツールを用いて大量データ集計を行うこともあります。

こうしたツール、使えたほうがいいに決まっているのですが、ではそのツールのスキルそのものが大事なものなのかというとそうではありません。どのようにデータを並べ替え、計算し、加工し、意図する指標を紡ぎ出すか、という「集計ロジック」のほうがよっぽど重要だと思っています。むしろ、その「集計ロジック」を考えることさえできればツールの難易度は大して関係ないと思います。ツールの難易度とは「呪文を覚える」くらいのもの、というと言い過ぎかもしれませんが、慣れればそういう感覚になると思います。

もう少し補足をすると、集計にはツールごとに難易度の別は存在し、そしてステップも存在すると思っていて、なかなかいきなり「集計ロジック」を意識するのは難しい気がしています。まずはエクセルの関数を用いた「計算」からスタートし、ピボットテーブルを用いて「ユニークにする」という方法を身につけ、その概念を複合的に組み合わせながら「集計ロジック」をプログラムに落としたりGUIでコマンドどうしをネットワーク化していく、というところに発展できると思います。現に私はそうして集計方法を身につけ、そのなかで「ツールより、ロジック」のほうが大事だと気付いたわけです。

私自身、まだ触れたことのない集計ツールや分析ツールは数多く、飽くなき探究心は発揮しなければいけないのですが、ツールを使えることそのものでは強みにはなれないと思います。上級のツールを用いることができるということは、そのツールを使いこなすことができるだけの集計ロジックが組み立てられる、ということを示します。言い換えれば、上級ツールが難しいのは、「使い方」やら「呪文」やらが難しいというよりも、それらを用いてできることをきちんと認識し、高度な集計ロジックを組み立てるから難しいのだと思います。

そして、この「集計ロジック」は、元のデータを見て、そのデータがどのようになっていれば望ましいのかというゴールをイメージし、その間を繋ぐために然るべき手順を踏む、ということです。それは、もちろん経験によって身につくものではありますが、では未経験だからできない、というわけではないと思います。物事を順序立てて考えるということができていれば、特段数字やデータを扱う経験がなくてもできるかもしれない、というわけです。でなきゃ私自身「データストラテジスト見習い」はできなかったと思います。

3.きりかた、わけかた、みせかた

ただここまでの内容だけでは、ただ「集計ができる人」にしかなりえません。データ分析や解析の醍醐味は、データをどのような軸できるか、どのようにグループをわけて比べるか、そしてそれらをどのようにみせるか、という点にあると思います。現に「分析」という文字や「解析」という文字は、「分」も「解」も「わかる」と読むし、「析」も「こまかく分かつ」という意味を持つものです。つまり、データの海をどのように切り分けるのかが重要なのだと思います。

そういえば、集計は英語で tabulate ですが、この動詞はもともとは table から来ているから面白いものです。つまり「表にする」ということですね。その際、クロス集計という集計方法において、表には「表側」と「表頭」があるわけ(というのも入社してから知りましたが)ですが、たとえばこんなデータだと、以下のような意味になります。

____||最低気温|最高気温|平均気温
東京|1月||__a℃|__b℃|__c℃
東京|2月||__d℃|__e℃|__f℃
大阪|1月||__g℃|__h℃|__i℃
大阪|2月||__j℃|__k℃|__l℃

全くダミーですが、上記の表では、表側が地域x月、表頭が気温に関する最小値・最大値・平均値、を示しているわけです。これを言葉に置き換えると、「東京の1月の
」=表側、「最低気温は」=表頭、「a℃でした」=データ、となるわけです。「東京の1月の、最低気温は、a℃でした」というわけですが、この「東京の1月の」の部分が「軸」になるわけです。この「軸」を何に設定するか、が、まず第一の肝になります。

大きなデータの「世界」を、どんな軸で「きる」か。男女や年齢といった人の軸や、そのデータに含まれる、たとえば時間や場所といった内容を軸にすることもできます。「軸」にすることができるものは膨大で、かつ「軸」にできるものは当然「表頭」(いや、本来は「目的変数」といいますが、なんかそういうのも大仰な気もしていて)にもできるわけですが、とにかく、データという「かたまり」をどう「きる」かを、目的に合わせて選択できるかが重要です。

「きる」ということは、すなわち「わける」ということになります。わけることで、一つだった「かたまり」が最低でも2つ以上になるわけですから、その間を比較することができます。どっちの方がいい・わるい、という単純な事実のようですが、その比較こそがデータを分析する出発点になります。つまり「きる」ためには、どう「わける」か、を想定しておく必要があります。このようにしてデータを「わける」作業を経ないと、「わかる」にはつながらないのです。

ただ、ただ「きる」「わける」をするだけでは意味がなく、それを「みせる」ことも必要です。「見せる」という漢字にしなかったのは、どちらかというと「魅せる」という意味も残しておきたかったからです。ここで私がいう「みせる」は、主には図表化を意味していますが、全部が全部をグラフにすればいい、とか、全部が全部を表にすればいい、というわけにもいきません。そのデータの「きりかた」「わけかた」にあった「みせかた」がなんなのか、それは棒グラフ? 折れ線グラフ? 散布図? いやいや、単に数字で見せたほうがいい? データの意味合いを示すのに最も適している方法がなんなのかをきちんと見定める必要があります。

そして、この部分で最も大事なのは、「きりかた」「わけかた」「みせかた」も、すべて、より「わかりやすく」するために行うことである、ということです。データ(単に数的なデータだけでなく、言葉や行動を含めありとあらゆる情報)を分析するのは、よくわかんないことをわかるようにするためです。より「わかる」を引き出すために大事なのが「きりかた」「わけかた」「みせかた」であって、そしてそれらの行為は、「何についてわかりたいのか」=「明らかにしたいのか」という目的に根ざすことが必要だと思います。

必要だとわかっていながら、できているとは限りませんが。

4.たくさんの羅列より、ひとつの物語

「何についてわかりたいのか」という目的に基づいて行うデータ集計・分析は、そのデータが持ちうる軸と集計値と方法の限りたくさん存在します。しかし、それだけ数多くの分析アウトプットがあったところで「どうだすごいだろ」と言われても、そりゃ確かに「すごい」数にはなるでしょうが、本当の意味で「すごい」とは言い切れない気がしています。結局、それらにどんな意味があるのかがわからないと、ただの羅列でしかない。

集計ロジックと同じように、ゴールに対してたどり着く一本ないし複数本の筋が通っていれば、事象はわかりやすくなります。さまざまな軸・集計値・方法で切り出された分析のアウトプットは、データを分析する目的にたどり着くための、事実という道標であり、その道標をきちんと結ぶ筋を示してもらうほうが、よっぽど「明らかにしたいこと」に近づきやすいと思います。それが、物語・ストーリーです。こちらも、必要性をわかっていながら、十分できていない点ですが。

私自身、データを集計する作業ばかりをしていると、その目的・意味を見失い、作業に没頭してしまう感じになります。上司にはそれでよく怒られます。そのデータを使って言いたいことはなんなのか、明らかにしたいのはなんなのか、仮説としてどうなっていることが想定されるのか、といったことにきちんと立ち返ることで、方向性を修正できるはず。意識するのは難しいですが、しかし頭のどこかには持ち続けないといけません。

勘違いしてはいけないのはが、そのストーリーの筋書きにたいして反するデータがあった場合に、それを捨象してはいけない、ということです。あくまでもデータは事実であり、その事実を捻じ曲げてまで思った通りのストーリーを描くということはあってはいけません。「言いたいことが言えなかった」という結果もきちんと受け止めて、ストーリーに組み込むべきです。しかし「言いたいことが言えなかった」ということの前提には「言いたいこと」があるわけですから、そもそもそれを持つというところから始まっていないのだとしたら、それもそれで無意味です。

私自身、ここまで文章が長くなってしまっていることからお分かりの通り、何でもかんでも詰め込みたい人間なので、せっかく集計したデータを「捨てる」という勇気を持てずにいることもあります。それは今の仕事に限ったことではなく、学生時代に執筆した研究論文においてもそうでした。もったいないもの。でも、その心をぐっと抑えて、本当に明らかにしたいことにたいして、適切なデータを用い、そうでないものは捨てる勇気を持つ、そうまでしてでも「物語を、データで編む」ということをせねばならないし、「明らかにしたいこと」に立脚して、課題・疑問・仮説を立て、ゴールに対する筋書きを作らねばならないのです。

5.データを編むのは、何のため

だいたいのことは基礎集計でわかるし、その基礎集計は論理思考さえあれば実践できるが、必要なのは「わかる」ための「きりかた」「わけかた」「みせかた」で、それらは「明らかにしたいこと」に立脚してある程度の筋書きのもとに示されねばならない、というのが、ここまでの4つの「必要なこと」のまとめです。で、問題なのは「明らかになったね。で?」の「で?」に応えることです。つまり、「何のためにデータ分析して明らかにしたの?」です。

少なくともマーケティングにおいて、その答えは「意思決定」のため、です。

ある行動に打って出るか否か、というのは、まさしく戦略。ビジネスにおいては、価値を与えられたか否かが成果として示される以上、「価値を与える」という目的に対してさまざまな戦略を打つわけです。下手な鉄砲、数打ちゃ当たる、ということをできるほどの体力や財力がないとしたら、その戦略のうちより確実なものを選びたいのは当然。その意思決定をする上で、証拠となるのが「データ」なのです。言い換えれば、よっぽど重要なのは戦略の意思決定で、データはその補助にしかならない。

だから、「データストラテジスト」という言葉を用いるのだと思います。データに基づいて戦略を打つ・戦略を打つためにデータを扱う、ということが、すくなくとも私が目指すべき姿であり、5つ目に書いておきながら最も重要なのがこの視点になると思います。

よく「ドリルの例え」というのがありますが、ホームセンターで「ドリルが欲しい」と求める人は、たいてい壁か何かに穴を開けたいと思うわけであり、穴あけ工具そのものに「萌える」ような人はそうそういないでしょう。顧客の真のニーズを知ることが大事、とは言われますが、これがなかなか察知するのが難しい。難しいけれど、そこを察知しようとしないと、なんのためにデータを見たいと思うのか、がわからず、そうでないと「明らかにしたいこと」が見えないままになります。

意思決定の場面といっても様々なので、割とざっくりとしたデータで良い場合もあれば、より精緻さが求められる場合もあります。ですが何にせよ、意思決定に使う、ということをきちんと把握することが大事になります。それは、「いやぁ定点で見たいからさぁ」とか「とりあえずデータ見てみたいんだよね」と先方がいう場合でも、またデータ分析をするのが自分自身で、研究のために用いる場合でも、目的をきちんと把握する、という点は同じだと思います。

おわりに

さて、相も変わらずこんだけ長々と書いてしまいましたが、これらが私自身が感じている、データストラテジスト見習いを1年半やって思い立った「5つの必要なこと」なわけですが、これらの「必要なこと」が、自分に備わっているかと言われると、まだまだな気がしてなりません。もっと修行が必要なのだと思います。

しかし残念なことに、本業の方ではそれが続けられなくなりました。
というのも、私今月から、新卒採用担当として異動することになったのです。

もちろん、自己研鑽としてこれからより修行を積むことは可能ですし、むしろこれからより一層修行を積んでいかないと、研究としてデータ分析に従事する優秀な学生の皆さんと話ができないという状態になります。しかし、1年半やってきた、そのなかでさまざまなツールに触れ、データに触れ、分析課題に触れ、その用途に触れてきたことについては、自信につながっているし、また糧にせねばならないと思います。いったんは、「データストラテジスト見習い」の看板をオモテ面からは外しますが、これからもこれをかじった人間としての自覚は絶やさないようにしたいと思います。

しかしまぁ、やっぱり、言いたいことを、手短にまとめる、というスキルは、まだまだみたいですね。

Comments

comments

データストラテジスト見習いを1年半やって思い立った「5つの必要なこと」」への3件のフィードバック

  1. ピンバック: 経験則だけで書く、「研修のつくりかた」 | enshino Archive

  2. ピンバック: 内定承諾者メルマガ@2019年新卒向け よみものバックナンバー | enshino Archive

  3. ピンバック: シリーズ・プログラミング学習への挑戦 – ④誰が為のプログラミング | enshino Archive

コメントは停止中です。