「データキャラ」は「データ分析キャラ」?|【連載】データ分析のログハウス(第7回)
~旬刊経理情報連載
「データ分析の森」ガイドマップ 番外編~
みなさん、こんにちは。
遠藤武(えんどう・たける)です(活動については「ボックスコックスネット:遠藤武のプロフィール」をご覧ください)。
おや、おたんさんが、なんとも難しい表情をしながら歩いて来ますね。
困っているのか、はたまた悩んでいるのか?
何かありましたか?
おお! すばらしい!
まず、ストレートに言いますね。
一見、めちゃくちゃふざけた疑問です。
が! そうみせかけて、今回の疑問には、
ものすごく真面目で大事な話が隠れています。
そもそも「データキャラ」について、実際のデータ分析でどう活躍するか(あるいは活躍しないか)を、具体的に語ったケースは、おそらくほとんどないと思います。
面白く、そして真面目に分析しましょう!
「データキャラ」は計算キャラであって、「データ分析キャラ」ではない
そもそも「データキャラって何?」という方もいらっしゃるのではないでしょうか。
次のような台詞を、マンガやアニメの作品でみたことがあるかと思います。
こういう「メガネをクイッ!」としそうなキャラクターが、
データ分析の森にやってくると、このようなクマさんに変身します。
……架空のキャラクターではありますが、第6回に登場した「本部長」とは、おそらく真逆の性格ですね。
この観点から単刀直入に言うと、
残念ながらデータキャラは「データ分析ができない」と結論づけるしかないと思います。
というのも、データ分析は、単に計算するだけではそもそも足りず、データから洞察したり、近似したりする一連の行動を伴うのです。
第1回の記事で、データ分析には「妄想と行動」が重要だと書きました。
もちろん、単に妄想するだけであれば、それは信憑性ゼロです。
ですが、本音の妄想からスタートして、行動を重ねて信憑性を高めていくと、それは仮説を立てて検証する分析と同じになるのです。
そうやって本音で進めた企画や、楽しく面白く書いたプログラムや分析が、世の中をあっという間に席巻し、世界を変えていきます。
フィクションのデータキャラにツッコミを入れるのも野暮ですが、あえていうならば「そんなのデータにない!」で止まってしまうと、「仮説を立てない、検証しない」ところで、分析がすべて終わってしまうのです。
データがなければダミー変数を置き、データがあれば現実解を置く
そもそも、数値のデータがないときは、定性的(数値ではない)要素を0と1で「ある」「なし」に分類し、ダミー変数として表すという技術が統計学にあります。
たとえば、ワンルーム不動産の家賃を分析するなら「バス・トイレ別ダミー」とか「エレベーター付き物件ダミー」という要素を、ダミー変数として設定することができます。
これらの要素が「ある」物件は、「ない」物件より賃料が高くなり得るという仮説は、肌感覚でわかりますね。
データがない要素もデータとして捉え、仮説を立てて検証して洞察を出すことが、データ分析の根幹なのです。
さらに、計算という観点からみてみると、将棋のような盤面とルールのあるゲームの場合、人工知能に先読みさせることで、勝利確率を計算することが可能です(将棋のルール上厳密には異なるのですが、「二人零和(れいわ)有限確定完全情報ゲーム」という言葉を聞いたことがある人もいるかもしれませんね)。
……しかし、ご存じの方もいるかもしれませんが、2020年の12月25日から26日までに行われた、豊島(とよしま)将之竜王と羽生善治九段の対局で、AIが「羽生九段が勝率94%」だと予想したところ、当の羽生九段が突然「投了(負けを認める)」したという現象が起こりました。
この状況について、
という、将棋AI開発責任者の発言、
という、将棋AIに詳しい現役七段の発言、
そして、「対局開始から14時間以上が経ち、一手を1分以内に指さねばならない“1分将棋”となっていた」ため「かなり体力的にも疲労が来てる中で、振り絞って指して」いたという事実から分析することができます(株式会社テレビ朝日)。
要はこの現象、
人工知能が盤面から計算し先読みする
だけでは不十分で、さらに深掘りするなら
対局者が人工知能の計算の先読みを、実際の勝ち筋として実現できるかどうか判定する
対局者の疲労度合い(バイタルチェックなど)を変数として勘案する
という、現実解を導く要素が不足していたと考えられます(とはいえ、これらを実際の対局で実装してよいものか、そして実装して面白くなるかは、別の問題ですが……)。
データがない要素もデータとして捉え、仮説を立てて検証して洞察を出すと、現実解がみえてきます。
上記の現象は、「そんなの僕のデータにない!」という理路整然とした誤りが、事実として起こった瞬間だったといえます。
事実に即すことが、データ分析の条件
そのとおりなんですよ!
とはいえ人間が関わる場合、データを取りまくればそれでよいのかと聞かれると、それもまた問題があるよね……ということに。
それこそ「やたら冷徹なデータキャラが、なんでもデータを吸収しまくるバーサーカーや魔獣に改造されてしまった」というような、事実に即さず、事実をぶっ壊してしまう状態を想定できるかもしれません。
これだと、おそらく数多くの人にものすごく迷惑をかけることになっちゃいますね。
倫理を無視してデータを強引に集めるというのは、理路整然とした誤りでもあり、根本的にすべてが間違っていることになってしまいます。
データ倫理という分野が最近生まれており、以下のようなおそれが指摘されています。
このような指摘がなされている事実があるのは、それだけデータ分析の威力が大きく、そのせいで事実を曲解したり壊してしまったりしてしまわないようにするためだといって、差し支えありません。
将棋の対局については、さすがに対局者の方々のコンディションを勘案するのは難しいかもしれませんし、そもそも魅せる対局に水を差すことにもなりかねませんね。
ビジネスや研究開発におけるデータ分析で最も怖いのは、理路整然とした誤りを放置したまま、仮説も事実を無視して突き進んでしまうことです。
結論:「データ分析キャラ」を作ってみたら、成長する「強キャラ」になった
とはいえデータ分析の過程で、前倒しで誤りに気づいて軌道修正することも、またデータ分析のよいところです。
小さな失敗という事実から学び、洞察を出し、道なきところに道を作るのは、極めてデータ分析的だといえます。
実際に筆者がかつて統計モデリングによる新規事業を立ち上げたとき、関わっていた分野(船舶投資)には、統計学で価値評価する前例がほとんどありませんでした。
前例がないからこそ、他の分野で用いられた理論を組み合わせ、一定水準の信頼がおけるモデルを組むことで、研究開発を事業として成立させることができたのです。
今ではそのような分析の研究開発はあちこちで行われており、道が踏み固められてきているといえます。
「データキャラ」が「データ分析キャラ」として妄想と行動を軸に洞察するという発想は、
道なき道にある物事に、面白く実現の道筋を作っている手立てだといえますね。
事実がフィクションを超えていくかのごとく、です。
「データキャラ」の前に、もしも「データ分析キャラ」が出てきたら、きっとこうなるはずです。
「すべて僕の計算通りだ」
→「甘いね。データ分析の世界では、計算どおりにならないことを常に勘案すべきだ」
「僕のデータによると……、フン、君たちが負ける確率は98%だね」
→「僕がここまで取得したデータから推計すると、君たちが負ける確率は98%だが、君たちはきっと戦っているうちに学習する。学習という事実を、戦いながら勘案させてもらうよ」
「何だと! そんなの僕のデータになかったぞ!」
→「データはそもそもないことのほうが多い。かといってデータが多すぎると素早さが下がる。だからアタリをつけてその都度で分析するんだ」
→「当初のモデルの仮説に事実誤認があったことがわかり、再構築したモデルでは精度が向上した。僕の読みどおり、君たちはやっぱり強いね。燃えてきたよ」
こう書くと、なんだか「データ分析キャラ」ってものすごく「クールな強キャラ」で、カッコよくないですか?
そのとおり、都度成長していくのですから、分析するたびに学習して強くなれるのが、データ分析の面白いところなんです。
「データ分析は難しい!」と思われがちだからこそ、「成長」を軸に置いて、親しむくらいでちょうどいいのです。
データ分析にまつわる素朴な疑問でもよいですし、
他の「こんなことが気になる!」でも、
ついつい湧き出る妄想でも構いません。
すべては、何かを始めるためにうってつけの理由です。
それでも「やっぱり不安だな…」という物事があれば、
お気軽にログハウスのドアをノックしてくださいね。
〈旬刊『経理情報』電子版のご案内〉
「データ分析のログハウス」は、旬刊『経理情報』2022年7月10日号からスタートした連載「「データ分析の森」ガイドマップ」との連動記事です。
本誌では、DXやリスキリングなどで注目される「データ分析」について、その具体的な中身や取組み方などをやさしく丁寧に解説していただいています。ぜひあわせてご一読ください。定期購読はこちらから。
『経理情報』は、会社実務に役立つ、経理・税務・金融・証券・法務のニュースと解説を10日ごとにお届けする専門情報誌です。タイムリーに新制度・実務問題をズバリわかりやすく解説しています。
電子版(PDF)の閲覧・検索サービスもご用意!詳細はこちらから。
バックナンバー
第1回 ログハウスができたよ!
第2回 「データ分析の人材市場」を分析したよ!(※属性つき)
第3回 FP&Aが「つまらない」は本当?
第4回 リスキリングの本質って何?
第5回 ゼロから始める事業立上げ 財務モデリングを超シンプルに!
第6回 「データない問題」に立ち向かう。
#中央経済社 #旬刊経理情報 #経理情報 #データ分析のログハウス #データ分析の森 #データ分析 #経理 #財務 #バックオフィス #DX