問い合わせ: contact@b-mystory.com
MyStory
データ分析2025/04/27キーワード: 効果検証、バイアス、大数の法則、外部委託

間違いに気づくのは難しい?犯しがちなミスから考える、データ分析企業が選ばれる理由

間違いに気づくのは難しい?犯しがちなミスから考える、データ分析企業が選ばれる理由

ChatGPTが変えたデータ分析の姿


2021年末に登場したChatGPTをはじめとする生成AIは、データ分析のやり方を根本的に変えました。生成AIが普及する前までは、データ分析に必要なプログラミングや統計学、数学を覚える難易度は非常に高く、学生時代に専門的な勉強をした人でないと高度な分析を行うことはできませんでした。ただ、生成AI普及以後の世界は、非・データ専門職の方でも簡単にプログラミングができるようになり、高度なアルゴリズムを用いたAIモデルも難なく作れてしまいます。

データ分析の民主化はDataRobotのようなAutoMLツール(ノーコードで機械学習モデルを作成できる分析ツール)の登場時にも叫ばれていましたが、民主化を通り越し「誰でもデータサイエンティスト」時代に突入したようにも感じます。
データ専門職だけでなく、非・データ専門職の方にもデータ分析の裾野が広がり、多くの方が「データドリブン」にビジネスを考え、推進することを後押しした生成AIの功績は大きいと感じる反面、データ専門職の立場からすると、信頼性に乏しい分析結果が氾濫してしまっていることへの危惧もあります。


一見もっともらしい分析は誤りに気づけない


例として、以下のグラフをご覧ください。


これは、私が過去にご支援させていただいたお客様企業のデータサイエンティストの方が実際に行っていた分析を、データをダミー化したうえで再現したものです。本分析に取り組んだ動機として、「自社の会員向けにメール施策を定常的に実施しているが、送られてくるメール数が多いという不満の声が一定数から出ており、嫌がられるメール数を推定したい」旨を、担当者の方は当時おっしゃっていました。そこで、直近数か月のひと月あたりの平均送付メール数ごとに、解約数、NPSなどの各種KPIに違いがあるか検証することで、嫌がられるメール数を推定したとのこと。

分析の結果から、ひと月あたり9通まではメールを送付しても大丈夫という結論に至り、その後その方針をもとにメール施策を展開していったとのことですが、この分析のなにが問題だったかわかる方はいますでしょうか。

おそらく、普段お仕事でデータ分析に携わっている方でも即答するのは難しかったのではないでしょうか。それもそのはず、前述のとおり、この分析はデータサイエンティストが、しかも論文を複数執筆しているシニアデータサイエンティストクラスの方が行った分析であり、そういった「凄腕」の方でもミスに気づかずに分析結果を社内に展開してしまっていたのですから。


メール送付数の違いによるバイアス


私が考える本分析の主な問題点は「メール送付数による会員の属性の違い」を考慮できていないことです。詳しく説明します。

マーケティングにおいて特定の方にメールを送る場合、一般的には「優良顧客」、もしくは「優良顧客になってくれそうな顧客」に送るケースが私の経験上多いです。もちろん、離反しそうな顧客に対するリテンション施策や、既に離反してしまった顧客の復活施策の意味合いで送るメールもあるでしょう。
ただ、絶対数で言えば、「最近、特定商品を購入した顧客」、「直近6か月間の購入金額が5万円以上の顧客」、「入会から30日以内に何らかの商品を購入した顧客」など、優良顧客や優良顧客候補に送られるメール数が多くなるのが一般的です。

その前提に立った場合、単純にメール送付数ごとにKPIの値を比較してしまと、本来知りたかった「メール送付数によるKPIの違い」ではなく、「優良顧客(候補含む)と非優良顧客の違い」を見ていることになってしまうのです。
一般的に、優良顧客はその会社の商品や会社自体へのロイヤルティーが高い顧客と考えられるので、仮に多くの数のメールを送っても忌避反応を示しづらいかもしれませんが、優良顧客ではないその他大勢の顧客にとっては、同じ数だけメールが送られてくるとうんざりしてその会社や商品に対する好意度が下がり、ひいては解約に繋がってしまうかもしれません。


n数の違いと大数の法則


また、データを見るまでもなく予想がつきますが、一般的にメール送付数が少ない顧客ほどn数が多く、メール送付数が多くなるにつれてn数は減っていくはずです。実際に、本分析の結果を見てもそのような傾向になっていることが読み取れます。その際、どのような問題が発生するのでしょうか。

これは、データの分散の観点から説明できまして、例えば歪みのないコインを投げた際の表が出る期待値は50%ですが、10回だけコインを投げたらたまたま表が多く出て、8回が表で2回が裏だったということも大いにあり得るでしょう。
ただ、コインを投げる回数を10回から100回、1000回、10000回…と増やしていったら、表が出る期待値は次第に50%に近づいていくことが数多くの研究結果からも明らかにされています。この現象は統計学においては「大数の法則」という概念で広く知られています。

つまり、何が言いたいかと言いますと、n数が少ないほどデータの分散が大きくなる、わかりやすく言うなら「データが暴れやすく」なります。本分析の結果を見てみると、n数が少ないメール送付数の多いグループはデータが「暴れて」おり、分散の大きさの違いを考慮せずに単純にメール送付数ごとにKPIを見ると、事実を見誤って会社に大きな損失をもたらしてしまう恐れもあります。


メール送付数 ⇒ KPIの因果関係を仮定して良いか?


もう少し専門的な話をさせていただきますと、本分析結果をもとに「メール送付数が多くなるほど、KPIが悪化する」という単純な因果関係を仮定しても良いのでしょうか。相関関係があるからと言って因果関係があるとは限らない、という事実は統計学においては常識ですが、例えば今回のケースではNPSが低い顧客に対してNPSを向上させるために多くのメールを送るという施策方針だったのかもしれません。
このような場合、可能な限りバイアス要因を制御し正確な結果を得るためには、統計的因果推論や計量経済学モデルなどを導入し分析する必要がありました。


データ分析は難しい


このように、表面的にはもっともらしそうな分析だと、結果を共有されても間違いに気づき、違和感を指摘できる方は決して多くないのではないでしょうか。正しくデータ分析を行うためには、統計学や機械学習の豊富な知見をベースにしつつ、あらゆるところに潜むバイアスに気づける眼、企業や消費者の思考や行動の癖を想像できる思考力、ビジネス的な制約を踏まえつつビジネスに寄与しようとする姿勢など、非常に幅広い能力・スキルが求められます。
技術力があるだけではダメですし、ビジネス現場をよく知っているだけでもダメ。もちろんChatGPTやその他の最新テクノロジーを使いこなせるだけでもダメで、それらの能力をバランス良く備えている必要があります。

ただ、一人でそれら全ての能力を身につけるのは容易ではなく、だからこそ私たちのような専門家集団が多くのお客様企業から選ばれるのだと思っています。データ分析企業には、技術力に優れた人材、テクノロジーに長けた人材、ビジネス現場に詳しい人材など、データ分析に必要な能力を有している人材が複数在籍していることが一般的であり、特性の異なる人材がチームを組んでお客様の課題に寄り添うことで、正しいデータ分析結果をもとにビジネスを前進させることができます。

仮に、お客様企業内にそのような特性を備えた方々が在籍しているとしても、外部のデータ分析会社に委託することによって、社員の負担を軽減しコア業務にリソースを割けるようになり、限られた社員の方の工数を最大限有効活用できるというメリットもあるかと思います。

テクノロジーの活用が当たり前になった現在においては、ビッグデータの活用はますます進み、今後もその重要性は高まっていくでしょう。そんな時代において、外部のデータ分析企業を上手く活用できる企業が、競合の一歩先に出てデータ時代の勝者になれるのだと考えております。

執筆者
作田
株式会社MyStory マーケティングチーム コミュニケーションG
MyStoryのコーポレートサイトや広報・PR関連のコンテンツの企画を担当
ご相談はこちらDeep Sportsへ