トービットモデル・ヘーキットモデルとは? 「見えているデータだけ」で判断すると誤るビジネス分析の落とし穴

分析で怖いのは「データが少ないこと」だけではない
企業がデータ分析を行うとき、多くの場合、まず問題になるのは「分析に耐え得るデータボリュームがあるか」です。購買履歴はあるか。顧客属性はあるか。施策の実施履歴は残っているか。こうした確認はもちろん重要です。しかし、実務の分析で本当に厄介なのは、単にデータが少ないことだけではありません。むしろ注意すべきなのは、「データは存在しているように見えるが、実は見え方に偏りがある」というケースです。
たとえば、ある商品の購入金額を分析したいとします。データを見ると、多くの顧客の購入金額が0円になっている。これをそのまま通常の回帰分析にかけると、「年齢が上がるほど購入金額が増える」「特定の会員ランクでは購入金額が高い」といった結果が出るかもしれません。
一見すると、分析としては成立しているように見えます。顧客ごとの購入金額があり、年齢や性別、会員ランク、過去の購入履歴もある。統計ソフトに入れれば係数もp値も出ます。しかし、ここで立ち止まる必要があります。
購入金額が0円の人は、本当に「まったく買う気がなかった」のでしょうか。価格が高くて断念した人、在庫がなくて買えなかった人、キャンペーンに気づかなかった人、購入直前で離脱した人が、すべて同じ0円として扱われていないでしょうか。
あるいは、ECサイトで「購入者の購入単価」を分析する場合はどうでしょうか。購入単価が見えているのは、当然ながら購入した人だけです。購入しなかった人の単価は観測されません。ところが、その購入者だけを対象に分析して、「この属性の顧客は単価が高い」と結論づけてしまうと、そもそも購入に至った人だけを見ていることによる偏りが生じる可能性があります。
このように、ビジネスデータにはしばしば「観測され方のクセ」があります。トービットモデルとヘーキットモデルは、まさにこのようなクセを補正しながら、より現実に近い推定を行うための計量経済学モデルです。
「普通の回帰分析」では何が問題になるのか
通常の回帰分析は、売上金額、購入数量、利用時間、顧客満足度、給与、利益率など、連続的な数値を説明するためによく使われます。
たとえば、次のような問いに答える場面です。
- 「価格を上げると売上はどれだけ下がるのか」
- 「広告接触回数が増えると利用金額はどれだけ増えるのか」
- 「会員ランクが上がると年間購入額はどれだけ変わるのか」
- 「スキルスコアが高い社員ほど給与や評価は高いのか」
こうした分析では、説明したい数値が自然な形で観測されていることが前提になります。つまり、対象者全員について、結果の数値が偏りなく見えている状態です。
しかし、実際のデータではこの前提が崩れることがあります。購入金額は0円未満になりません。利用時間も0時間未満にはなりません。寄付金額も、広告クリック数も、注文数量も、多くの場合は0を下限として観測されます。さらに、アンケート調査では「最大100万円まで」「週40時間以上は40時間として記録」といった形で、上限や下限が設定されていることもあります。
このように、本来は連続的な行動や意向が背後にあるにもかかわらず、観測されるデータが特定の値に集中してしまう場合、通常の回帰分析はうまく機能しないことがあります。
もう一つの問題は、そもそも結果が一部の人についてしか観測されないケースです。
購入単価は購入者にしか存在しません。商談金額は商談化したリードにしか存在しません。退職後アンケートは回答した退職者にしか存在しません。給与データを転職市場で分析する場合、働いている人の給与は見えますが、働いていない人の「もし働いていたら得られた給与」は見えません。このようなデータに対して、観測されている人だけを対象に通常の回帰分析を行うと、分析対象がもともと偏っているため、結論も偏る可能性があります。
つまり、問題は「分析手法が難しいかどうか」ではありません。本質的な問題は、「いま見えているデータが、分析したい対象全体を正しく代表しているのか」という点にあります。
トービットモデル:0円や上限値に張り付くデータをどう扱うか
トービットモデルは、被説明変数がある水準で打ち切られている、あるいは一定の範囲内でしか観測されない場合に用いられるモデルです。代表的なのは、0が大量に含まれるデータです。
たとえば、ある月の購入金額を顧客ごとに集計したとします。購入した人は1,000円、5,000円、20,000円といった金額が記録されます。一方、購入しなかった人は0円です。このとき、0円の人が大量に存在すると、購入金額の分布は通常の回帰分析が想定するようなきれいな連続分布にはなりません。ここで重要なのは、0円という値の意味です。
0円は、単なる小さい購入金額ではありません。100円や500円と同じ延長線上にある値として扱うには注意が必要です。なぜなら、購入金額には「買うかどうか」と「買う場合にいくら買うか」という二つの側面が含まれているからです。
通常の回帰分析では、0円も1,000円も10,000円も同じ連続的な数値として扱います。そのため、0円が大量に存在するデータでは、推定結果が0円の山に引っ張られ、購入者の金額変化や潜在的な購買傾向をうまく捉えられないことがあります。
トービットモデルでは、背後に「潜在的な購入意向」や「潜在的な利用量」のような連続的な値があると考えます。しかし、その値が一定水準を下回る場合には、観測上は0として記録される。つまり、観測された0円の背後にも、単なる無関心だけではなく、購入に近い状態の人や、条件が変われば購入に至る可能性がある人が含まれていると考えます。これは、実務上非常に重要です。
たとえば、広告施策の効果を分析する場合、広告を見た顧客の購入金額が0円だったからといって、その広告がまったく効いていないとは限りません。購入には至らなかったものの、サイト閲覧や比較検討には進んでいた可能性があります。通常の回帰分析では、こうした「0円に隠れた差」が見えにくくなります。
トービットモデルは、0に張り付いたデータを単純にゼロとして処理するのではなく、観測されなかった潜在的な連続値を考慮しながら推定する点に特徴があります。
トービットモデルを使わないと何が起こるのか
トービットモデルを使うべき状況で通常の回帰分析を行うと、ビジネス上の判断を誤る可能性があります。
たとえば、あるサブスクリプションサービスで、顧客ごとの追加課金額を分析するとします。多くの顧客は追加課金をしておらず、追加課金額は0円です。一部の顧客だけが、数百円から数万円の追加課金をしています。
ここで通常の回帰分析を行うと、0円の顧客が大量に含まれるため、説明変数の効果が過小評価されることがあります。本当は、特定のキャンペーン接触や利用頻度が追加課金意向を高めているにもかかわらず、実際の課金に至っていない顧客が多いため、「キャンペーン効果は小さい」と判断されてしまうかもしれません。
逆に、購入者だけを抜き出して分析してしまうと、今度は「課金した人の中での金額差」しか見えなくなります。非課金者を除外することで、施策が課金するかどうかに与えた影響を見落としてしまう可能性があります。
つまり、
- 0円を含めて通常の回帰分析をすると、0円の山に引っ張られる
- 購入者だけに絞ると、購入に至るかどうかの情報を捨ててしまう
このどちらも、実務上は危険です。
特に、マーケティング施策、価格施策、寄付行動、追加購入、利用時間、アプリ内課金、キャンペーン反応など、0が多く発生するデータでは、通常の回帰分析だけで結論を出す前に、データの観測構造を確認する必要があります。
ヘーキットモデル:見えている人だけを分析してよいのか
ヘーキットモデルは、サンプルセレクション、つまり「結果が観測される人とされない人が、ランダムに決まっていない」場合に用いられるモデルです。ビジネスの現場では、この問題が頻繁に起こります。
たとえば、ECサイトで購入単価を分析したいとします。手元には、購入者の購入単価、購入商品、利用クーポン、会員ランク、流入経路などのデータがあります。これだけを見ると、購入単価を説明する分析ができそうです。
しかし、購入単価が観測されるのは購入した人だけです。購入しなかった人には購入単価が存在しません。ここで重要なのは、「購入した人」は偶然選ばれた人ではないということです。購入した人は、商品への関心が高い、予算がある、価格に納得している、ブランドへの信頼がある、キャンペーンに反応しやすいなど、何らかの理由で購入に至った人です。
つまり、購入者だけを対象に単価を分析すると、最初から購買意欲の高い人だけを見ている可能性があります。その結果、価格やキャンペーンの効果を誤って評価してしまうことがあります。
ヘーキットモデルでは、まず「結果が観測されるかどうか」、つまり購入するかどうか、回答するかどうか、就業するかどうか、商談化するかどうかといった選択プロセスをモデル化します。そのうえで、選ばれた人だけに観測される金額や数量、スコアなどを分析します。
この二段階の考え方により、「そもそも観測対象に入るかどうか」という偏りを補正しながら、結果の数値を推定できるようになります。
ヘーキットモデルを使わないと何が起こるのか
ヘーキットモデルを使うべき状況で、観測されている人だけを対象に通常の回帰分析を行うと、選択バイアスが生じます。たとえば、ある企業が資料請求後の商談金額を分析したいとします。手元には、商談化したリードの商談金額、業種、企業規模、流入チャネル、閲覧ページ、営業接触履歴などがあります。
このデータを使って、「どのようなリードは商談金額が高いのか」を分析することは一見できそうです。しかし、商談金額が観測されるのは、商談化したリードだけです。資料請求はしたが商談化しなかったリード、問い合わせはしたが途中で離脱したリードは、商談金額の分析対象から外れます。
ここで、もし大企業ほど商談化しやすく、かつ商談金額も高い傾向があるとします。その場合、商談化したリードだけを見ていると、企業規模の効果が過大に見える可能性があります。逆に、特定のチャネルは商談化率は低いものの、商談化した場合の金額は高いかもしれません。このような場合、単純な分析ではチャネルの真の価値を見誤る可能性があります。
同じことは、人事データ分析でも起こります。
たとえば、退職者アンケートの結果をもとに退職理由を分析する場合、回答しているのは退職者の一部です。強い不満を持つ人ほど回答しやすいのか、円満退職者ほど丁寧に回答するのか、会社との関係性によって回答確率が変わるのか。こうした選択が存在する場合、回答者だけを見て「退職理由の全体像」を語ると、偏った結論になる可能性があります。
ヘーキットモデルは、このような「見えている人だけで結論を出してよいのか」という問題に対処するための方法です。
トービットモデルとヘーキットモデルの違い
トービットモデルとヘーキットモデルは、どちらも「普通の回帰分析では扱いにくいデータ」を対象にします。そのため混同されやすいのですが、実務上は使いどころが異なります。
トービットモデルが問題にするのは、被説明変数そのものが一定の範囲でしか観測されないケースです。購入金額が0円未満にならない、利用時間が0未満にならない、アンケートの回答が上限値で頭打ちになる、といった状況です。対象者全員について結果は観測されているものの、その数値が下限や上限で制限されている場合に適しています。
一方、ヘーキットモデルが問題にするのは、結果が観測される対象者が選ばれているケースです。購入者だけ購入単価が見える、回答者だけ満足度が見える、就業者だけ賃金が見える、商談化したリードだけ商談金額が見える、といった状況です。結果が観測されるかどうか自体が、分析対象の性質と関係している可能性がある場合に適しています。
簡単に言えば、トービットモデルは「数値が端に張り付いている」問題に対応します。ヘーキットモデルは「そもそも数値が見えている人が偏っている」問題に対応します。この違いを見極めずにモデルを選ぶと、分析結果は一見もっともらしく見えても、実務上は使いにくいものになります。
ビジネスで活用できる具体的な場面
トービットモデルとヘーキットモデルは、学術的な分析だけでなく、企業の実務データにも幅広く活用できます。
1. マーケティング施策の購買金額分析
キャンペーン接触後の購入金額、クーポン配布後の利用金額、広告接触後の課金額などは、0円が大量に発生しやすいデータです。
このようなデータに通常の回帰分析を使うと、施策の効果が0円の多さに埋もれてしまうことがあります。トービットモデルを用いることで、施策が潜在的な購買意向や購入金額にどのような影響を与えているのかを、より丁寧に評価できます。
たとえば、「クーポン配布は購入者の購入金額を増やしたのか」だけでなく、「購入に至らなかった顧客の潜在的な反応も含めて、どの程度購買意向を押し上げた可能性があるのか」を検討できます。
2. サブスクリプションやアプリ内課金の分析
サブスクリプションサービスやアプリでは、多くのユーザーが追加課金を行わず、一部のユーザーだけが課金するという構造がよく見られます。
このとき、追加課金額を通常の回帰分析で扱うと、非課金者の0円が大量に含まれるため、課金額の変化をうまく説明できないことがあります。トービットモデルは、追加課金額が0で打ち切られているようなデータに対して有効な選択肢になります。
また、課金者だけの課金額を分析する場合には、ヘーキットモデルの考え方が必要になることもあります。なぜなら、課金者はランダムに選ばれた人ではなく、もともと利用意欲や支払意欲が高い人である可能性があるからです。
3. 営業・BtoBマーケティングの商談金額分析
BtoB企業では、問い合わせや資料請求、ウェビナー参加、ホワイトペーパーダウンロードなどのリード情報をもとに、商談化率や受注金額を分析することがあります。
このとき、商談金額や受注金額が観測されるのは、一定の営業プロセスまで進んだリードだけです。すべてのリードに商談金額があるわけではありません。
そのため、商談化したリードだけを対象に「どのチャネルの金額が高いか」を分析すると、商談化されやすいリードだけを見ていることによる偏りが生じる可能性があります。
ヘーキットモデルを用いれば、まず商談化するかどうかの選択プロセスを考慮し、そのうえで商談金額や受注金額の分析を行うことができます。これにより、単なる平均商談金額の比較よりも、チャネルや施策の価値をより適切に評価しやすくなります。
4. 価格分析・支払意思額の分析
価格分析では、顧客がいくらまでなら支払うか、価格変更によって需要がどの程度変化するかを推定することがあります。
しかし、現実の販売データでは、購入しなかった人の「本当はいくらなら買ったのか」は観測されません。購入者の支払金額だけを見ても、非購入者の価格感度はわかりません。
また、アンケートで支払意思額を尋ねる場合も、「0円」「上限額以上」といった回答が多くなることがあります。このような場合には、トービットモデルの考え方が有効になることがあります。
一方で、購入者だけの購入単価や継続者だけの契約金額を分析する場合には、ヘーキットモデルのように「誰の金額が観測されているのか」を考慮する必要があります。
価格分析において重要なのは、見えている購入金額だけでなく、購入に至らなかった顧客や観測されていない支払意思額をどう扱うかです。ここを誤ると、価格を上げるべきか下げるべきか、割引を行うべきか、どの顧客にどのオファーを出すべきかという意思決定を誤る可能性があります。
5. 人事データ分析・ピープルアナリティクス
人事領域でも、トービットモデルやヘーキットモデルの考え方は重要です。
たとえば、残業時間、有給取得日数、研修受講時間、社内制度の利用回数などは、0が多く発生しやすいデータです。制度をまったく利用していない人が多い場合、通常の回帰分析では、制度利用の背景にある潜在的なニーズや制約を十分に捉えられないことがあります。
また、エンゲージメントサーベイや退職者アンケートでは、回答者だけのデータを見ている可能性があります。回答する人としない人に違いがある場合、回答者だけを対象に分析すると、組織全体の状態を正しく捉えられないことがあります。
たとえば、退職者アンケートに回答している人だけを見て「退職理由の主要因」を判断すると、回答しなかった退職者の傾向を見落とすかもしれません。エンゲージメントサーベイでも、不満が強い人ほど回答するのか、逆に会社への関心が高い人ほど回答するのかによって、結果の読み方は変わります。
こうした場面では、単に平均値や相関を見るだけでは不十分です。誰が回答しているのか、誰が制度を利用しているのか、誰の結果が観測されているのかを踏まえた分析設計が求められます。
モデル選定よりも重要な「データの観測構造」の理解
トービットモデルやヘーキットモデルという名前だけを聞くと、特殊で難しい統計手法の話に見えるかもしれません。しかし、実務上もっとも重要なのは、モデル名を知っていることではありません。大切なのは、データがどのように生成され、どのような条件で観測されているのかを理解することです。
- 購入金額が0円の人は、本当に購入意向がない人なのか
- 購入単価が見えている人は、なぜ購入に至ったのか
- アンケート回答者は、全体を代表しているのか
- 商談金額が記録されている案件は、どのような選択を通過した案件なのか
- 制度利用回数が0の社員は、不要だから使っていないのか、使いたくても使えないのか
こうした問いを立てずに分析を始めると、どれほど高度なツールを使っても、分析結果は表面的なものになります。
逆に、データの観測構造を丁寧に整理すれば、必ずしも最初から複雑なモデルを使う必要はありません。まずは記述統計、分布の確認、0の割合、欠測の発生条件、観測対象の偏りを確認する。そのうえで、通常の回帰分析でよいのか、トービットモデルが必要なのか、ヘーキットモデルを検討すべきなのかを判断する。この順序が重要です。
分析の外部委託で差が出るポイント
トービットモデルやヘーキットモデルが必要になるような分析では、依頼側と分析者の間で、最初にすり合わせるべき論点があります。それは、「何を推定したいのか」と「何が観測されていないのか」です。
たとえば、購入金額を分析したいと言っても、実際には複数の問いがあります。購入するかどうかを知りたいのか。購入した場合の金額を知りたいのか。非購入者も含めた潜在的な支払意欲を知りたいのか。キャンペーンが購入確率に効いたのか、購入金額に効いたのか、それとも両方なのか。
この問いが曖昧なまま分析を進めると、モデルの選択も曖昧になります。結果として、見た目は整ったレポートが出てきても、「結局、何を意思決定すればよいのか」が分からない分析になってしまいます。
データ分析の外部委託で重要なのは、単に統計モデルを実装できるかどうかではありません。ビジネス上の問いを、データの構造に合った分析課題へ翻訳できるかどうかです。たとえば、価格施策の効果検証であれば、「売上が増えたか」だけではなく、購入者数が増えたのか、購入単価が上がったのか、非購入者の反応が変わったのかを分けて考える必要があります。
商談分析であれば、「受注金額が高いリードはどれか」だけでなく、商談化するかどうかの選択プロセスと、商談化後の金額決定プロセスを分けて考える必要があります。
人事分析であれば、「制度利用者の満足度が高いか」だけでなく、そもそも制度を利用できる人、利用しようと思う人、回答している人がどのように選ばれているのかを考える必要があります。
このような整理ができると、分析は単なる集計や予測ではなく、施策判断に使えるものになります。
見えているデータだけで判断しないために
トービットモデルとヘーキットモデルは、どちらも「見えているデータだけをそのまま分析すると誤る可能性がある」場面で力を発揮するモデルです。
トービットモデルは、購入金額、利用時間、課金額、制度利用回数などが0や上限値に張り付くデータに向いています。観測された数値の背後にある潜在的な行動量や意向を考慮しながら分析できる点が特徴です。ヘーキットモデルは、購入者、回答者、就業者、商談化したリードなど、一部の対象者だけについて結果が観測されるデータに向いています。結果が観測されるかどうかの選択プロセスを考慮することで、選択バイアスを補正しながら分析できます。
ビジネスの意思決定では、見えている数字がすべてではありません。
- 0円の背後にある購買意向
- 購入者だけに見えている単価
- 回答者だけに見えている満足度
- 商談化した案件だけに見えている受注金額
こうした「見えない部分」をどう扱うかによって、分析結果の意味は大きく変わります。通常の回帰分析や単純な平均比較が悪いわけではありません。問題は、それらを使ってよいデータなのかを確認しないまま、機械的に分析してしまうことです。
MyStoryでは、マーケティング、価格分析、商談分析、人事データ分析などの領域において、データの観測構造を丁寧に確認したうえで、目的に応じた分析設計を行います。トービットモデルやヘーキットモデルのような計量経済学モデルも、単なる専門用語としてではなく、企業の意思決定に役立つ形で活用することを重視しています。
- 「購入金額が0円に偏っていて、通常の分析でよいのか分からない」
- 「購入者や回答者だけを分析しており、結果に偏りがないか不安がある」
- 「価格施策、キャンペーン、営業活動、人事制度の効果をより正確に検証したい」
このような課題がある場合は、まずはデータの構造を整理するところから始めることが重要です。見えているデータの奥にある意思決定プロセスを読み解くことで、分析は単なる結果報告ではなく、次の施策につながる判断材料になります。
【参考】MyStoryの『データ利活用支援』サービス
『データ利活用支援』サービスへ移動