トービット・ヘーキットモデルで「買いたいけど買えない」を分析

はじめに:「買わない」ではなく「買えなかった」かもしれない
前回のコラムでは、ロジットモデルとプロビットモデルを使って、「買う or 買わない」という2択の意思決定をどうデータから読み解くかを解説しました。しかし、現実にはもっと複雑なケースがあります。
- 商品に興味はあったが、在庫がなかった
- 申し込みページまでは行ったが、価格を見て離脱した
- 「買いたいけど予算がない」ために諦めた
このようなケースでは、「買わなかった」ことは観測できますが、「本当は買いたかったのかどうか」まではわかりません。今回のテーマであるトービットモデルとヘーキットモデルは、こうした「観測できない意思決定」や「制約されたデータ」を分析するための強力なツールです。
ロジット/プロビットとの違いは?「切り捨て」や「観測制限」に対応できるかどうか
ロジット・プロビットモデルは、「ある人が商品を買うかどうか(0か1か)」を説明変数(年齢、性別、価格など)をもとに予測するモデルですが、トービット・ヘーキットモデルはこうしたシンプルな2択だけでは対応できない状況に使われます。
トービットモデル:値が「途中で切れている」データに強い
たとえば、「ある商品の支出額」を分析したいとします。しかし、実際のデータには支出0円がたくさんある。これは「買わなかった」からです。このとき、単純に0円も含めて回帰分析(OLS)してしまうと、以下のような問題が起こります。
- 本当は「買いたいけど買えなかった」人も0円に含まれてしまう
- 実際の支出行動の傾向が正しく推定できなくなる
トービットモデルでは、「購買金額は連続的な潜在値として存在しているが、0より小さい値は観測されない(=切り捨てられる)」という前提でモデルを構築します。言い換えると
- 「本当は支出する意思があったけれど、観測上は0に見える人」も考慮に入れて分析できる
- 切り捨てられた部分を補正しながら、より正確に購買意欲や支出傾向を推定できる
例として、コンビニコーヒーの購入額(0円~500円)を分析したいときに、「0円」のデータが多く含まれる場合、トービットモデルは「買いたかったけど買っていない」人の可能性も加味して支出の傾向を推定することが可能です。

ヘーキットモデル:「観測されるのは買った人だけ」問題に対応
一方、ヘーキットモデルが活躍するのは、次のような状況です。
- 購入者の単価や購入個数はわかる
- しかし「購入しなかった人の情報」は観測されていない
このとき、「見えているデータだけ」で回帰分析すると、分析対象が偏っているため、バイアスのある結論になってしまいます。ヘーキットモデルは、「選ばれた人(=購入した人)だけが観測される」状況を選択バイアスと捉え、2段階で分析を行います。
- 選ばれる確率(購入するかどうか)をプロビットモデルで推定
- その後の金額や数量を補正しながら回帰分析
これによって、「買わなかった人が見えていないことによるバイアス」を補正することができます。

トービットとヘーキットの使い分け:どちらが適切かは「データの観測状況」で決まる
モデル | 向いているケース | 特徴 |
|---|---|---|
トービットモデル | 金額や数量が0で"打ち切られて"いるデータ | 負の値は観測されないという前提 |
ヘーキットモデル | 「買った人」しかデータがない場合 | 選択バイアスを補正しながら推定 |
具体例で比較
- トービットモデルが向いているケース:アンケートで「1ヶ月の外食費(0円含む)」を集計 → 0円も含めた支出傾向を補正
- ヘーキットモデルが向いているケース:ECサイトの購買単価(購入者のみのデータ) → 「買わなかった人」を考慮して平均単価を補正
まとめ:見えない行動まで読み解くための統計モデル
トービットモデルもヘーキットモデルも、データに「見えない制限」がかかっているときに力を発揮します。
- 観測されない購買意欲
- 観測されない非購入者の行動
- 「0円」に隠れた真の支出意欲
これらを補正し、より正確なマーケティング施策や商品戦略に役立てることができます。
おわりに
MyStoryでは、ロジットやプロビットだけでなく、トービットモデルやヘーキットモデルも活用し、「なぜ買わなかったのか?」「誰がどれだけ支出したかったのか?」といった見えづらい行動の分析を支援しています。ご関心のある方はぜひ気軽にお問い合わせください。