前回のコラムでは、ロジットモデルとプロビットモデルを使って、「買う or 買わない」という2択の意思決定をどうデータから読み解くかを解説しました。しかし、現実にはもっと複雑なケースがあります。
・商品に興味はあったが、在庫がなかった
・申し込みページまでは行ったが、価格を見て離脱した
・「買いたいけど予算がない」ために諦めた
このようなケースでは、「買わなかった」ことは観測できますが、「本当は買いたかったのかどうか」まではわかりません。今回のテーマであるトービットモデルとヘーキットモデルは、こうした「観測できない意思決定」や「制約されたデータ」を分析するための強力なツールです。
ロジット・プロビットモデルは、「ある人が商品を買うかどうか(0か1か)」を説明変数(年齢、性別、価格など)をもとに予測するモデルですが、トービット・ヘーキットモデルはこうしたシンプルな2択だけでは対応できない状況に使われます。
トービットモデル:値が「途中で切れている」データに強い
たとえば、「ある商品の支出額」を分析したいとします。しかし、実際のデータには支出0円がたくさんある。これは「買わなかった」からです。このとき、単純に0円も含めて回帰分析(OLS)してしまうと、以下のような問題が起こります。
・本当は「買いたいけど買えなかった」人も0円に含まれてしまう
・実際の支出行動の傾向が正しく推定できなくなる
トービットモデルでは、「購買金額は連続的な潜在値として存在しているが、0より小さい値は観測されない(=切り捨てられる)」という前提でモデルを構築します。言い換えると
・「本当は支出する意思があったけれど、観測上は0に見える人」も考慮に入れて分析できる
・切り捨てられた部分を補正しながら、より正確に購買意欲や支出傾向を推定できる
例として、コンビニコーヒーの購入額(0円~500円)を分析したいときに、「0円」のデータが多く含まれる場合、トービットモデルは「買いたかったけど買っていない」人の可能性も加味して支出の傾向を推定することが可能です。
ヘーキットモデル:「観測されるのは買った人だけ」問題に対応
一方、ヘーキットモデルが活躍するのは、次のような状況です。
・購入者の単価や購入個数はわかる
・しかし「購入しなかった人の情報」は観測されていない
このとき、「見えているデータだけ」で回帰分析すると、分析対象が偏っているため、バイアスのある結論になってしまいます。ヘーキットモデルは、「選ばれた人(=購入した人)だけが観測される」状況を選択バイアスと捉え、2段階で分析を行います。
これによって、「買わなかった人が見えていないことによるバイアス」を補正することができます。
モデル | 向いているケース | 特徴 |
---|---|---|
トービットモデル | 金額や数量が0で"打ち切られて"いるデータ | 負の値は観測されないという前提 |
ヘーキットモデル | 「買った人」しかデータがない場合 | 選択バイアスを補正しながら推定 |
具体例で比較
・トービットモデルが向いているケース:アンケートで「1ヶ月の外食費(0円含む)」を集計 → 0円も含めた支出傾向を補正
・ヘーキットモデルが向いているケース:ECサイトの購買単価(購入者のみのデータ) → 「買わなかった人」を考慮して平均単価を補正
トービットモデルもヘーキットモデルも、データに「見えない制限」がかかっているときに力を発揮します。
・観測されない購買意欲
・観測されない非購入者の行動
・「0円」に隠れた真の支出意欲
これらを補正し、より正確なマーケティング施策や商品戦略に役立てることができます。
MyStoryでは、ロジットやプロビットだけでなく、トービットモデルやヘーキットモデルも活用し、「なぜ買わなかったのか?」「誰がどれだけ支出したかったのか?」といった見えづらい行動の分析を支援しています。ご関心のある方はぜひ気軽にお問い合わせください。