マーケティングでも政策分析でも、日常的に遭遇する「選択」はデータ分析において非常に重要なテーマです。
・「この商品を買うか、買わないか」
・「メルマガを開封するか、スルーするか」
・「有料会員になるか、ならないか」
こうした2択の選択を統計的にモデル化する際に使われる代表的な手法が、「ロジットモデル」と「プロビットモデル」です。2つは似たような予測をするモデルですが、「なぜ選ばれるのか」をどう捉えるかに違いがあります。
どちらのモデルも、説明変数(年齢、価格、性別など)をもとに「選ばれる確率」を推定します。ただし、「人の選好がどう分布しているか」という前提が異なります。
・プロビットモデル:人々の選好は正規分布(平均0・分散1)に従うと仮定
・ロジットモデル:人々の選好はロジスティック分布(S字型で裾が広い)に従うと仮定
この違いは、実は「競り合いになったときにどう差が出るか」に影響します。
たとえば、コンビニで「パン」か「おにぎり」を選ぶ状況を考えましょう。
・価格はどちらも150円
・健康志向の人はおにぎりを好み、甘党の人はパンを好む
このとき、人によって選ぶ理由は異なりますが、たとえば「おにぎりの健康度」が2ポイント、「パンの甘さ」が1ポイントとしましょう。
ロジットモデルのイメージ
選択の確率は差(相対的な魅力度)によってなめらかに変化します。
パンの甘さが1→2→3→…と増えていくにつれ、パンが選ばれる確率は次第に高まっていきます。つまり、「ちょっとパンの魅力が上がっただけで、パン派が急増」ということは起きづらいのが特徴です。
プロビットモデルのイメージ
こちらは、選好のばらつきが小さい(正規分布)という前提。
そのため、「ほんの少しの違い」で急に選ばれる確率が増えることがあります。
たとえば、パンの魅力が2.0から2.1になったとたん、「ちょうど中立だった人たち」が一斉にパンを選ぶようになる可能性があります。
このように、ロジットとプロビットでは「選ばれる確率がどう変化するか」という感度の特徴が異なります。
・プロビット:変化が一気に起こる
・ロジット:変化がなだらか(外れ値に強い)
これが重要になるのは、たとえば選択が微妙な差で決まるようなシーンです。小さな差に対する反応を重視したいならプロビット。逆に、極端な選好(例:パンしか食べない)を含む集団に対してはロジットが安定します。
ここまで2つのモデルが持つ“哲学”の違いを説明してきましたが、実務的には「どちらでも大差ない」ことが多く、ビジネスでデータ分析を行う際にはどちらを使うかにそこまで頭を悩ます必要がないのも事実です。その主な理由は以下になります。
・実務で扱うデータは、入力される変数の範囲が限られていることが多いため、出力される確率の差も微小
・ビジネス現場では精緻な分布の違いよりも、施策の方向性が重要
・両者とも簡単に実装可能で、精度の差より使いやすさがビジネス現場では重視される
今回のロジット・プロビットモデルは、「選ぶ or 選ばない」が明示的に観測される場面に有効です。しかし現実には
・買いたかったけど、在庫切れだった
・サイトを訪れたが、価格が高くてやめた
・課金画面で離脱した
といった「選ばなかった理由が見えない」ケースも多数あります。こうした制約や選好の未観測を扱うためには、「トービットモデル」「ヘーキットモデル」のような、より発展的なモデルが必要になります。次回のコラムでは観測されない選好や制約条件に踏み込むモデルであるトービットモデルとヘーキットモデルについて、モデルの持つ特性や、ロジット・プロビットモデルとの違いなどについて解説していく予定です。より複雑な行動分析にご関心のある方は、ぜひご覧ください。
MyStoryでは、プロビットモデルやロジットモデルをはじめとした統計・機械学習モデルを活用し、「顧客がどのように選択しているのか」、「どんな要因が行動を左右しているのか」といった問いに、データで答えるお手伝いをしています。関心があるお客様はぜひ気軽にお問い合わせください。