ベイジアンネットワーク

ベイジアンネットワークの概要

 ベイジアンネットワークは、複数の変数の確率的な因果関係をネットワーク構造で表わし、ある変数の状態を条件として与えたときの他の変数の条件付確率を推論することができる手法です。目的変数と説明変数の区別がなく、様々な方向から変数の確率シミュレーションができます。なお全ての変数は質的変数(カテゴリカル変数)となるため、量的変数の場合は閾値を設けてカテゴリに分割する必要があります。また確率論の非線形処理によるモデル化のため、非線形の関係や交互作用が生じる現象でも記述できることも特徴です。

 

 

確率的因果関係と交互作用

 例えば上の図のモデルでは、X2はX1とX5による確率的な因果関係(依存関係)があるということになりますが、これはどのようなことか説明します。下の図ではこのベイジアンネットワークのモデルを用いて、X1やX5を条件に与えたとき、あるいは何も条件に与えないときのX2の発生確率を推論したものです。X2の発生確率は、何も条件を与えない時(事前確率)と比べて、X1やX5を条件に与えると確率が上昇しています。この状態をX1やX5はX2の発生に関して”確率的な”因果関係があると言います。
 しかし、X1とX5の両方を条件に与えると、元々の事前確率よりも確率が下がってしまっています。この状態はX1とX5はX2に対して交互作用がある、つまりX1とX5はX2に対して相性が悪いということになります。ベイジアンネットワークは交互作用が生じる現象でも記述できると先述しましたが、これはこのような意味によるものです。ベイジアンネットワークではある条件とある条件が組み合わさったときにだけ発揮される効果も確率的に表現することが可能となります。

 

 

ベイジアンネットワークのメリット

 ベイジアンネットワークのメリットをまとめると以下の2点が挙げられます。
①現象を理解して柔軟にシミュレーションできる
 目的変数、説明変数の区別なく変数の関係をモデル化するので、現象の構造を理解できます。また推論する変数と条件に与える変数を自由に指定して様々な方向から確率推論できます。
②効果を発揮する有用な条件を発見できる
 ある条件のときにだけ効果が現れるといった交互作用がある場合でも、確率的に意味のある関係としてモデル化することができます。

 

識別問題のディープラーニングと現象理解のベイジアンネットワーク

 昨今の人工知能ブームでは、最も有名な手法は間違いなくディープラーニングになるかと思います。ディープラーニングのベースはニューラルネットワークという技術で人工知能の分野で古くから研究されていますが、またベイジアンネットワークも人工知能の分野で長く研究されている手法の一つです。
 ディープラーニングをここまで有名にしたのはその識別精度にあり、画像の識別や優良顧客の識別などに適用されています。予測モデルのコンテストで上位にあるものはほとんどがディープラーニングを適用したものです。しかし、ディープラーニングが万能手法というわけではなく、なぜそれだけ識別精度が高いのか説明ができないというブラックボックス問題があります。つまり構築したモデルの内容は複雑すぎてわかりませんが、とにかく精度だけは良いモデルを構築しているのがディープラーニングです。
 一方ベイジアンネットワークは、構築したモデルの構造をネットワークで可視化し、データの中にどのような依存関係が存在しているのか把握することができます。つまりそのデータが語る現象やその特徴を理解することに優れているといえます。ベイジアンネットワークも予測モデルとして使用されることはありますが、その精度はディープラーニングには劣るといえます。
 どちらの手法がよいということではなく、それぞれの特徴を理解したうえで使い分けることが求められます。構造は分からなくてもとにかく精度の高さを要求する識別問題ではディープラーニングを、施策を検討するヒントを得るためデータに潜む依存関係を可視化する現象理解にはベイジアンネットワークを適用するのが良いかと思います。

 

モデリング手法におけるベイジアンネットワークの位置づけ

 ディープラーニングも含め、各種モデリング手法の特徴とその中におけるベイジアンネットワークの位置づけを以下にまとめてみました。下の図では、モデリングでよく用いられる手法を並べています。先述したディープラーニング(ニューラルネットワーク)、統計学で歴史の古い回帰分析、目的変数の特徴がよく現れるルールを可視化する決定木分析、そしてベイジアンネットワークがあります。特に弊社では、ビジネスアクションを検討するうえで重要となる、データに潜む要因関係、因果関係を理解するという目的のためにベイジアンネットワークを採用することがありますが、今回はその分析目的の観点からに各手法の特徴を見ていきたいと思います。
まずニューラルネットは、先述の通り予測精度は高いですが、モデルの構造はブラックボックスとなってしまいます。
 回帰分析は目的変数と説明変数の線形関係が前提となるので、複雑な現象のモデル化に不向きとなり、ある条件とある条件が組み合わさると効果が変化するといった交互作用の効果を表現できません。
 一方、その交互作用の効果をうまく表現できるのが決定木とベイジアンネットワークです。その中でもベイジアンネットは先述の通り、他のモデリング手法とは異なり、目的変数と説明変数の区別がありません。目的変数と説明変数の区別があると、基本的に一つの目的変数に対する説明変数の関係しか分かりませんが、その区別がないので、それぞれの変数が互いにどのような関係をもってそのデータという現象を構成しているのか理解できます。
 弊社ではデータに記された現象に潜む要因関係を人が理解し、それをヒントに人がビジネスアクションを検討するというデータ活用のアプローチを取ることがあり、その場合の要因関係のモデリング手法にはベイジアンネットワークを採用することがありますが、目的変数が定まっていれば決定木も様々なシーンで使いやすく、こちらもしばしば採用します。実は決定木は適用メリットが多く、データ分析において万能ともいえる手法と個人的には考えております。なお、子ノードが一つのベイジアンネットワーク、つまり目的変数が一つに定まったベイジアンネットワークは、左右対称のツリー構造を持つ決定木と等価なモデルとなります。決定木についてはこちらの解説ページをご参照ください。

 

 

Copyright 2017 Analytics Design Lab Inc. All Rights Reserved.