PCSA(確率的因果意味解析)

PCSAの概要

 PCSAとは、Probabilistic Causal Semantic Analysis(確率的因果意味解析)の略で、テキストデータからあるターゲット事象に影響を与えるような要因的なトピックを優先して抽出する技術です(特許登録済:特許第7221526号)。PCSAはPLSAを応用して開発したトピック抽出の技術ですが、通常のPLSAがテキストデータ全体を表すような平均的・代表的なトピックを抽出する手法であるのに対し、PCSAでは何か特徴を探索したいターゲットを定め、その特徴に特化したトピックを優先的に抽出します。
 例えば、口コミデータを用いて口コミの評価得点の高い(あるいは低い)傾向にある口コミトピックを抽出したり、コールセンターの問い合わせデータを用いて解約・退会に影響を与える問い合わせトピックを抽出したり、特許文書データを用いて最近トレンドを形成している技術トピックを抽出するというように、特徴を探索したいターゲットに対して特に影響を与える要因的なトピックを抽出します。


 

通常のPLSA

 PLSAによるトピック抽出の大まかなプロセスは、テキストデータにテキストマイニングを実行して単語を抽出して、その単語の共起頻度を集計した共起行列を作成し、これをインプットにPLSAを適用することで、使われ方の似ている単語でまとめられたトピックを抽出するというものです。この共起行列は全体のテキストデータから作成するので、当然抽出されるトピックは全体を表現するような平均的なトピックが構成されることになります。

 

通常のPLSAによるトピック抽出のプロセス

 

PCSAの考え方とメリット

 PCSAでは、まず特徴を見たいターゲットを設定します。例えば冒頭で記載した適用例においてそれぞれ設定されるターゲットとは、口コミデータにおける口コミの評価得点、コールセンターの問い合わせデータにおける解約・退会の有無、特許文書データにおける出願年という情報となります。
 通常のPLSAでは共起行列を全体のデータから1つ構築していましたが、このPCSAでは、その設定したターゲットが該当するデータと該当しないデータ、それぞれから同じ構成の共起行列を作成して、その2つの共起行列の差分(差の絶対値)を取った共起行列をインプットにPLSAを適用するというものです。これによってそのターゲットが該当する・しないに影響する要素の頻度は大きくなり、影響しない要素の頻度は小さくなる共起行列を構成できるので、この共起行列をインプットにPLSAを適用することでそのターゲットに影響を与える要因的なトピックを優先して抽出することができます。なお、ターゲットが該当するデータと該当しないデータではデータ件数の規模に差が出てしまうため、その規模に応じて重みを調整して差分を取ります。

 

特徴を見たい対象の要因となるトピックを抽出するPCSA

 

NomolyticsとPCSAの比較

 Nomolyticsでは、まずテキストデータ全体を表現するような平均的なトピックを抽出し、そのいわばデータを代表するトピックの特徴を様々な分析軸で探索します。分析軸とは、口コミデータやコールセンターの問い合わせデータであれば性別や年代、製品の属性などが、特許文書データであれば特許の出願年や出願人などが該当します。
 PCSAでは、すでに探索したい特徴(ターゲット)が定まっているときに適用するもので、その特徴に特化したトピックを優先的に抽出します。このトピックはデータ全体を表現する平均的なものではなく、その特徴をよく表現するようないわば偏ったトピックを抽出します。例えば、口コミデータの評価得点が高まる傾向にある口コミトピックを抽出したり、コールセンターの問い合わせで解約・退会を増加させる問い合わせトピックを抽出したり、特許文書データで最近トレンドを形成している技術トピックを抽出するということが可能になります。こうして抽出されたトピックを用いて探索したい特徴がより顕著に現れる要因を深く分析することで、全体の平均的なトピックでは見えてこなかったインサイトの獲得が期待できます。
 なお、NomolyticsとPCSAでどちらが優れているということはなく、目的に応じて使いこなすことが重要で、例えばPCSAは分析軸を最初から一つに絞ってそれに特化したトピックを抽出するため、Nomolyticsのように様々な分析軸で広く特徴を探索したいというときには不向きになります。分析の目的を明確化し、その目的に応じた使い分けが求められます。

 

NomolyticsとPCSAの比較

 

 

 

 

PCSAによる特許分析事例のダウンロード(4890KB)

 

PCSAによる解説論文はこちら


 

 

Copyright 2024 Analytics Design Lab Inc. All Rights Reserved.