開発技術

人工知能技術を応用した次世代テキスト分析手法:Nomolytics

Nomolyticsの概要

 Nomolyticsとは、Narrative Orchestration Modeling Analyticsの略で、従来のテキストマイニングにPLSA(確率的潜在意味解析)とベイジアンネットワークという2つの人工知能技術を組み合わせた新しいテキスト分析技術です(特許登録済み:特許第6085888号)。膨大なテキストデータをいくつかのトピックに変換して解釈を容易にし、またテキスト情報内に潜む要因関係を可視化することで、テキストデータからビジネスアクションに有用な特徴を把握することを支援します。
 新しいテキスト分析手法の説明の前に、従来のテキスト分析ではどのようなことがされているかということから説明します。

 

従来のテキスト分析

 これまでのテキスト分析(テキストマイニング)といえば、文章に含まれる単語や係り受け表現を抽出し、その頻度を集計しておおまかな全体像を把握したり、同時に出現しやすい単語同士をネットワークでつないで可視化し(共起ネットワーク)、このかたまりではこのような話題がされていると定性的に考察したり、テキストデータに紐づく属性情報と出現単語の対応関係を同じ平面上にマッピングし(コレスポンデンス分析)、その位置関係から属性ごとの記述傾向を考察するといったことがよく行われます。

 

従来のテキスト分析の課題

 これだけでも膨大なテキストデータの全体的な特徴を把握する上では有効な手段といえます。ただ一方で課題もあり、主に2つの課題を挙げたいと思います。それは、
①解釈がしづらい
②現状把握に留まる
ということです。
 解釈がしづらいということについては、従来のテキスト分析は基本的に単語(あるいはそのペアとなる係り受け表現)をベースに集計して考察しますが、膨大なテキストデータだと抽出される単語も膨大ですし、単語だけではその周辺状況や背景といった文脈の解釈が難しいということがあります。また、同じような文脈で使われていても文字列として異なっていれば機械では違うものとして扱われてしまうので、人がある程度グルーピングや類義語辞書を構築しないと考察が難しいということがあります。その作業は主観的で作業負荷が大きいという問題もあります。
 現状把握に留まるということについては、従来のテキスト分析では基本的にこのテキストデータではこのような記述傾向にあるという現状を把握する手法になりますが、この現状から何か条件が変わったらそれに伴って結果がどのように変化するのか、というシミュレーションができるわけではありません。例えば口コミの記述によって得点がどのように変化するのか、消費者属性によって製品の問い合わせがどのように変化するのかといった、条件の変化に応じた結果の予測はできません。そのためこの分析結果から何かビジネスアクションを検討しようとしても、そのアクションによってどのような結果になりうるのかという効果を事前に評価しづらいということがあります。

 

従来のテキスト分析の課題の解決手段

 解釈がしづらいことについては、クラスタリング技術を適用することで、単語ベースの抽出ではなく文脈を考慮した単語の集合体となるトピックを抽出することができます。
 現状把握に留まることについては、モデリング技術を適用することで、そのトピックや他の属性情報といったテキストデータの中の各要因の関係を分析して、ある要因の条件を変化させたときの他の要因の結果の状態をシミュレーションすることができます。
 Nomolyticsでは、このクラスタリング技術にはPLSA(確率的潜在意味解析)という手法が、モデリング技術にはベイジアンネットワークという手法が適していると考え、これら2つの技術を従来のテキストマイニング技術に組み合わせることを行いました。どちらも人工知能の分野で発展した確率モデルの技術になります。
 テキストマイニングにPLSAを適用することは従来から実施されていることで、PLSAの一番オーソドックスな使い方ですが、NomolyticsにおけるPLSAの適用の仕方はこれまでの方法とは異なっており、従来よりも文脈の学習性能を高めて意味性の強いトピックを抽出する工夫をしています(技術的な解説は割愛します)。

 

Nomolyticsの内容とメリット

 Nomolytics (Narrative Orchestration Modeling Analytics)は、従来のテキストマイニング技術PLSA(確率的潜在意味解析)ベイジアンネットワークという2つの人工知能技術を組み合わせた新しいテキスト分析技術となります。
 まず従来のテキストマイニングで全文章に含まれる単語を抽出し、各文章ではどの単語が出現しており、それぞれの単語が同時に出現する頻度はどれくらいかというデータ(共起行列)を作成します。次にそのデータをインプットとしてPLSAを適用し、各単語の同時出現性から文脈を学習させ、単語の出現の背後に潜む共通的なトピックを抽出します。次に全テキストデータに対してどのトピックがどれくらい該当するのか重みを計算し、膨大なテキストデータをいくつかのトピックによって説明可能にします。このトピックの定量データを属性別に集計することでトピックをベースにした属性の傾向分析もできます。最後にこのトピックのデータに他の属性情報を紐づけたデータをインプットとしてベイジアンネットワークを適用し、トピックや属性などテキスト情報内の変数の関係構造をモデル化します。そのモデルを用いることで、各変数が他の変数に与える影響を確率的にシミュレーションします。
 Nomolyticsにより、膨大なテキストデータを膨大な単語から解釈するのではなく、いくつかのトピックという人間が理解しやすい形に整理して解釈できます。また、ベイジアンネットワークによってそのトピックも含めたテキスト内の複雑な要因関係を構造化できます。そのベイジアンネットワークのモデルを用いることで、各要因の条件を変化させたときの他の要因の結果の挙動を確率的にシミュレーションできますし、逆にある事象の発生確率を最大化、最小化するような条件も発見することができます。

 

Nomolyticsの適用範囲

 Nomolyticsはテキストデータであれば様々なデータに適用できます。
 Web上の口コミデータに適用すれば、口コミの内容をトピック化し、どんな属性の人がどんなトピックに関心があるのか、どんな製品ではどんなトピックの口コミがされる傾向にあるのかなど把握することで、ターゲットの価値観に合わせた製品・サービスの提供というマーケティング戦略を検討できます。また口コミの得点を左右する要因を把握したり、どんな属性の顧客にどのようなトピックの製品・サービスを提供すると満足度がどのように変化するのかといったシミュレーションもできます。
 アンケートデータに適用すれば、自由記述の内容をトピック化してそのトピックを一変数として扱うことができるので、これまで別々に分析がされていた定型設問回答と自由記述回答を一緒に分析することができます。つまり、どのような設問にチェックをした人はどのような自由記述をしているのか、あるいはこのトピックの自由記述をする人はどのような人なのかといった、定型設問と自由記述の間の関係を分析することができます。
 コールセンターの対応履歴に適用すれば、問い合わせ内容をトピック化し、製品別や顧客属性別にその特徴を示して製品の問題や顧客ニーズを把握したり、トピックを時系列に集計して問い合わせのトレンドを把握することができます。また苦情の度合いや解約といった情報が付加されていれば、そうした確率を問い合わせトピックやその他の属性情報からシミュレーションすることができ、顧客満足度や解約率を制御する要因を把握して施策を検討することができます。また問い合わせだけでなく、対応内容もトピック化し、問い合わせトピックと対応トピックの関係をモデル化することで、問い合わせに対する適切な対応を把握することができ、新人のオペレータの教育にも活用できます。
 特許文書データに適用すれば、特許技術の内容をトピック化しそのトレンドを把握したり、競合他社の技術動向を把握することができます。また特許文書には、「課題」と「解決手段」が分けて記述されていることが多いため、それぞれから用途のトピックと技術のトピックを抽出しそれらの関係をモデル化することで、ある用途展開のために必要な技術や代替する可能性のある技術を把握したり、保有技術の新たな用途への展開などを検討することができます。
 営業マンの日報データに適用すれば、営業活動をトピック化し、その活動結果との関係をモデル化することで、成約確率を向上させる営業トピックを把握することができるため、効果的な営業教育に活用できます。
 他にも有価証券報告書のような企業レポートに適用してテキストという定性情報から企業分析を実施したり、膨大なエントリーシートに適用して学生の分類・振り分けに適用したり、診療記録や看護記録に適用して定性的な生活情報から病状を予測したり、工場などの問題発生レポートに適用して作業環境から問題の発生率を予測してそれを制御する改善を検討したり、様々な業界、業務におけるテキストデータに適用することが可能です。

 

Copyright 2017 Analytics Design Lab Inc. All Rights Reserved.