開発技術

テキストマイニング×AIによるテキストリファイニング技術

テキストリファイニングの概要

 テキストリファイニングとは、膨大なテキストデータを分析するときに弊社が採用している分析アプローチです。テキストデータの特徴をそこに含まれる大量の単語をベースにして把握するテキストマイニングに対して、トピックモデルという人工知能技術を応用して、マイニング(採掘)で抽出された単語をトピックにリファイニング(精製)し、テキストデータの特徴をいくつかのトピックをベースにシンプルに把握します。

 

従来のテキストマイニングの課題

 テキストマイニングでは、文章に含まれる単語、あるいは文法的なつながりのある単語のペア(係り受け)を抽出するということが最も基本的なステップとなり、その結果を用いて色々な可視化を実行することでテキストデータの特徴を把握します。

 例えば、その単語(あるいは係り受け)の出現頻度をカウント・ランキングして、どのような表現・記述が多いのか確認し、テキストデータの全体像を把握する「頻度集計」や、単語同士の共起関係(同じ文章で同時に出現する関係)をネットワーク構造で可視化をして、その各かたまりからどのような話題が存在するのか考察をする「共起ネットワーク」、また抽出した単語とテキストデータに紐づく属性情報(性別や年代、特許の出願人など)を同じ平面上にマッピングし、その位置関係から各属性の傾向を把握する「コレスポンデンス分析(数量化Ⅲ類、対応分析)」などがテキストマイニングの代表的な分析アウトプットとなります。

 これだけでもなかなか人間では読み切れない膨大なテキストデータの全体像を把握できる有効な手段ですが、大きな課題として、各分析アウトプットは基本的に単語をベースに可視化されるため「結果が複雑で解釈がしづらい」ということがあります。これは数千件程度のテキストデータであれば正直あまり気になりませんが、昨今のビッグデータ時代では、数万件以上のテキストデータを対象とすることは珍しくなく、そうしたデータにテキストマイニングを実行して抽出される単語は当然膨大になるため、従来の単語をベースとした可視化では結果が複雑で解釈がしづらいという問題が生じます。

 その対策として、大量の単語を人が意味的にグルーピングしていくつかのカテゴリを形成し、そのカテゴリをベースに可視化をするという作業は従来よく行われてきましたが、その作業は主観的ですし、作業負荷があまりにも大きいという問題もあります。そこで大量の単語を機械的にグルーピングしようと考えることは自然な発想になります。これまでもクラスター分析を利用して単語をクラスタリングすることはよく行われますが、Ward法やk-meansなど、要素間の距離に基づいた従来のクラスター分析では、大量の単語で構成される高次元データに適用してしまうと、要素間の距離が自然と離れていく次元の呪いと呼ばれる現象が発生し、妥当な結果が得られないという問題があります。

 そこで弊社では、人工知能の分野で発展した「トピックモデル」という高次元データに適用可能なクラスタリング技術を応用し、大量の単語をいくつかのトピックに集約し、そのトピックをベースにテキストデータの特徴をシンプルに可視化する分析に取り組んでいます。

 

従来のテキストマイニングのアウトプットの例

 

テキストリファイニングの考え方

 テキストリファイニングでは、テキストマイニングによりテキストデータから抽出した大量の単語を、トピックモデルの人工知能技術を応用していくつかのトピックという意味的なかたまりに集約します。これにより、従来の単語ベースではなく、そのトピックをベースにテキストデータに潜む特徴をシンプルに理解することができます。テキストデータからマイニング(採掘)された単語を、トピックというかたまりにリファイニング(精製)するというアプローチとなり、これを弊社ではテキストリファイニングと呼んでいます。
 ビッグデータとAIの登場で、そこから魅力ある価値が掘り起こせるものだと期待され「データマイニング」という言葉もよく聞かれますが、残念ながらビッグデータという山をただやみくもにマイニングしただけでは価値は得られません。これはよく考えれば当然で、そのビッグデータというものは、たいてい、あなたのために、あなたの会社の事業のために収集されたものではなく、収集された目的も収集する戦略も全く異なるものだからです。そんなビッグデータという山があるからという理由でそれをやみくもにマイニングしても、関係のないゴミが多くを占める複雑で理解もできず取り扱うこともできないものが大量に産出されるだけです。そこで、少しでもそれを意味的にまとまりのあるかたまりにリファイニング(精製)して、マイニング(採掘)された理解困難な大量の産物を整理することが有効となります。
 なお、リファイニングはマイニングよりも結果が整理されますが、リファイニングしただけでは価値にはならないことに注意が必要です。そのリファイニングされた結果をプロセシング、つまり使える形に加工することが重要です。これはデータを活用したい業務目的や解決したい課題に応じて、加工の形を構成しなければいけません。リファイニングするだけでしたら人工知能という技術を適用すれば誰でも実行でき、その結果に基づいて可視化はいくらでもアウトプットできますが、それをビジネス業務に活用するということはまた別の次元の話になります。最後に問われるのは、本当に業務に必要なアウトプット、課題解決に有効な加工の仕方です。ここで重要なのは分析の専門知識というより、解決すべき個別のビジネス課題を理解し、それに応じて人工知能という機能を使いこなし、分析結果を適切にプロセシング、アレンジングできることです。これによってアウトプットの価値に大きな差が生まれるものだと考えています。

 

アナリティクスデザインラボで開発したテキストリファイニングの概要

 

テキストリファイニングの3つの開発技術

 このテキストリファイニングを実行する技術として、トピックモデルの一つであるPLSA(確率的潜在意味解析)を中心とする人工知能技術を応用した①Nomolytics②PCSA③differential PLSAという3つの技術を開発しました。
 Nomolyticsは、テキストデータ全体を表現する代表的なトピックを抽出し、各トピックの特徴やそのトピック周辺の関係構造を可視化することで、テキスト情報に潜む特徴や要因関係を俯瞰する技術です。
 PCSAとdifferential PLSAは、Nomolyticsのトピック抽出の機能を拡張させた技術で、Nomolyticsがデータ全体を俯瞰するトピックを抽出する技術であるのに対し、PCSAとdifferential PLSAはより特徴的・個性的なトピックを優先して抽出する技術で、効果的なインサイトの獲得を狙って開発したものです。

 PCSAは、特徴を見たいあるターゲットに特化したトピックを抽出して、そのターゲットの特徴を左右する要因を探索する技術です。

 differential PLSAは、通常のPLSAが出現頻度の多い要素で構成される典型的なトピックを抽出しがちであるのに対して、頻度の大小によらない個性的なトピックを抽出し、データ全体では埋もれがちな特徴を発見する技術です。

 

テキストリファイニングを実現するアナリティクスデザインラボの3つの開発技術

 

 

Nomolyticsについてはこちら

 

PCSAについてはこちら

 

differential PLSAについてはこちら

 

 

テキストリファイニングの適用範囲

 このテキストリファイニングの技術は様々な業務のテキストデータに適用できます。
 Web上の口コミデータに適用すれば、口コミの内容をトピック化し、どのような属性の人がどのようなトピックに関心があるのか、どのような製品・サービスではどのようなトピックの口コミがされる傾向にあるのかなど把握することができます。また口コミの得点を左右するトピックを把握したり、どのような属性の顧客にどのようなトピックの製品・サービスを提供すると満足度がどのように変化するのかといったシミュレーションもできます。こうした分析から、ターゲット層の関心に合わせて製品・サービスを提供するマーケティング戦略や製品・サービスの開発戦略を検討できます。

 アンケートデータに適用すれば、自由記述回答の内容をトピックで把握できますし、その抽出したトピックをアンケートデータの一つの変数として扱うこと、つまり各回答者がどのトピックの回答をしているのかという定量データを作成することができます。これによって、これまで別々に分析がされていた定型設問回答と自由記述回答を一緒に分析することができます。つまり、どのような設問にチェックをした人はどのようなトピックの自由記述をしているのか、あるいはこのトピックの自由記述をする人はどのような人なのかといった、定型設問と自由記述の間の統計的な関係を分析することができます。例えば顧客満足度の設問に寄与する自由記述トピックを把握することもできるので、顧客満足度向上の施策を自由記述の情報から検討することができます。

 コールセンターの問い合わせ履歴データに適用すれば、問い合わせ内容をトピックで把握して、製品別や顧客属性別にそのトピックの傾向を分析し、製品の問題や顧客ニーズを把握することができます。また問い合わせトピックを時系列に集計して問い合わせのトレンドを把握することもできます。また苦情の度合いや解約・退会といった情報が付加されているデータであれば、それに寄与する問い合わせトピックを把握することもでき、顧客満足度の向上や顧客離反の抑制につながる施策を検討することができます。

 特許文書データに適用すれば、特許文書の内容をトピックで把握し、そのトピックの情報を出願年という軸で集計して技術トレンドを把握したり、出願人という軸で集計して競合他社の技術動向を把握することができます。また特許文書の要約には「課題」と「解決手段」が分けて記述されていることが多いため、それぞれの文章から用途のトピックと技術のトピックを抽出し、それらの統計的な関係を分析することで、ある用途の事業化のために必要な重要技術を把握したり、自社の保有技術の新たな用途を探索するといった技術戦略を検討することができます。

 営業マンの日報データに適用すれば、営業活動の内容をトピック化し、営業マンの属性別や営業先の属性別にそのトピックの傾向を把握したり、成約に寄与するトピックを把握することができます。これによってベテラン営業マンの営業術の特徴や、営業先ごとの営業の特徴、成約確率を向上させる営業トピックなどを把握し、効果的な営業教育を検討することができます。

 有価証券報告書のような企業レポートデータに適用すれば、各企業あるいは各業界における事業内容をトピックで把握し、そのトレンドを分析したり、他のIR指標と組み合わせて好業績に寄与する事業トピックを把握するなど、テキストという定性情報から企業分析・業界分析を実施することもできます。

 エントリーシートや履歴書のデータに適用すれば、志望動機やPR文の内容をトピックで把握し、それによって学生を分類したり、面接においてトピックの傾向とは異なる質問内容を検討したり、あるいはその後の選考通過結果の情報と組み合わせて選考通過に寄与するトピックを把握し、スクリーニングの効率化を検討するという活用もできます。

 診療記録や看護記録のデータに適用すれば、その定性的な記録情報をトピックで把握し、患者の属性別・病状別にそのトピックの傾向を分析したり、他の定量的な検査指標に寄与するトピックを把握するなどして、定性情報も用いた診療や助言の検討も考えられます。

 工場などの問題発生レポートのデータに適用すれば、実際に生じた不具合やヒヤリハットの内容をトピックで整理し、作業環境別にそのトピックの傾向を分析したり、重大な問題発生に寄与するトピックを把握するなどして、問題を抑制する作業改善・環境改善の検討に活用することも考えられます。

 

テキストリファイニングの適用対象例

 

 

Copyright 2020 Analytics Design Lab Inc. All Rights Reserved.