CTCが製薬業向けにAIソリューション戦略を強化
大量の情報から機械学習で洞察、非構造化データに対応
2019.10.10−伊藤忠テクノソリューションズ(CTC)は、ライフサイエンス事業で人工知能(AI)ソリューションの提供に力を入れる。人の目でチェックしきれない大量の情報から有用な知識を引き出すもので、活用できる業種や業務は幅広いが、欧米では製薬業などライフサイエンス分野での導入実績が目立つことから、国内製薬業においても注目度が高い。具体的には、米Quidおよび仏シネクアが開発したシステムで、どちらも昨年に販売権を取得してビジネスを進めてきているが、この9月に2週連続でイベント開催し、マーケットに対するプロモーションを強化している。
◇ ◇ ◇
CTCのライフサイエンス事業部は、9月11日に「Quid Explore Tokyo」、9月19日に「AIによる情報発見エンジンセミナー」と題してイベントを開催。国内の製薬企業を中心に多くの聴衆を集めた。それぞれ、先行して導入した国内製薬企業の事例紹介があることでも注目されたとみられる。
Quidは、文脈を理解するAIプラットフォームで、グローバルでは200社/1,000ユーザー以上が利用中。日本でもすでに15社/50ユーザーの実績を築いている。一般的なBI(ビジネスインテリジェンス)ツールは数値データから定量的な解析を行うが、Quidは機械学習と自然言語処理(NLP)技術を利用することによる、テキスト中の文脈理解に基づく定性的な解析を得意としている。
実際にどんなテキストでも扱うことができ、標準で提供されるニュース(150万件)、企業概要(1,000社)、特許(8,000件)のほか、ソーシャルメディア、各種掲示板、企業評価のフィードバック、CRM(カスタマーリレーションシップマネジメント)に記入されたコメント、カスタマーサポートの履歴、各種調査レポート、学術論文など大量の文章を“読み”、内容によって自動的に分類(クラスタリング)し、文書間の関連をネットワークビューとして可視化することができる。
日本語にも対応しており、日本語のテキストを日本語で分類することが可能。大量の文章の中から「何が起きているか」を示すだけでなく、「なぜそれが生じているか」という洞察を引き出すことが可能だという。製薬業の事例では、競合他社の行動と市場トレンドの理解、新しい臨床試験とソリューションの特定、外部提携先の探索、新規プロジェクトの立案支援などで活用されている。
◇ ◇ ◇
シネクアの「SinequaES」は、非構造化データを含む内外の複数のデータソースに対して一括検索を行うコグニティブ検索エンジン。コグニティブという言葉は、索引・自然言語処理・機械学習を組み合わせて、非構造化および構造化データから関連した知識の集合体をつくり、テキスト・音声・可視化を通してナレッジを提供する検索の仕組みと定義されており、次世代のエンタープライズサーチの基本になるとみられている。
各種レポジトリー、ソーシャルメディア、データレイク、データベース、業務アプリケーション、コンテンツ管理システム、メール、クラウド、ビジネスインテリジェンスなど、180種類の外部システムとのコネクターを用意しており、350以上のファイルフォーマットに対応。非構造文書に対しては自然言語処理(NLP)を行い、まずは言語(日本語にも対応)を自動的に認識し、文章をトークン化(単語に分割)したうえで固有表現認識によって単語の意味を識別、概念・名称・場所などのコンセプト抽出を行う。これにより、非構造化データが構造化され、機械学習にかけることが容易にになるという。
単語認識の際、専門用語や特殊な同義語などは識別できないため、補完する存在として英SciBite製品との連携が推奨されている。SciBiteはオントロジーに基づいて単語を正確に定義することができ、製薬業向けのAI処理を目的として80種類以上の語彙を常にアップデートしている。これにより、機械学習への移行がスムーズに行える。
「SinequaES」の利点としては、非構造化データを含む複数のデータソースを包括的に検索できるうえ、データ同士の関係性が機械学習によってひもづけられているため、「必要な情報を探すだけでなく、知るべき情報がすべて出てくる」ことがあげられる。コンセプトワード抽出機能を使って、ユーザーが気づきにくいワードで検索結果を絞り込んだり、コンセプトワードとエンティティ(企業、人、薬品名、疾患名など)でヒットした文書の傾向を解析したりすることが可能。ウェブ上の動画を検索すると、検索ワードが発せられた部分からその動画を再生する機能もある。
******
<関連リンク>:
伊藤忠テクノソリューションズ(ライフサイエンス事業のトップページ)
http://ls.ctc-g.co.jp/