ライフインテリジェンスコンソーシアムが第2回全体報告会
4プロジェクトのAI開発状況発表、年内に製品化第1号
2019.03.14−ライフインテリジェンスコンソーシアム(LINC)は2月27日と28日の両日、東京・お台場で第2回全体報告会を開催した。内容は、メンバー以外にはほぼ非公開だったが、初日の基調講演のみ外部聴講者にも公開された。LINCは、医薬品開発を中心としたライフサイエンス全体を包含する約30種の人工知能(AI)開発に取り組んでおり、今回の公開部分においては4つのプロジェクトの成果が報告された。プロジェクト期間は2020年夏までの3年間で、その時点ですべてのAIが出揃い、メンバーによる事業化や社会実装が開始される予定。最後の1年は、プロジェクトの成果を今後どう発展させるかを具体的に検討する期間とする考えで、プロジェクトを継続するかも含め今年9月には一定の方向性を打ち出すという。
LINCは、「未病・先制医療」「臨床・診断」「創薬テーマ創出」「分子シミュレーション」「メドメム・分子設計・ADMET」「トランスレーショナルリサーチ」「バイオロジクス・製剤・ロボティクス」「治験・市販後・メディカルアフェアーズ」「知識ベース・自然言語処理」「AI基盤」−の10個のワーキンググループ(WG)に分かれ、トータル31件のプロジェクト(PJ)が進行中。今回、ポスター会場(非公開)にはほぼすべてのPJがポスターを掲示していたもようだが、公開で開発状況を発表したのは、WG3/PJ08の「有望提携先や研究テーマの自動探索」、WG4/PJ14の「AIを用いた高精度分子力場」、WG5/PJ18の「QSAR/QSPR/in vitro ADMET予測」、WG8/PJ27の「アウトカムリサーチ・医療技術評価」の4つ。
まず、PJ08が開発したのは、膨大な論文データから共同研究者を発掘するためのAI。最近では、製薬企業がアカデミアと連携することによって創薬シーズを探すことが多いが、今回開発チームはLINC内でアンケートを行い、共同研究者に求める観点を洗い出した。その結果、専門知識だけでなく、協調性や自律性を重視したいと思っていることがわかった。
そこで、「媒介中心性計算」と呼ばれる手法を利用し、論文の共著関係から人間関係の広がりを抽出するとともに、その経年変化を追跡し、媒介中心性の伸びの良い研究者をピックアップすることにした。実際に、パイロット版として、再生医療論文1万報を解析し上位300人を抽出したところ、すでに評価の高い研究者が含まれていることや、望ましい新たな研究者の発見も期待できることを確かめた。
この成果をもとに、商用化に向けてデータベース事業者のジー・サーチが名乗りを上げており、2019年中に正式サービスを開始する予定。それに先立ち、PJ08では500万報の学術文献を学習させたプロトタイプ版を完成。3ヵ月程度の調整期間を経て、LINCメンバーへの公開を開始する。すでに検索画面も出来上がっており、「AIによる画像診断を行う医療情報処理システム」などの自然語で検索文を入力することにより、共同研究先の候補となる研究者を検索することが可能。とくに、近年になって媒介中心性曲線が急激に立ち上がっているなど、成長性に優れた人物をAIが選び出す仕組みとなっている。
◇ ◇ ◇
PJ14は、深層学習を用いた高精度分子力場の開発に取り組んでいる。これは、電子状態を精密に解析できる量子化学計算(QM)の結果をAIに学習させることにより、分子力場計算(MM)程度の計算コストでQMレベルの精度を得られるようにすることが狙い。具体的に開発中のAIは2つで、ポテンシャルエネルギーを予測する「NNP」と、原子電荷を予測する「NNAC」に分かれている。基本的には、原子種ごとのニューラルネットワークを用意し、着目原子から見た周辺環境を関数の重ね合わせで記述する Atom Centered Symmetry Functions(ACSFs)を記述子に使用している。
NNPは学習済みネットワークおよび記述子を解析的に微分して力を算出するもので、水64分子系や水和エンケファリン系で精度を検証したところ、とくに不均一系で高精度なエネルギー予測を実現していることがわかった。また、ハロゲン結合のモデルでも良好な予測精度を確認できたという。一方、NNACについては、FMOコンソーシアムと協力して、タンパク質の大きな系で検証を進めている。FMOで算出した電荷を学習させており、こちらも高精度な予測が可能になっているという。今後はさらなる自動化を図り、LINCプロジェクト終了までにAIを完成させたいとしている。
◇ ◇ ◇
PJ18は、構造式からADMET(薬物動態・毒性)予測を行うためのAI構築を進めている。とくに、構造式を学習させるため、富士通が開発した“ディープテンソル”を採用。化学構造式をSMILESのようなテキストに変換せず、グラフ構造データとして取り込み、深層学習による自動特徴抽出を行った。学習用のデータは、LINCメンバーらの協力により、hERG阻害データ、代謝安定性/経口吸収データ、キュレーション済み代謝安定性データ、細胞毒性データを集めた。
このうち、hERG阻害での検証によると、最初の段階で80%以上の予測精度を記録し、市販ソフトウエアと同等以上の精度があることを確認。構造情報が充実しているほど、学習用データ数が多いほど、予測精度が向上する結果を示した。開発グループがさらなる精度向上を目指して研究を進めた結果、隣接ノードのラベルを考慮したラベルでグラフ間の類似度を計算する“WLラベル拡張”(Weisfeiler-Lehman Graph Kernel)によって構造情報を膨らませることで精度が大きく向上することを確かめた。hERG阻害で83%が87%に、代謝安定性では60%が72%に上がったという。さらに、経口吸収性や細胞毒性予測モデルでもWLラベル拡張の効果がみられている。また最近では、AMBERラベルを付加して原子データを充実させることにより、さらに精度が向上する知見が得られているということだ。
一方、ディープテンソルの特徴として、AIがブラックボックスにならず、推定に寄与した因子を特定することができる。予測結果への影響が大きかった化学結合を可視化することも可能で、これを新たな化合物デザインの参考にすることもできそうだとしている。
今後、さらに予測精度の検証とAIの改良を進めるとともに、hERG阻害や代謝安定性などを改善できる構造をAIが逆提案するような取り組みにも発展させていく。
◇ ◇ ◇
PJ27で開発中のAIは時節にぴったりなシステムとして注目される。革新性が高く、財政影響が大きい医薬品などにおいて、その費用対効果評価が今年4月から法制化されるためだ。実際には、中央社会保険医療協議会(中医協)が作成した費用対効果評価の分析ガイドラインに沿ってシステマティックレビューを実施する必要があるが、そのタスクフローの一部をAIで支援することを検討している。この工程においては、製薬企業自らがまず分析を行う必要があり、そのためには膨大な文献調査を行いエビデンスを集めなければならない。
企業は9ヵ月間で分析を完了させなければならないといわれており、的を射た文献をいかに早く抽出できるかがカギになる。そのために重要な指標が“PICO”(患者:Patient、介入:Intervention、比較対照:Comparator、アウトカム:Outcome)で、PJ27では文献中のPICO該当箇所を識別してラベルを付与する「固有名識別AI」を開発中。また、費用対効果表現の強さを示す優先的表現を学習し、重要な文献を選び出す「文章分類AI」も開発している。
今後、自然文解析による識別精度向上を図るとともに、ユーザーインターフェースの整備などを行い、実用化を目指すとしている。
******
<関連リンク>:
LINC(トップページ)
https://rc.riken.jp/life-intelligence-consortium/