2019年冬CCS特集:第1部総論(業界動向)

データ駆動型“情報”基盤構築に熱視線

 2019.12.03−近年、データ駆動型の研究開発が注目されており、“情報”を基盤として研究のプラットフォームを共通化し、研究開発の上流から下流まで、あるいはグローバルな研究拠点間、オープンイノベーションを背景とした他機関との間での情報共有を図る取り組みが進んでいる。研究業務そのものの効率化を図り、開発期間を短縮することが主な目的だが、共通基盤上に“情報”を集めることで、人工知能(AI)や機械学習につなげようという意図もうかがえる。コンピューターケミストリーシステム(CCS)は、医薬・化学・機能材料など化学物質を中心とする研究開発を支援するソリューションであり、インフォマティクス系やモデリング&シミュレーション系などさまざまなベンダーがあるが、ここへ来て各社ともこの分野に対する取り組みを強めている。

                  ◇       ◇       ◇

◆◆ELNベンダー各社MIに本腰、データ回収から学習まで一貫◆◆

 研究情報を収集・蓄積・共有化し、再活用を図ろうとする動きは、電子実験ノート(ELN)をめぐって顕在化してきている。物質科学においては、化学合成や計測・分析など何らかの実験がデータをつくり出す大本であり、どのような実験を行うかを計画し、その手順や結果を詳細に記録するELNは、まさに研究プラットフォームの中心的な存在になるからだ。

 ELNは、主に生命科学の創薬研究分野で普及したシステムで、紙に記載された実験ノートを電子化し、記録を検索・再利用することで知財戦略などに用いることが初期の目的だった。しかしその後、ばらばらに存在していた化合物登録システムや試薬管理システム、アッセイ試験のデータ管理システムなどを統合し連携させる基盤へと、ELNの位置づけが変化してきている。

 それと同時に、ELNのこうした機能が化学・材料科学分野で注目されはじめた。きっかけはデータ駆動型の研究スタイルを目指すマテリアルズ・インフォマティクス(MI)の隆盛。これは、AI/機械学習を用いて、材料の構造・組成と物性・機能との相関関係を学習し、予測モデルを構築することを目標としている。しかし、化学・材料分野はそもそもデータ蓄積が不足していることが問題となり、MIを推進するためにELNを導入したいというニーズが盛り上がった。

 国内のELNベンダーもこの市場に注目。化学・材料産業のデジタルトランスフォーメーション(DX)を具体化する重要な要素の一つになるとして本腰を入れはじめた。まず、パーキンエルマーのELNとケムアクソンのインフォマティクスソリューションを販売している富士通は、すでに数年前からこのニーズをとらえて実績もあげているが、今年11月19日に「第1回マテリアルズ・インフォマティクスセミナー」をあらためて開催し、有識者らのゲスト講演を含めて自社の製品戦略をアピールした。

 富士通の場合は、データを集めるための入口をいくつも設定しており、第1にAI(知識構造化と自然言語処理)を応用して、学術文献や特許文書から化学的なナレッジを抽出する。特許明細書中に書かれた化合物の詳細情報(構造、機能・用途、別称など)を抽出したり、化合物構造を比較したりする「ChemMon」を開発中だ。また、シミュレーション結果を学習データに転用するため、計算化学統合プラットフォーム「SCIGRESS」、量子現象に着想を得た組み合わせ最適化問題専用超高速計算機「デジタルアニーラ」、HPCクラウドサービス「TCクラウド」を利用。さらに、実験データを回収するために「ACD/Labs」を使用する。さまざまなメーカーのスペクトルデータ(NMR、MS、IR、UV-Vis、クロマトグラフィーなど)の管理・解析に対応している。蓄積したデータの統計解析や機械学習には、「Spotfire」や独自技術の「ディープテンソル」を適用する。

 伊藤忠テクノソリューションズ(CTC)も、製薬業向けのインフォマティクスソリューションで実績のあるライフサイエンス事業部と、材料シミュレーション製品を持つ科学システム本部が連携して、今年8月にホームページ上にMI支援の特設ページを立ち上げ、取り組みをアピールしている。戦略は富士通と同様だが、ELNはダッソー・システムズのBIOVIA製品で、機械学習のためのデータクレンジングなどの処理を、BIOVIAのワークフローツール「Pipeline Pilot」を使って自動化できることが強みとなっている。同社は合成実験などを自動化する機器も扱っており、最初にデータを生成するところからサポートするのは、他のCCSベンダーにはみられない取り組みだ。

 他のELNベンダーも、最近はMI関係での引き合いが多いと話す。なかでも、ドットマティクスは今年11月20日に初めてのケミカル&マテリアル(MI & AI)セミナーを開催し、国内の化学・材料企業から参加者を集めた。モデルとなるユーザー企業はクラリアント社で、MIへの適用は将来構想の段階だが、10カ国以上の26カ所に及ぶ研究拠点における960人以上の研究者に対し、ELNを全社導入する計画を進めている。導入完了は2020年末の予定だ。ELNを中心に、データ検索のBROWSER、データ解析のVORTEX、化合物登録のREGISTRY、試薬管理のINVENTRY、情報共有ツールのGATEWAY、試験データを管理するSTUDIESなど、多くのアプリケーションを協働させる。

 ドットマティクスは、クラリアント以外にも、BASF(300ユーザー)、P&G(200ユーザー)、フィルメニッヒ(550ユーザー)など、化学・材料企業への導入実績がある。

 今回のセミナーは、同社がこれまで製薬企業をメインに事業展開してきたこともあり、出席者は20人ほどだったが、実は日本の前に韓国でも同様のセミナーを開催してきており、そちらの出席者は日本の2倍だったという。韓国は、米国が進めたマテリアルゲノムイニシアティブ(MGI)プロジェクトの関連で、サムスンとマサチューセッツ工科大学(MIT)の共同研究で実績を出したという経緯がある。MIを使ったわずか1年の研究で、従来の研究手法でトヨタが5年を費やした全固体電池材料の開発に追いついたというもの。トヨタが2011年5月に特許出願したが、それが公開になる前の2012年10月に、サムスンらから同様の成果が発表されたという。日本ではいま、MIが非常な盛り上がりをみせているが、それは他国も同じであり、実績として日本が必ずしも先行しているわけではないと認識する必要はあるだろう。

 そのほか、クラウド型ELNベンダーのアークスパンを買収したブルカーも、最近は化学・材料系での引き合いが増えていると話す。ブルカーの核磁気共鳴(NMR)装置自体は、医薬系でも化学系でも測定に利用されるため、機器と連携させることでNMRデータを含めた研究データをELNに集めるという戦略には妥当性がある。アークスパンはSaaS(サービスとしてのソフトウエア)型のシステムであるため、データはクラウドに格納されているが、それを検索して手元に抽出し、機械学習に利用するようなシナリオも用意している。

                  ◇       ◇       ◇

◆◆計算によりデータ生成、深層学習でQSPRも◆◆

 MIでは、計算やシミュレーションで新しくデータをつくり出して、実験データの不足を補おうという動きもあらわれている。多くの化学・材料企業が参加する経済産業省プロジェクト「超先端材料超高速開発基盤技術プロジェクト」(超超PJ)がこの戦略を採用したことが注目されたためだ。スーパーコンピューター「京」による産業利用プロジェクトが一定の成果をあげていたことも、この用途におけるシミュレーションの価値を高めたといえるだろう。また、実験データは、計測器の種類や計測条件がいろいろで「データが揃っていない」ため、むしろ計算データの方が均一で、機械学習に適しているという考え方も広がっている。

 これを受け、国内のモデリング&シミュレーション系ベンダーは、この観点でMI市場へのアプローチを強めている。まず、モルシスは米マテリアルズデザインの材料設計支援統合システム「MedeA」を提供。バンド計算をもとに、金属・セラミックス・半導体などの材料に対する構造評価、光学物性、磁性、熱力学物性、弾性、振動、電子伝導性といった物性を評価することが可能。計算手順を整えたハイスループット化で、効率的に計算結果を蓄積することができる。

 シュレーディンガーの超高速分子動力学プログラム「Desmond」もこうした用途に向いており、コラボレーションツール「LiveDesign」で機械学習を行う環境を用意している。

 また、統計解析ツールのQSPR(構造物性相関)を利用して、計算データをMIに利用しようというベンダーもある。JSOLは、材料物性解析ソフトウエア「J-OCTA」のQSPR機能を拡張し、MI向けの深層学習機能を実装している。モノマーの分子構造をSMILES表記で入力し、相関関係を学習させたい物性値とセットにして、グラフ畳み込みニューラルネットワーク(GCN)で深層学習させることができる。物性値はJ-OCTAに内蔵されたメソスケールシミュレーションソフトを用いて計算することが可能。ポリマーの密度、ガラス転移温度、特性比をあらかじめ学習させた予測モデルも提供される。J-OCTAのもとになっているオープンソース版OCTAは超超PJの中でも使われており、その意味でも注目度が高い。

 富士通九州システムズの計算化学統合プラットフォーム「SCIGRESS」も、来年4月提供予定の最新版でMI対応のQSPR機能を強化する。GAMESSやLAMMPS、QuantumESPRESSO、PHASE/0、Gaussianといった計算エンジンを利用できるGUI(グラフィカルユーザーインターフェース)ソフトで、分子構造と物性との相関をスプレッドシートのイメージで簡単に解析できる。新たな機械学習法などがサポートされると期待される。

 今後、MIブームに追従しようと、他のベンダーもこの分野への取り組みを強めることは間違いない。


ニュースファイルのトップに戻る