CCS特集2022年冬:化学情報協会

結晶構造DBで機械学習、MOFなど材料研究で注目

 2022.12.01−化学情報協会は、創薬研究や材料開発に役立つさまざまなデータベース(DB)製品を取り扱っているが、なかでも英ケンブリッジ結晶学データセンター(CCDC)が提供している結晶構造DBがマテリアルズ・インフォマティクス(MI)領域で注目されている。このデータを機械学習のための信頼できるトレーニングセットとして使用することにより、材料研究を加速し、開発コスト削減にもつながることが実証されてきているためだ。

 CCDCは、有機化合物・有機金属化合物をX線・中性子線で解析したケンブリッジ結晶構造DB「CSD」の開発を長年にわたり継続してきた。論文から人手で集めたデータで、収録件数は2019年7月に100万件を突破し、現在のデータ件数は120万件。原著論文の書誌情報のほか、異方性変異パラメーター、再結晶溶媒、融点など論文中に記された物性情報も載せている。最近では“デジタルファースト”というコンセプトを打ち出し、インフォマティクスとの連携を強く意識。「既知の情報をもとに目的の系を創出する未来」を目指して、データ件数を拡大させる努力を払うとともに、人工知能(AI)/機械学習などのデータサイエンスと統合するための検索・解析や可視化技術の開発に力を入れてきている。とりわけ、データの信頼性、網羅性、使える形にすることを重視しているという。

 CSDにおいては、近年とくに多孔性金属錯体(メタルオーガニックフレームワーク、MOF)の登録数が増加し、全体の約1割を占めるまでになってきている。これは、金属に有機分子が配位子として配位し、3次元的な構造体を形成している物質で、配位子や金属の組み合わせを変えることでさまざまな系をデザインできる。特異な反応場としたり、特定の分子を包接したりするなど、世界中で研究が活発化している。もともと、CSDは製薬会社の利用が多かったが、このところは電子部品や自動車関連企業からの問い合わせが急増。これも、MOFに関連した用途が多いように思われるということだ。基本的に、物質・材料の性質は分子構造、分子や原子の並び方に支配されることが多い。CSDが注目されるゆえんである。

 その意味で関心が高まっているのが「CSD-Python API」。Pythonスクリプトを書いてCSDに直接アクセスし、データを自由に抽出・処理することができる。MIを実施するために最適の機能で、実際にCSD内のMOFに関するデータを抽出し、どのような配位子と金属の組み合わせがゲスト分子を取り込むのか、機械学習で法則性(精度80%)を見いだした研究例もあるという。

 さて、CCDCの製品体系は、結晶構造を検索・分析・理解するための基本ツールを集めた「CSD-Core」、創薬を中心に新しい分子を創出するための機能をまとめた「CSD-Discovery」、分子集合体・固体を設計するための「CSD-Materials」、結晶形の予測や結晶表面の性質予測、へき開面(Slip面)を予測できる「CSD-Particle」などから構成されている。これらを研究目的に応じて組み合わせることで、信頼性のある豊富なデータを用いて、予測したり設計したり検証したりすることが可能。また、CCDCでは個別の研究内容に応じて実施するコンサルティングサービスも展開しており、国内に対しては化学情報協会が仲介役となっている。


ニュースファイルのトップに戻る