菱化システムが1億件クラスの大量化合物の高速検索に成功
MOEのデータベース機能を拡張、独自の部分構造フィンガープリント
2015.07.15−菱化システムは、加CCGの統合計算化学システム「MOE」を利用して、数千万から1億件の化合物情報を高速に検索するシステムを開発した。入手可能な市販化合物ライブラリーを解析することで効率的な部分構造のコード化方法を発見。それをもとにした独自の部分構造フィンガープリントを用いて、ノートPCのような一般的なハードウエアで大量の化合物データを扱うことができることを実証した。7月7日に開催された「MOEフォーラム2015」で発表された成果であり、「MOE」のオプションプログラムとして製品化するなどのかたちで、広くユーザーに提供することにしている。
「MOE」は、計算化学手法を用いて分子設計を行うソフトだが、解析対象とする化合物情報を扱うためのデータベース機能も内蔵している。専用のファイル形式である“mdbファイル”は、分子構造データを効率的に格納でき、高速な読み込みが可能。ノートPCでも数千から数万の化合物を瞬時にテーブル表示したり、検索したりすることができるため、MOEが登場した1990年代末から2000年代初頭にかけては大きなアドバンテージとなっていた。しかし、現在では数千万件の化合物ライブラリーが市販され、その分子構造データもSDFファイルなどで提供されていることを考えると、MOE単独で1億件近い化合物情報を扱えるように機能を拡張したいとして、今回の開発に取り組んだという。
同社ではまず、医薬候補化合物は何らかの環構造を含む場合がほとんどであるため、縮合環や架橋環もすべて単環に分割すれば環構造のパターン自体はそれほど多くないという発想のもとに、約950万件の試薬データを解析、すべての環構造を抽出し、その出現頻度を算出した。その結果、単環としての構造はわずか2,428種類しかないこと、一般的な有機化合物に含まれる原子のみで構成されるパターンは1,300種類程度に限定されることを見出した。抽出した単環構造の検証として、ナミキ商事から提供を受けた約5,500万件のライブラリーデータを利用し、ライブラリー内のすべての有機環構造を検出できることを確認しているという。
これらの解析結果をもとに、出現頻度の高い環構造には結合する原子の情報を加えるなど、効率的に部分構造をコード化するためのルールを定め、高速検索に適した部分構造フィンガープリント(SSFP)を独自に定義した。また、含金属環を金属の分類と環の大きさでパターン化したほか、未知の環構造が出現した時のために、ワイルドカードとなるパターンも考慮している。
実際の化合物検索に当たっては、このSSFPを用いて、対象とする化合物ライブラリーをあらかじめインデックス化しておく。具体的には、検索式となる構造をSSFPとSMILESに変換し、SSFPでインデックスファイルをスキャンするのが第1段階。その回答集合をMOEの通常の検索方法であるSMILESで絞り込むのが第2段階となる。今回、この2つの処理を連続的に実行するMOE用アプリケーションを「SSQS」(Substructure Quick Search)として製品化した。
SSFPやインデックスは中間ファイルとしてバイナリー形式で扱われるため、メモリーの小さいノートPCでも数千万件の化合物構造を検索することが可能。検索時間はクエリー構造とヒット数によって変わってくるが、おおむね1億件の化合物検索を数秒から数十秒で処理できるという。
SSQSのMOEへの組み込みとしては、MOEの専用GUIに対応しているほか、ウェブインターフェース版やJavaスクリプト版も開発中。製品としての提供形態はいまのところ未定となっている。
******
<関連リンク>:
菱化システム(科学技術システム事業のトップページ)
http://www.rsi.co.jp/kagaku/cs/index.html
菱化システム(MOE 製品情報ページ)
http://www.rsi.co.jp/kagaku/cs/ccg/index.html