コンパックがBLAST解析の並列処理システムBioChopperを開発

DB分割方式で並列化、BLASTの完全自動化処理を実現

 2002.06.20−コンパックコンピュータは19日、遺伝子研究で標準的に利用されるホモロジー検索プログラムBLASTによる解析を高速化するためのソフトウエアを開発、「BioChopper」(バイオチョッパー)の製品名で販売を開始すると発表した。複数のPCサーバーなどに処理を分割することで全体のスループットを上げる仕組み。最近、BLASTの並列処理に関心が高まっているが、今回のシステムはクラスターシステムの知識を持たない一般の生物系研究者にも簡単に使用することができ、低価格なことが特徴。今後3年間で100本の販売を見込んでいる。

 BLASTは、大量のゲノムデータベース(DB)のなかから、検索したい配列と相同性の高い配列情報をみつけ出してくるプログラムで、遺伝子解析の定番ツールとして世界中で多用されている。ところが、DBが大容量なこともあって検索時間がかかるのがネックで、BLAST解析を高速化するための並列処理技術の導入が活発化しているのが現状。

 しかし、生物研究者はスタンドアロンのパソコンなどでBLAST解析を行うことには慣れているが、Linuxを利用してクラスターシステムを構築したり、運用管理したりする経験には乏しく、それらに手を取られて本来の研究活動に集中できないという問題も指摘されていた。

 今回のバイオチョッパーは、検索用のDBを物理的に分割することで全体のスループットを上げる仕組み。システムは、実際にBLAST解析を実行するPCサーバーなどからなる“ユニットメンバー”と、それらを取りまとめるマスターサーバーとして働く“ユニットマスター”から構成される。

 ユニットマスター上にはゲノムDBのマスターが置かれており、ユニットメンバーの数に応じてそのDBを分割して、それをメンバーのローカルディスクに送り込む。ユニットメンバーはその分割DBからそれぞれにBLAST用のインデックスファイルを作成し、BLASTによる検索処理を個別に実行する形になる。最後に解析結果をユニットマスターが取りまとめ、ソート後の最終的なデータをユーザーに示す。

 NCBI-BLASTに対応しているが、BLASTのプログラム自体は改変せず、DB分割によって並列化を行う仕組みであるため、BLASTのバージョンアップへの対応が容易。クラスター化のためのミドルウエアなども使用しないので、特別な知識なしに誰にでも利用できる。ユニット間の高速なインターコネクトも不要で、通常のLAN環境での使用が可能。ユニットメンバーは自由に増設でき、増やした分だけ性能も直線的に向上する。社内のベンチマークでは、32プロセッサー時に、単一プロセッサーに比べて32.5倍の性能向上が認められたという。

 同社は、すでに世界中のゲノムDBを自動的に集めて更新し、BLASTの前処理までを実行するソフトウエア「バイオコレクター」を製品化している。今回のユニットマスター上のマスターDBをバイオコレクターで更新できるようにシステム化すれば、BLAST解析のための完全自動化システムを実現することが可能である。

 一方、バイオチョッパーを利用することによる解析精度の変化に関しては、DB分割を行うため、BLASTのアルゴリズムとの関係によって、若干の精度低下が認められた。具体的には、相同性の信頼度を示す指標である“E-Value”の値が0.1以下までは完全一致の結果が出たが、1以上になると、下位の検索結果で数件程度のズレが認められたという。ただ、PSI-BLASTのデフォルト設定であるE-Valueが0.001未満の場合はまったく問題がなかったため、同社では実用上は無視できる範囲だと位置づけている。

 なお、動作環境は、コンパックマシン上でのTru64UNIX5.1aまたはレッドハット7.2で、メモリーは1ギガバイト以上を推奨。ハードディスクは、ユニットマスターが200ギガバイト以上、各ユニットメンバーは50ギガバイト以上が必要になる。ソフト価格は、ユニットメンバーが8台の最小構成で98万円から。

 また、同社では、ユニットマスターの上位にさらにシステムマスターを配置し、複数のユニットマスターを集中コントロールすることで大規模な構成を可能にする次期バージョンの開発にも着手しており、今年末にリリースする予定となっている。