コンパックがバイオ研究の自動化ソフトを開発

ゲノムDB取得からBLAST用インデックス作成まで一貫処理

 2002.06.13−コンパックコンピュータは12日、インターネット上のゲノムデータベース(DB)を取得し、BLASTでホモロジー検索を実施するまでの一連の処理を自動的に行えるようにするソフトウエア「バイオコレクター」(商品名)を開発した。ゲノム関連DBは数が多く世界中に点在しており、そのサイズも巨大になることから、バイオ研究者は本来の研究よりもそれらのDBを構築・管理する繁雑な作業に追われてしまっているのが現状。新システムはバイオ研究で行われる典型的なワークフローを完全自動化できるため、研究効率を大幅に向上させると期待される。

 コンパックは、バイオインフォマティクス分野で実績豊富な高性能なコンピューターシステム、システムインテグレーション(SI)サービスを提供するとともに、国内で独自にパッケージソフトの開発も手がけてきている。すでに、バイオ専用全文検索システム「バイオサーチ」、ウェブベースのホモロジー検索ツール「バイオファインダー」を製品化しており、今回の「バイオコレクター」はオリジナルソフトの第3弾に当たる。

 バイオコレクターは、インターネット上のゲノムDBを社内または研究所内にローカルに複製し、内部で自由に解析を加えられるようにするもの。多くのDBはインターネット上でも検索が可能だが、創薬研究に利用するなどの機密性の高い検索を公に行いたくないユーザーが増えているほか、遺伝子治療などの分野では個人情報保護の観点からやはり検索用の配列情報をインターネット上に流したくないという傾向も強くみられるという。また、GenBankなどでは世界中からのアクセスが多いため、検索結果が翌日にならないと返ってこないという現実もあり、同社では今後はDBを内部に複製するユーザーが確実に増えるとみている。

 多くのユーザーは、取得したDBをもとに標準的なホモロジー検索ソフトである「BLAST」を利用しているが、そのためには専用のインデックスファイルを作成する必要があり、これも手間のかかる作業だった。

 今回のバイオコレクターはこれらを完全に自動化することが可能。あらかじめ核酸配列DBのGenBankとEMBL、DDBJ、アミノ酸配列DBのGenPept、たん白質立体構造DBのPDB、アミノ酸配列DBのPIRといった代表的な公的DBが登録されているほか、それぞれのDBに合わせたおすすめの更新スケジュールも設定されているので、新しくバイオ研究をはじめようとするユーザーでも簡単に利用することができる。

 ただ、この6種類のDBでもトータルサイズは約250ギガバイトに達しており、ダウンロードにはかなりの時間がかかる。DB更新は差分ファイルのダウンロードとなるため、初回以外はそれほどの時間はいらないとしても、ダウンロード中は検索作業を行えないということを防ぐため、ローカルに検索用のディレクトリーとダウンロード用のディレクトリーを設け、ダウンロード中でも検索を実行することができるようになっている。レジューム機能があるので、DB取得中に回線が切断されても、続きからダウンロードを再開することが可能。

 さらに、取得したDBからBLAST用のインデックスファイルを作成することも自動化されている。BLASTは、インデックスが2ギガバイトを超えるとファイルを自動分割するため、例えばどのインデックスファイルの集合がGenBankからのデータを含んでいるのかを知るために定義ファイルを作成しておく。バイオコレクターでは、GenBankの差分ファイルを取得してインデックスをつくると、その情報を定義ファイルに自動的に書き込んでくれるので、ユーザーは面倒なことを意識しないですむという。

 バイオコレクターの価格は98万円で、Tru64UNIXまたはレッドハットLinux上で稼働。同社ではSIサービスを含めて提供することも行っていく。すでに、長浜バイオ大学(滋賀県に来年4月に設立予定)と製品評価技術基盤機構から受注が決まっているが、さらに初年度に20−30本の販売を見込んでいる。