富士通が大規模XMLデータベース専用機を製品化

バイオサーバーの開発成果を活用、遺伝子DBなど広範用途を狙う

 2006.12.15−富士通は、遺伝子データベース(DB)など、データ自体が可変長で正規化ができないため、一般的なリレーショナル型DB(RDB)に適していない情報を高速・大量に扱うことができる専用計算機を開発、「ShunsakuEngine」(Shunsakuエンジン)の名称で、きょう15日から販売・出荷開始する。同社独自のDBエンジンである「Shunsaku」があらかじめ内蔵されており、並列処理方式によって高速度な検索を実現する。すでに、来年3月に予定されている国立遺伝学研究所の日本DNAデータバンク(DDBJ)のシステム入れ替えにともなって正式採用されることが決まっている。バイオ分野以外にも幅広い用途開拓を目指し、3年間で900台の販売を見込んでいる。

 ShunsakuEngineは、2003年11月に発表された「バイオサーバー」の正式製品版第1号となるもの。試作機先行出荷機など何度かの改良を経て、開発が進められており、昨年の段階ではたん白質シミュレーション用の「バイオサーバー/G」、ドッキングシミュレーション用の「バイオサーバー/V」、バイオ情報検索用の「バイオサーバー/S」の3タイプが存在していた。今回の製品は、このSタイプをもとにしている。

 プロセッサーモジュールには、組み込み型のデュアルコアチップ「FR577」(480MHz)を採用、これを3個(合計6コア)搭載したボードを28枚装着(168コア)したボックス(810万円)が最小単位となる。このプロセッサーボックスを15台までラックマウントすることができ、最大構成は1ラックで2,520コアのシステムとなる。ボックス単位で柔軟に増設でき、ラックは何台でも連結可能。

 遺伝子DBでは、DNAの長さによって個々のデータのサイズが極端に変化することに加え、生物種ごとにデータ項目がまったく異なってしまう。このため一般的なRDBでは、DBをいくつにも分割したり、検索項目を限定したり、膨大な時間をかけてインデックスを作成したりしなければ、検索を行うこと自体が難しい。

 これに対し、ShunsakuはXMLを利用してデータレコードをすべてスキャンしてしまうため、データ項目をそろえて正規化したりインデックスを作成したりすることは不要。全項目・全文検索が可能で、原理的に検索条件がどんなに複雑でも検索速度は常に一定となるのが特徴。しかも、検索はメモリー上で並列に行われるので、プロセッサーを2倍に増やせば検索スピードも単純に2倍になる。

 遺伝子DBは、年ごとにサイズが1.5倍に増加しているが、随時マシンを増設すれば、どんなにデータ量が増えても検索性能が落ちることはない。現在のDDBJには、PCクラスター上のShunsakuが利用されているが、このたびShunsakuEngineに切り替えるのも、このことが主なポイントになったという。

 ShunsakuEngineのプロセッサーユニットにはコア当たり256メガバイトのメモリーが搭載されており、この上にデータを読み込んで検索する。1テラバイトのデータ取り込みにかかる時間は約1時間。RDBが70ギガバイトのデータをインデックス化するのには7日間以上もかかるということで、データが毎日更新される遺伝子の世界ではこれも大きなアドバンテージになるといえる。

 PCクラスターとの比較では、Shunsakuで同じパフォーマンスが出る構成で比べた場合、ShunsakuEngineの方が設置面積で2.3倍、消費電力で1.8倍、システム価格で1.5−2倍の優位性を持つということだ。

 ShunsakuEngine自体はかなり大規模な並列機であるが、ハードディスクを持たないなど構成がシンプルであるため信頼性が高い。実際、バイオサーバーの試作機は、この3年間にシステムダウンもプロセッサーの故障も、ただの一度も起こしていないという。運用に関しては、フロントエンドのサーバー1台を管理すればよく、またShunsakuEngine上の組み込みLinux(レッドハットのuCLinuxを採用)には保守料もかからないので、ランニングコストも低い。

 同社では、この製品をバイオ分野だけでなく、Shunsakuが利用されるさまざまな用途に展開していきたい考え。内部統制強化にともない増大するアクセスログなど、RDBに格納しにくい性質の情報が膨れあがってきている。また、顧客管理DBや人事DBなど通常の業務システムの中にも正規化できない非定型のデータが埋もれている場合が多いのだという。

 同社では、さらに並列化の密度を高めるため、次世代製品としてShunsakuのアルゴリズムをハードワイヤードした“Shunsakuプロセッサー”の開発も計画中だという。

 なお、バイオサーバーとしてのGタイプ、Vタイプなどの製品化が断念されたわけではなく、引き続きチューンアップを実施しながら製品化の形態やタイミングを探っていきたいとしている。