CCSnews

CCS特集第2部：バイオインフォマティクス

創薬研究支援でブーム的様相を呈する

　1999.11.20－コンピューターケミストリーシステム（CCS）市場において、バイオインフォマティクスが一大潮流を形成しつつある。生物のゲノム情報の解明が加速する中で、生命現象における遺伝子の持つ役割の重要性が明らかになり、それが新薬開発や医療に具体的に役立つ可能性があることがわかってきたからだ。そこで、コンピューターを利用して膨大な遺伝子情報を高速に処理し、そこから有用な情報を引き出す技術がバイオインフォマティクスである。システム側からみると、高速なコンピューター、大容量のデータベース、大量情報を処理できる先端アルゴリズムを持つソフトウエアが必要であり、ハード・ソフトを含めたIT（情報技術）産業各社もこの市場に照準を合わせてきている。バイオインフォマティクスにおいては、これらのIT要素をスケーラブルに統合することが重要であり、具体的にはシステムインテグレーションあるいはアウトソーシング系のサービス事業が中心となっている。

　　◇　　◇　　◇

　1989年、米国立衛生研究所（NIH）でヒトゲノム解析計画がスタートした。ゲノムとは一つの細胞の中にある染色体の集まりのこと。そのすべての塩基配列情報を明らかにし、それに含まれる遺伝子がどのような働きを担っているかを解明することにより、分子レベルで生命現象を明らかにすることが、この計画の最終目標である。

　まず行われているのが、DNAの塩基配列の解析。DNAは、らせんを描く2本の鎖からなっている高分子で、アデニン（A）、チミン（T）、グアニン（G）、シトシン（C）の4種類の塩基化合物の組み合わせで構成されている。片方の鎖の塩基は、もう片方の鎖の対応する塩基と対になって結合し、はしご段のような構造を形成する。この塩基配列の順序がいわゆる“生命体の基本設計図”と呼ばれる。

　しかし、実際の生命現象を司るのはさまざまなたん白質である。人間の場合、塩基配列は全体で30億塩基対といわれ、その中に約10万（8万とも14万ともいわれる）の遺伝子が断片的に含まれている。その遺伝情報が特定のたん白質の機能を決定している。例えば、赤血球にあるヘモグロビンというたん白質は酸素を体の隅々に運ぶ役割を持ち、抗体と呼ばれる各種のたん白質は病気を防ぐのに役立っている。また、インシュリンなどのたん白質は食べたものの新陳代謝や細胞レベルの各種の機能を制御している。

　DNAの特定の遺伝情報が複製され、その情報をもとにリボ核酸（RNA）を介して細胞内でアミノ酸が正しい配列で組み上げられて、各種のたん白質が合成される。

　つまり、重要なのは配列そのものではなく、たん白質の機能であり、どの遺伝子が発現してどのたん白質を生成し、それがどのように機能を果たすのかを解明することがポイントである。いろいろな病気など、体内で起こる生命現象がすべて何らかのたん白質の相互作用で生じると考えれば、そのメカニズムを阻止することが画期的な新薬につながるわけだ。

　そこで、この研究過程を支援するCCSのターゲットとしては、全塩基配列の解明と遺伝子発現部位の解析、たん白質を形成するアミノ酸配列の解析とたんぱく質機能予測が重要なテーマとなる。しかも、そのデータ量も処理量も格段に大量であり、際立ったスケーラビリティーが求められているのが“ポストゲノム”時代のバイオインフォマティクス系CCSだといえるだろう。

　注目されるのは、塩基配列決定のペースが、ここ1－2年で急激な加速をみせていることだ。DNAのシーケンシングの速度は、80年には一日に300塩基対程度だったが、95年には一日に10万塩基対、今年に入って何と一日に2,000万塩基対の水準に達している。これまでにインフルエンザウイルスの180万塩基対、センチュウの9,700万塩基対などの全配列が解明されているが、今年の9月には米国のバイオベンチャーであるセレーラ社が1億2,000万塩基対のショウジョウバエのゲノムを解明して世間を驚かせた。わずか4ヵ月で作業を終了させたからだ。

　セレーラ社は、2003年を目標にしている日米欧の国際的共同国家プロジェクトの向こうをはって、2001年末までにヒトゲノムを解明すると公表して物議を醸している企業である。

　同社はシーケンサーや情報システムに毎年3億ドルを投資しているという。最新のシーケンサーは毎時間2ギガバイトのデータを出力するため、データ量は年間8テラバイト増加することになる。ヒトゲノム解析には100テラバイトのデータベースが必要になる勘定だ。

　コンピューター導入のペースも凄まじい。今年の4月に第二期導入でコンパックの新型サーバーをテスト的に入れたあと、9月に4プロセッサーの中規模サーバーを一気に100台導入した。今年末にはさらに環境を強化し、プロセッサー数で1,200台の規模に達する見込みだ。

　IT産業からすれば、これらのバイオベンチャー、またはヒトゲノム計画関連の各国研究施設はきわめて魅力的な顧客であり、コンパックが旧DECの技術計算分野のノウハウを武器に攻勢をかけているほか、SGIがインサイトと、ヒューレット・パッカードがアフィメトリックスと提携してシステムの共同開発を行っている。データベース分野ではオラクルもこの市場に参加しているほか、DNAチップ分野ではモトローラがアルゴンヌ国立研究所と共同で開発を行っている。

　　◇　　◇　　◇

　遺伝子研究の世界では、研究成果は人類の公共の財産だという暗黙の了解があり、遺伝子やアミノ酸の配列DB、解析ソフトなどは研究者の間で無償で利用できるのが一般的である。80年代はじめの第一次バイオブームのときには多数の商用ソフトが登場した。それらは、世界の遺伝子関連DBをCD-ROMなどで再頒布するディストリビューターを兼ねているベンダーも多かったが、インターネットの普及にともなって公共のDBに自由にアクセスできるようになるとともに、ソフトの方もフリーソフトへの流れが確立されてきた。

　その上に、最近は遺伝子研究のスピードが加速し、処理すべきデータ量が爆発的に増大しているため、以前のパッケージソフトでは間に合わない状況が生じている。

　このような背景によって、さまざまなDBと各種のフリーソフトを統合的に活用したいというニーズが高まったため、CCSベンダー側としてはシステムインテグレーションやアウトソーシングで個別ユーザー対応のソリューションをカスタム提供することが多くなってきた。例えば、公共のDBは世界中に散在しており、その一つひとつに対して個別にアクセスしていたのではスピード時代に乗り遅れる。全体に対して一気に検索をかけるような仕組みづくりが必要になるわけだ。

　日立ソフトウェアエンジニアリングや三井情報開発、帝人システムテクノロジーが先行して実績をあげているが、CTCラボラトリーシステムズは創薬ソリューションを広げる観点から製品群を強化、富士通もあらためて攻勢をかける準備を整えているほか、一度はCCSから撤退した理経も再進出を果たすなど、同市場はIT産業各社の注目の的になりつつある。

　富士通は11月1日付でCCS事業部門を再編成し、システム本部直轄のライフサイエンス推進室を新設。「富士通バイオネットセンター」の設立構想を打ち上げた。当面はバイオインフォマティクス関連のシステムインテグレーション事業を手がけていくが、インターネットプロバイダーの＠ニフティの基盤を利用し、将来的にはﾀｳ富士通色ﾀﾄをなくして、さまざまなベンダー／ユーザーを集めたポータルサイトを確立していきたいという。バイオに関するコミュニティの場、あるいはビジネスの場として広く利用してもらうことを目指す。

　理経は、コンパックのマシンをベースにかずさDNA研究所のシステム構築を手がけた実績をテコに、シーケンサーなどの装置の提供も含めて同分野のソリューションビジネスを強化中。ホモロジー検索の定番のフリーソフトであるBLASTなどをプリインストールしたコンパックサーバーを特別価格で販売。さらに、米ジーンフォマティックスと提携し、たん白質機能解析データサービスを開始した。独自開発したDBにシーケンスデータを照合することで、そのシーケンスに含まれるたん白質の3次元構造と生物学的機能を短期間で予測できるというものだ。

　このように、以前はDBもソフトも無料だったが、最近は欧米において有料のものが登場してきているのが、ここへ来ての大きな変化だといえる。セレーラ社が国家に先駆けてヒトゲノムを解析しようとしているのも、そうして得られたデータを高額で販売しようという狙いがあるのは明白である。

　実際、民間が独自に解析したシーケンスデータや、独自のモデルをベースにしてつくり上げたDBを有料で販売したり、特定の顧客だけがアクセスできるような契約を結んだりするビジネスが欧米で非常にはやっている。やはり対象はほとんどが製薬会社である。

　GenBankやEMBLなど歴史ある公共DBはデータ量は豊富だが玉石混淆だともいわれ、コンピューターで解析しただけで生物学的に実証されていないデータがたくさん入り込んでいるなど、データの品質に問題があるという指摘もある。それに対して、バイオベンチャーのDBは均質であり、大量解析にも適しており、また創薬研究にフォーカスしたデータが提供されるということで売れるのである。研究者の間には共有の財産であるべき遺伝子データで金もうけをしようという動きに対して根強い反発があるのも事実だが、DBが無料という時代はもはや過ぎ去りつつあるのかもしれない。