2015年冬CCS特集:第3部総論(バイオインフォマティクス)
DB統合/ビッグデータで飛躍
2015.10.08−バイオインフォマティクスは、いわゆるビッグデータを中心とした“データ主導型アプローチ”を一段と推進することにより、新たな段階に入ろうとしている。体の中で起こる生命現象を網羅的に調べるオミックス研究の発展により、実際に利用できるデータあるいはデータベース(DB)は質・量ともに目覚ましい勢いで拡大してきた。ただ、具体的な創薬や医療に役立てるためには、バラバラのデータを結びつけてその関連性を示したり、異なるDB間をリンクさせて横断的な検索を可能にしたりするなど、広い意味でのデータ連携がカギになってくる。いわゆる統合化に向けた動きに期待が高まってきている。
◇ ◇ ◇
生命科学分野のDBは、国内のものだけで1,500種類ほどもあるといわれており、それに蓄積されている情報の種類も量もまさしく“ビッグデータ”である。
そもそもは、ゲノム(遺伝子の総体)研究からスタートしたが、ヒトゲノムプロジェクトの当時は人体の設計図ともいわれる遺伝子がわかれば、病気の原因や予防法などもすべてわかると期待された。プロテオーム(タンパク質の総体)研究が隆盛した1990年代から2000年代にかけては、遺伝子が発現したタンパク質がわかればすべてがわかるといわれた。
しかし、ゲノムはまさに設計図で、そこに書かれている生命現象が起きる可能性はあるが、それがいつ起こるか、いま起きているかはわからない。プロテオームになると、あるタンパク質が酵素として働いて何かの生命現象をいまから起こすことはわかるが、何を起こすかをつかむのは難しい。それに対し、メタボローム(低分子代謝物の総体)研究は、酵素が働いて生命現象が生じるたびに生成される低分子代謝物に注目する。その代謝物の変動をフィンガープリントとしてとらえることにより、どんな生命現象が起こったのかその全体像を知ることができるのである。
このように、オミックス研究が進展するにしたがってたくさんのDBがつくられるようになっていったが、カギとなるのが化合物である。多くの異なるDB内の化合物情報を共通のカギとしてリンクさせることで、DB同士を関連づけて統合することが可能になる。これにより、生命現象の全体像をシステムとして理解することが一気に前進すると期待できる。
生命科学系のDBセンターは、欧州のバイオインフォマティクス研究所(EBI)、米国の生物工学情報センター(NCBI)、日本の科学技術振興機構(JST)バイオサイエンスデータベースセンター(NBDC)の三極に集約されており、それぞれで国内DBの統合化と国際間のDB連携のためのプロジェクトが走っている。とくに、化合物情報のコード化は長年の実績があり、CAS登録番号やInChI形式などをベースにした標準化が行われて、各国のDBがリンクしつつある。国内では、日化辞番号をカギにした統合化が進んでいる。日米欧のバイオDBが有機的に結びついた時、生命科学研究は画期的な飛躍を遂げる可能性がある。
一方、これとは異なる観点から大きな期待を集めているのが医療ビッグデータである。電子カルテの普及により、臨床データの収集が容易になったことが背景にある。個人レベルの遺伝情報と医療データを連携させることでリアルワールドデータ(RWD)の解析につなげ、それにより臨床研究のパラダイムシフトを起こそうというもの。
50万人の健常者の血液標本を集め、その後の健康医療状況を追跡調査する英国のバイオバンクプロジェクトが代表格。疾患発生の環境要因と遺伝的素因との関係を解き明かそうとしている。国内でも、宮城県・岩手県の8万人の健康医療記録を10年間にわたって記録する東北メディカルメガバンクプロジェクトが進行している。