2018年冬CCS特集:総論第3部 バイオインフォマティクス
生命現象を多層的に解析、マルチオミクス解析進展
2018.10.05−バイオインフォマティクスを利用した生命科学研究の進歩が、創薬や医療を一段と高いステージに引き上げようとしている。生命現象の全体像を理解し、階層を越えたシステムとして統合的にとらえるシステムバイオロジーの応用展開が実際的に進みつつある。そのためには、生命現象の複雑な階層構造、多様な要素間をつなぐ相互作用を解明する必要があるが、取り扱うべき情報量が爆発的に増大してしまうことから、コンピューターを利用した数学的な手法が必須。機械学習などの人工知能(AI)の導入も試みられてきている。
生命科学研究は、1990年代から2000年代にかけて行われたヒトゲノムプロジェクトを経て、ゲノミクス、プロテオミクス、メタボロミクスなどの網羅的解析が進んだが、それぞれの階層内の研究にとどまっていては、生命現象を解き明かすことは難しいことがわかってきた。そこで、時代はマルチオミクス解析へと進んできている。
これは、多階層に分かれた多様な因子が複雑な相互関係を有し、そのネットワークあるいはフローがさまざまな生命現象を発現させるため。そのため、ゲノムやエピゲノム、遺伝子、タンパク質、代謝産物などの諸因子の全体を、システムバイオロジーの考え方で包括的にとらえる必要がある。
全体をみるという意味では、これまで調べなかった領域も対象にすることが重要だ。例えば、最近のがん研究で、ゲノムの変異がシステム異常を引き起こすメカニズムを発見した例がある。これは、スーパーコンピューター「京」を利用したバイオインフォマティクス研究の成果として報告されているもので、成人T細胞白血病リンパ腫(ALT)における遺伝子異常を網羅的に解析(ALT患者48人の全ゲノムを解析)した結果、2,857の構造異常がみつかり、そのうちのPD-L1遺伝子の構造異常が免疫機構を狂わせ、がん細胞を攻撃しないようにさせていることを突き止めた。ここで興味深いのは、その異常が、タンパク質をコードしていないイントロン部位で生じていたこと。タンパク質をコードしているエクソン部位を対象にする従来の遺伝子研究では発見できなかった事実だという。これにより、スーパーコンピューターによる大規模バイオインフォマティクスの有効性を実証した。
ただ、生命システムの全体を対象にすることは最新のスーパーコンピューターでも困難だ。ヒトの体内に存在するタンパク質は約10万だが、二つのタンパク質の相互作用を考えるだけでもその組み合わせは10万×10万通りにもなる。また、ヒトの細胞の中には何万もの分子が存在し、複雑な相互作用を行っている。そして、組織や器官を構成する細胞は全体で37億〜60億個もあるといわれる。次期スーパーコンピューターとして開発中のポスト「京」でも、こうした課題がグランドチャレンジの一つに取り上げられているが、当面は通常のコンピューターの処理能力を超えたテーマだとも思われる。
そこで、AIや機械学習を取り込もうという動きも出てきている。生命科学の爆発する情報量を取り扱う手段として注目されるが、その研究はまだ緒に就いたばかりだ。今後の動向が注目される。
一方、AIは研究の自動化・効率化・省人化という観点でも注目すべきだろう。これは、新薬の研究開発費がますます増大していることと関係がある。医薬品産業の研究開発投資は10年前の2.5倍に当たる25億ドル以上に膨らんでいるといわれる。トップ企業のメルクやロシュは日本円で1兆円以上をつぎ込んでいる。少なくとも、グローバル企業としての研究費は最低でも年間5,000億円が必要であり、この金額を拠出するには売り上げで3兆〜5兆円、1.5〜2兆円の営業利益が必要になるという。これだけの研究費を投入し、連続的に新薬を創出していかなければ生き残れないのがいまの医薬品産業なのである。そのために買収・合併を繰り返し、企業規模の拡大を図っているわけだ。
しかし、日本の製薬企業でここまでの体力を有するところはない。ここで、少ない研究費で開発を行うためにAIを利用するという選択肢が出てくる。研究プロセスを自動化・省力化する方向へのAI応用を試みる研究も具体的に進んできている。