2019年冬CCS特集:総論第4部 バイオインフォマティクス
次期スパコン「富岳」へ高まる期待、データとの格闘技を制す
2019.10.03−バイオ研究におけるスーパーコンピューターの役割が今後ますます高まりそうだ。遺伝子解析をがん治療などに役立てる目的で膨大なデータを解析する必要があり、そのために巨大なスパコンが求められている。とくに、遺伝子の変異が主要な原因になるがん研究は、いまやデータとの格闘技と化しているという。その意味で、日本の次期フラッグシップスパコンとして開発中の「富岳」に対する期待は大きい。今年8月に役目を終えた「京」の後継機で、2021年から2022年の稼働(共用開始)が予定されている。「富岳」の利用は科学技術の広い範囲に及ぶが、バイオインフォマティクスの世界にも格段の飛躍をもたらすことは間違いない。
◇ ◇ ◇
現在、個人のゲノム情報をもとに、効果的で安全な治療法を選択できるようになることが待望されている。とくに、DNAの変異(塩基配列の置換、欠失、転座など)によって引き起こされるがんについては、そのゲノム異常を解明することが、効果的な治療法や予防法につながると期待されているためだ。
その背景には、次世代シーケンサー(NGS)が普及し、個人のDNAが安価で高速に読み取れるようになったことがある。いまでも600ドルほどで一人の人間の全ゲノム情報を得ることができるが、数年後にはそのコストは100ドルにまで下落するといわれる。その意味で、すでに道は付けられているといっていい。
ただ、正常細胞とがん細胞のゲノム情報を精密に比較解析できるかどうかが問題だ。NGSでは、人間のDNAを構成する30億塩基を、100塩基ほどの断片に切り分けて読み取り、再構成するため、エラーを考慮してDNAを30ほどコピーして機械にかける。配列の異常を見逃さないために、がん患者の場合は40〜50コピーを使用する。仮に40コピーの場合、DNA断片の数は12億個にもなり、それを正常細胞とがん細胞で比較し、数十の症例について調べるとなると、膨大な計算量が必要になる。まさにスパコンの出番だ。
しかも、現時点のNGSでは、10塩基から1,000塩基程度の挿入や欠失などの異常はみつかりにくいことも課題だといわれている。そこで、世界のがんゲノム研究の先端では、100〜300コピーを使った全ゲノム解析が試みられている。また、がんは増殖し他の臓器に転移するため、時系列的に、複数の臓器からサンプルを採取し、ゲノム解析を行うことが理想だろう。こうなると、高速計算への要求は際限がない。
さて、「富岳」の詳細なスペックはまだ不明だが、実効的に「京」の100倍の計算能力を達成することが目標だとされている。正式には2021年から2022年にかけて共用開始となる予定で、Arm v8.2A SVE拡張命令セットに対応した「A64FX」(富士通製)CPUを採用したハードウエアの製造がすでに開始されている。具体的なスケジュールはまだはっきりしないが、「京」が設置されていた理化学研究所計算科学研究センター(神戸)にシステムが納入される。最新の情報では、文部科学省が来年後半に「富岳」の試行的利用を行うことを検討しており、早ければ2021年半ばにも本格的な共用がスタートする可能性がある。
国内では、すでに2015年度からポスト「京」重点課題プロジェクトが実施されており、医療・創薬や材料開発をはじめとした幅広い科学技術分野で「富岳」の性能をフル活用するためのソフトウエア開発が着々と進んできている。そうした研究グループの報告によると、「富岳」が完成すれば、日本全国で1年間に発生するすべての新規がん患者のゲノム解析に対応できるパフォーマンスが得られるということだ。
ゲノム変異の解析以外にも、いろいろな用途で「富岳」の利用が期待される。例えば、薬剤耐性の問題がある。薬剤に対する反応性の個人差がゲノムにあらわれるため、投与する前にあらかじめ効果がある患者群を見分けることが可能。がん治療薬などは非常に高額であるため、このこと自体も重要だが、それでも薬剤耐性が生じるケースが少なくない。こうした場合、薬剤のターゲットタンパク質のアミノ酸配列が一つ変わっただけで、薬が効かなくなってしまうことがあるという。アミノ酸配列の変異により薬剤の結合親和性が低下したことが原因だと考えられるが、この現象を正しく解明し対策を立てることは難しい。
こうした評価を実験的に行おうとすれば、1件について数カ月を擁することになるが、スパコンによる計算なら費用と時間を大幅に削減することが可能。「富岳」を利用すると、アミノ酸配列の変異に基づく薬剤感受性計算を、1週間に1万件の単位でこなすことができるということだ。
タンパク質シミュレーションも飛躍的に高度化するだろう。「京」によって、1,000万〜1億原子で構成される巨大タンパク質のダイナミック計算をマイクロ秒スケールまで進めることが可能になった。「京」以前は、こうした計算は数百原子で1ナノ秒程度までが一般的だったことを考えると、きわめて大きな進歩を遂げていたわけだが、「富岳」は10億原子の系をミリ秒まで計算することが可能だという。ちょうど、タンパク質の生体現象が目にみえてくるのがミリ秒の世界だ。
このように医療や創薬に与える大きな影響、魅力的な未来が期待できることを考えると、「富岳」の稼働が待ち遠しくなるのではないだろうか。