CCS特集2022年冬:総論第3部 バイオインフォマティクス
データ科学との融合で前進、生物とITの二刀流人材を要望
2022.10.07−バイオインフォマティクスは、データサイエンスとの融合によって大きく役割を広げ、その重要性も高く認識されている。最近では、車の両輪のようにそれぞれが影響し合って、生命科学の新しい領域を前進させているのが実態だ。そうした中、バイオインフォマティクス人材の育成が強く求められてきている。しかしながら、データサイエンティストはいまや引く手あまただ。バイオへの進路は選択肢のひとつにすぎない。若い研究者、技術者を引き寄せるため、さらに一押しの努力が必要だろう。
20数年前まで、バイオインフォマティクスの仕事はもっぱらDNAの塩基配列を読み取って解析することだった。塩基配列も、タンパク質のアミノ酸配列も、文字の並びで表現できるためコンピューター処理に適しているとされたからだ。2000年前後のバイオブームの際は国家プロジェクトに大規模な予算が投入され、大学のバイオインフォマティクス教育も一気に進んだ。しかし、当時のブームは急速にしぼみ、バイオインフォマティクスの市場性は急落して、バイオインフォマティクスを専攻した学生たちが進路に迷うという状況も生じた。しかし、ここへ来て、バイオインフォマティシャンの地位は大いに高まってきている。
これは、データサイエンスとの融合でバイオインフォマティクスが様変わりしたことも大きい。この間に実験装置も高度化し、一度の生命科学実験で大量のデータを生み出すようになっていたが、これが一般的なデータサイエンスで扱うデータとは異質だったのである。例えば、清涼飲料の売り上げを機械学習で予測する場合、天気や気温・湿度、曜日などが主な説明変数になるだろう。これらをもとに、目的変数としての売上個数を予測する。つまり、説明変数の数は数個だが、データ自体は数年分や各地域ごとなどに集めることになるため、データ件数は大量になる。いわゆるビッグデータだ。これに対し、遺伝子は文字として32億もの長大な長さがあり、約2万といわれるタンパク質をコードしている配列部分が存在する。このため、説明変数の数は数万〜数十億個にもなる。一方で、データ自体の数は数百からせいぜい数万の単位だ。統計的には多重比較という問題になり、機械学習には新しいアルゴリズムが必要とされる。こうして、バイオインフォマティクスでのニーズがデータサイエンスの進歩を促し、その成果が生命科学の新しい発見に還元されてきたといえるだろう。
とくに、深層学習の分野で生命科学との関わりが目立つ。ひとつは自然言語処理(NLP)で、生命科学文献を機械的に読み解く技術である。すでに、「BioBERT」や「PubMedBERT」などの学習済みモデルが公開されており、文献データから生命科学の知識を抽出する精度は、今後ますます向上していく可能性がある。また、ゲノム配列をNLPの機械翻訳で処理し、DNAの切断・分解などの現象を予測しようという試みもあるという。
また、最近の成功例として注目されているものに「AlphaFold」がある。アミノ酸配列だけからタンパク質の立体構造を予測することは長年の研究テーマだったが、2018年と2020年のコンペティション「CASP」(2年に1回)でグーグル傘下のDeepMind社が深層学習で他の研究グループを圧倒する結果を示した。この技術は昨年7月にオープンソース化され、今年1月から商業利用も解禁された。今後の活用が期待される。そのほか、任意のアミノ酸配列から新しいタンパク質を構築しようという研究を行っているグループもあり、データサイエンスの応用はまだまだ大きな広がりをみせそうだ。
こうした背景があることから、生命科学研究にバイオインフォマティシャンは不可欠の存在になっている。必要とされる人材はバイオインフォマティクス研究者と研究支援者に分けられるが、どちらも不足しているといわれる。とくに、既存のITツールやデータベースを使用し、生物系研究者と共同研究するだけでなく、自分で生物の問題を発見し、定式化し、必要に応じて新しいアルゴリズムやITツール、データベースを開発することで問題を解決できるデータサイエンティストが求められている。いわば生物とITの二刀流を身に付けた研究者だが、最初から整えられた人を供給するのはかなり難しい。
一般的には、IT系の知識を大学で身に付け、生物の知識は社会で身に付けるというパターンが多いだろう。IT系の人からすると、生物は複雑なドメイン知識が要求される上、待遇が必ずしも良いわけではない。また、大学でバイオインフォマティクスの教員や学生の数は増えてきているが、絶対数がまだ十分ではなく、教員が学部を持たない研究科や研究所に所属していることが多いため、学生からは進路としてみえにくいという問題もあるようだ。研究支援者の方は、ITツールやデータベースを活用したり、データのアノテーションやデータベースのキュレーションをしたりして、支援的な研究業務を担当する。生命科学の知識が不要ではないが敷居は低くなるので、仕事内容やキャリアパスのイメージを明確にすることで関心をひくことは可能だろう。いずれにしても、生命科学研究も急速にデータ駆動型へと変わりつつあり、データサイエンティストの確保は喫緊の課題である。