CCS特集2017年冬:第2部総論(技術動向)
大規模計算から深層学習まで熱を帯びるクラウド利用
2017.12.05−コンピューターケミストリーシステム(CCS)の中でもとくに計算化学、分子モデリング、シミュレーション分野において、クラウド計算資源の活用が注目を集めている。原子・分子レベルの計算を、実空間・実時間の現象に結びつけて理解するためには、高精度なモデルによる長時間の計算が必要になるためで、それらに要求される大量のリソースを社内でまかなうのではなく、クラウドから調達しようという考え方である。必要なときに必要なだけの計算能力を確保することができ、ピーク時の一時的な計算ニーズに対応させるといった柔軟で弾力的な使い方も可能。ユーザーにとっての選択肢も多く、さまざまなクラウド事業者がサービスを提供している。
◇ ◇ ◇
◇◇計算資源要求量が増加、手厚いサポートSaaS型◇◇
ERP(エンタープライズリソースプランニング)をはじめ、企業の基幹システムの多くはすでにクラウド環境に移行している。さまざまな金融情報をはじめ、企業経営や企業活動に関わるクリティカルなデータが日々ネットワーク内を行き来しているわけだ。
これに対し、研究開発におけるクラウド活用はいまだ遅れているのが現状である。「秘密のかたまりである研究データを外部に出すことはできない」という考えが根強く、コンピューターを外部ネットワークに接続できない研究所も少なくないと聞くほどだ。ただ、これだけクラウドが普及する中、そうした考え方にも変化が出てきている。例えば、医薬品の研究開発でも、後期の臨床試験においては病院などの試験機関とデータをネットワークでやり取りするのが普通だが、情報の機密度という点では、初期の研究段階における化学構造データと大差ないように思われる。
また、シミュレーションの実用化を目指すならば、高精度なモデルで大量あるいは大規模な計算を行う必要があるが、それにかなう大型計算機資源を社内で用意できないという問題もある。超大企業なら自前のスーパーコンピューターを導入することもできるが、いまやシミュレーションの裾野は中堅・中小企業にも広がってきている。多くの製造業にとって、シミュレーションは競争力の源泉であり、それは企業の大小に左右されないのである。
そこで、あらためて注目されるのがクラウドだ。別図にまとめたように、クラウドにはいくつかの種類があり、自分専用に一定の計算資源を確保するプライベートクラウドと、多くの利用者が共用するパブリッククラウドに分けられる。プライベートクラウドは、社内システムを外部のデータセンター事業者にアウトソーシングして運用する方式で、オンプレミスがそのままクラウドに移行したイメージ。センター側が用意する資源は顧客ごとに切り分けられており、専用環境であるという安心感は高い。
一方、パブリッククラウドでもシングルテナントと呼ばれ、特定の環境を1社で専有できる場合もあるが、多くのユーザーがシステムを共用するスタイルが基本である。種別としてIaaS(サービスとしてのインフラ)、PaaS(サービスとしてのプラットホーム)、SaaS(サービスとしてのソフトウエア)などに分類される。
PaaS/IaaS系で利用する際は、使いたいアプリケーションを事業者は用意してくれない(稼働実績のあるソフトがリスト化されている場合はある)ため、ユーザーが自分でソフト開発元と交渉し、クラウド上で利用するためのライセンスを取得した上、クラウドにそれをインストールして使う必要がある。ただ、クラウド事業者は民間なので、これらをサポートするサービスはもろもろ整っている。
SaaS系の場合は利用できるアプリケーションはすでにインストールされている場合がほとんどで、ユーザーは使用量に応じた所定の費用を支払うだけでいい。自社開発のプログラムやメニューにないアプリケーションを使いたい場合も含め、利用環境を整えるまでのサービスは手厚く、ユーザーは本来の計算に集中することができる。フルマネージドサービスといわれるゆえんだ。
◇ ◇ ◇
◇◇HPCIでの無償利用拡大、アプリ環境整備の動きも◇◇
民間企業が外部のスーパーコンピューターを使用するにはいくつかの選択肢がある。まずは無料のものとして、国が整備しているHPCI(ハイパフォーマンスコンピューティングインフラストラクチャー)をあげることができる。これは、スーパーコンピューター「京」を中核にして、全国の国立大学・研究機関のスパコンをまとめた巨大ネットワーク。学術研究で共用するためのスパコンシステムであり、その中に一定の産業界利用枠が設けられている。あらかじめ課題を提出しなければならないが、認可されれば無償で利用できる。2013年12月5日付の本特集で詳しく報じたことがあるが、CCS関係での民間利用実績はかなり多い。
最新情報によると、HPCIシステムを構成するハードウエアは、SPARC/SX/Power系、Xeon系、Xeon + GPU系、Xeon Phi系、Xeon + 複合系など多岐にわたっており、東京工業大学のTSUBAME 3.0、九州大学のITOサブシステムA/B、大阪大学のOCTPUSなどの新鋭機も加わっている。ハードウエアが多彩なため、場合によっては解きたい課題に適したシステムを選択できるノウハウも必要だろう。ただ、全体として、産業利用は「京」が使いやすいように設定されており、年2回の課題受付が行われる。成果を非公開にできる有償利用制度も用意されている。
HPCI全体で利用されたアプリケーションのトップ10をみると、1位は分子動力学法(MD)のGROMACS(海外オープンソースソフト)、3位にやはりMDのMODYLAS(海外オープンソース)、6位にもMDのGENESIS(国プロ開発)、7位にMDのLAMMPS(海外オープンソース)、材料系第一原理計算のQuantumESPRESSO(海外オープンソース)、材料系第一原理計算のVASP(商用ソフト)の3本が並ぶ。10位に量子化学計算のNTChem(国プロ開発)が来ている。トップ10の残りの3本はすべて流体解析ソフトだ。トップ10利用において、全体の7割近くが学術利用になるが、産業利用は流体ソフトが多い。化学系で産業利用が最も多いのはLAMMPSであるという結果になっている。
HPCIでは、ユーザー任せではなく、利用促進のためのアプリケーション利用環境整備に今年から乗り出しており、とくにOpenFOAM(流体ソフト)、LAMMPS、QuantumESPRESSO、GROMACSといった利用の多いソフトを、「京」の上で先行して整備している。「京」以外のシステムに対しても、来年度から整備を進める計画だ。実際、ヘルプデスクにはQuantumESPRESSOの問い合わせが増えているものの、インストールなどの素朴な質問が多い。先行して環境整備することにより、利用の敷居を下げられるという判断だ。今後は国プロ開発などの国産オープンソースの育成策も考えていきたいとしている。
◇ ◇ ◇
◇◇有償利用=公的機関と民間が競演、オープンソース利用に広がり◇◇
次に、有償のクラウドサービスでは、公的な機関が運営している「FOCUSスパコン」の存在がある。これは、公益財団法人である計算科学振興財団(FOCUS)が提供しているもの。産業利用専用のスパコン資源を整備し、貸し出しを行う日本初の機関として、来年1月で10周年を迎える。本拠地は神戸で、「京」を擁する理化学研究所・計算科学研究機構(AICS)に隣接して計算機センターを構えている。基本的に、HPCIで「京」を利用するための入門用という位置づけであり、初めてスパコンを利用する企業向けにていねいな講習会や利用相談などを実施していることが特徴だ。実際、「京」の産業利用に採択された課題のうち、6割近くがFOCUSを事前に利用していたという。
利用者の比率(累計)は大企業が58%だが、中小企業も21%、小規模事業者も15%にのぼる。11月現在で利用法人数は270社、課題数は400件を超えた。実際に利用する際には、課題を申請する必要があるが、募集は常時行われており、企業名を公表するだけで課題・内容は秘匿することが許されている。産業界専用だが、産学協同の課題であれば、大学が利用申請することも可能であり、ここ1〜2年はそうした利用も増えてきているということだ。
スパコン自体は、FOCUSSが独自に整備しているシステムで、メインマシンのAシステムから、昨年増強した次期主力機のHシステムまで、8種類のスパコンが利用可能。GPU(グラフィックプロセッサー)搭載型も用意されている。全機種がXeon系で、OSはLinuxを全面的に採用。ユーザーはシステムごとに指定された料金体系により、従量課金型で利用することになる。
ユーザーは使いたいアプリケーションを自分でインストールすることもできるが、要望が多いアプリケーションはすでにシステムにインストールされているほか、FOCUS側がライセンスを用意して、SaaS形式で利用可能なアプリケーション(とくに計算化学分野)が用意されていることが特徴だろう。
アプリケーション分野は、流体解析、構造解析、機構解析、計算化学、電磁場解析、音響解析など幅広く、商用アプリケーションがかなり多くサポートされている。計算化学分野は、ABINIT-MP、Advance/PHASE(商用)、ALPS/looper、AMBER(商用)、AutoDock、CONFLEX(商用)、ERmod、GAMESS、Gaussian09/16(商用)、GROMACS、J-OCTA VSOP(商用)、LAMMPS、Materials Studio(商用)、MIZUHO/BioStation(商用)、MODYLAS、NAMD、NTChem、NWChem、OCTA、OpenMX、PWscf、QuantumESPRESSO、SCIGRESS ME(商用)、WIEN2k(商用)−と、流体解析に次いで多い24本がリストに載せられている。この中では、Gaussian、GAMESS、LAMMPSの利用が多いということだ。また、GaussianとMIZUHO/BioStationはFOCUSがライセンスを用意しているので、ユーザーは利用した時間の料金を払うだけでいい。
FOCUSは公的な性格が強いため利用料金も安めに設定されており、講習会や利用相談も無料で実施する場合が多い。
一方、民間のSaaS事業者で、計算化学を意識したサービスを行っているところは少ないが、その中でも富士通の「TCクラウド」と、伊藤忠テクノソリューションズ(CTC)が提供している「Rescale」を取り上げてみたい。PaaS型の利用も可能であり、好きなアプリケーションを持ち込んでインストールすることもできるが、ここでは事業者側がアプリケーション利用環境を用意するSaaS型のサービス内容を概観しよう。共通項としてあげられるのは、民間事業者なのでサポートが手厚いということだ。
まず、富士通のTCクラウドは2011年12月にスタートしたサービスで、HPC(ハイパフォーマンスコンピューティング)に特化しており、流体解析、構造解析、計算化学など、68種類のアプリケーションが利用できる。流体解析・構造解析などはほとんどが商用アプリケーションで、計算化学分野もGAMESS、LAMMPS、GROMACS、PHASE/0(国産)といったオープンソースに加え、自社開発のSCIGRESSのほか、Gaussian、SIESTA、WIEN2kといった商用アプリケーションをサポートしている。プラットホーム利用料と、アプリケーション利用料(オプション)を従量課金で支払う価格体系になっている。
今年夏からの新サービスとしては、GPU搭載計算リソースが追加されている。GPUを時間従量/日額従量/月額従量で使用することが可能。これに合わせて、高速ストレージを日額従量(従来は月額従量のみ)で利用できるようになり、AI(人工知能)学習に最適な環境を提供できるようになっている。
これを利用して、「TCクラウド2.0」と名付け、材料インフォマティクス(MI)をターゲットとしたサービスも開始した。これは富士通のAIである「Zinrai」を基盤としており、深層学習(ディープラーニング)技術として、富士通独自の“ディープテンソル”を活用する。この技術の応用範囲は広いが、とくに化学構造をテンソル表現(グラフ全体構造を含んだ統一的表現)に変換し、自動特徴抽出する深層学習にかけることが可能。すでに、創薬におけるバーチャルスクリーニングに使用され、人手ではみつけられなかった新しい約200の特徴を獲得し、従来手法よりも予測精度を10%引き上げたなどの成果が出ているという。
これを材料インフォに利用する。材料の実験・測定データ、材料系シミュレーションによる計算結果などを学習データとすることで、材料に関わる現象の原因分析や物性改良への指針を得ることが目標になっている。同社では、TCクラウド2.0を材料インフォマティクス研究の基盤に育てたい意向である。
なお、計算化学に対するTCクラウドの利点は、量子化学計算パッケージの代名詞的存在であるGaussianを正式に提供していることだろう。昨年、開発元からライセンスを取得して取り組んでおり、ユーザーは完全な時間従量制(1ノード・時間当たり120円)で利用できる。入力ファイルを転送し、TCクラウドのコマンドラインから簡単に計算を実行可能。10ノード・年間固定価格のメニューも用意している。その他のアプリケーションでは、生命科学系でGROMACS、材料科学系でLAMMPSの利用例が多いという。
一方、CTCは米リスケールに出資も行い、代理店として国内でHPC専門クラウドサービス「Rescale」を2015年9月から提供している。HPCに特化し、アプリケーションまで用意しており、企業のIT部門ではなく現場の研究者・技術者を支援するというコンセプトで、100以上のアプリケーションがすぐに利用できるようになっている。利用料金は、従量課金の後払いか、プリペイド型の前払いかを選択できる。
アプリケーションは、計算化学分野では商用ソフトでAMBER、オープンソースはGPAW、GROMACS、LAMMPS、NAMD、GAMESS、NWChem、QuantumESPRESSO、AutoDock、BLAST、HMMERなどがリストに載っている。この分野はオープンソースソフトが多いため、利用料金は全体的に割安になるようだ。
実際に利用するデータセンターは、日本、アジア、米国、欧州など世界30カ所に分散しており、米国の公共スパコンを利用することもできる。GPUやインフィニバンドなど特殊なハードウエアを備えた資源も準備されており、HPC関係ならほぼどんな用途にも適応できるだろう。使用方法も簡単で、ブラウザーでポータルにつなぎ、入力ファイルをアップロードしたあと、使いたいアプリケーションをリストから選択する。すると、それに適したサーバーの一覧が表示され、インストール済みやチューニング完了などのステータスも確認できる。サーバーを選んだら、使いたいコア数を指定し、あとは実行ボタンを押すだけだ。
世界全体では、流体解析や構造解析などの機械系CAEでの利用が多いようだが、日本市場についてはここ数年、計算化学分野の利用が多い印象があるという。例えば、自動車会社が利用する場合でも、CAEではなく、素材研究の目的で材料シミュレーションを行うケースなどだ。また、AIを応用した深層学習での利用も目立つ。これは、GPUの利用が必須だが、自前でGPU環境を用意するのはコストがかかるため、AIに取り組む第一歩としてまずはRescaleを利用しようという企業が多いのではないかという。とくに、深層学習を行うのは、他の製造業よりも化学系企業が熱心に感じるということだ。