NIMSが機械学習のための計測データ変換ツールを開発

メタ情報を付与しパラメーター再定義、まずXPS/XRDに対応

 2019.02.07−物質・材料研究機構(NIMS)の統合型材料開発・情報基盤部門 材料データプラットフォームセンター(DPFC)は、マテリアルズ・インフォマティクス(MI)で利用できるデータリポジトリーを整備する目的で、計測機器から出力されるデータを機械学習に利用しやすい形に自動的に変換するツール「M-DaC」を開発、公開を開始した。計測機器メーカーであるアルバック・ファイとリガクが協力しており、それぞれのX線光電子分光法(XPS)およびX線回折法(XRD)データに対応している。NIMSでは、公開を通じて利用者からの要望を集め、対応する装置や対象とする計測技術分野を順次広げていく。

 材料データを機械学習によって統計処理し、データ駆動型の材料開発を目指すMIが注目されているが、利用できるデータの不足が課題とされている。そこで、まずは計測データを集めたいところだが、これはバイナリー形式やテキスト形式、またはその混合形式で装置から出力されるもので、同一メーカーであっても装置が異なるとデータ形式も異なることが多い。さらにデータの中身も、項目名に独自の略号が使われていたり数値に単位が付されていなかったりして、第三者可読性が非常に低いものになっている。

 とくに、データベースとして利用する際には、データ属性や関連情報などを与えるメタ情報の整備が重要。これは、書誌情報を例にすると、著者名、書名、出版社名、発行年などを記録したもので、データベースはこのメタ情報を使って効率的かつ精度よく目的のデータを検索している。計測データの場合は、計測条件や試料情報などがメタ情報の扱いとなる。

 今回開発した「M-DaC」は、測定機器のデータファイルからこれらのメタ情報を抽出するツールを中心に、バイナリーデータのテキスト変換ツールや数値データ行列の構文解析プログラムを含む視覚化変換ツールなど、複数のプログラムで構成。ソースコードも公開されており、ユーザーが改良することも可能。サンプルデータの利用することができる。

 利用する上での大きな機能は、「変換」「抽出」「出力」で。まず、機器固有のバイナリーデータから人間が可読かつ相互運用・再利用可能なデータへと変換。計測データをスペクトル表示するなどの可視化機能も備えている。次に、再現測定などに必須な最小限度の計測条件を主要パラメータとして抽出することが可能。機器独自の用語ではなく、一般的な用語で共通化した主要パラメーターを再定義できる。最後に、メタ情報を付与した主要パラメーターをXML形式で出力し、これを機械学習に使用することができる。

 現時点での対応機種は、アルバック・ファイの「Quantera SXMシリーズ」(XPS)と、リガクの「SmartLabシリーズ」(XRD)で、両社からはデータ変換ツールの提供や、データファイルに記述されたパラメーターの意味情報などの開示を受けている。今後もさまざまな測定分野に対応するため、「M-DaC」ではデータ構造(スキーマ)を柔軟に扱えるスキーマ・オン・リード方式を採用したという。

******

<関連リンク>:

物質・材料研究機構(M-DaCのダウンロードページ)
https://www.nims.go.jp/MaDIS/about/M-DaC.html

情報統合型物質・材料研究イニシアティブ(MI2Iのトップページ)
https://www.nims.go.jp/MII-I/


ニュースファイルのトップに戻る