日立ソフトが遺伝子索引情報配信サービスを機能強化

GETAによるナレッジマイニング機能を提供、大量文献からの知識抽出可能に

 2003.07.31−日立ソフトウェアエンジニアリングは、遺伝子索引情報配信サービス「DNASISジーンインデックス」(商品名)を機能強化し、8月から新たな内容のサービスを開始する。テキストマイニングエンジンを統合したナレッジマイニング機能を追加したもので、これまでの通常のデータベース検索では取り出せなかった“知識”を掘り起こすことが可能になる。利用料金は、ASP(アプリケーションサービスプロバイダー)形式で年間240万円から。今年度にサービス全体で10億円の売り上げを見込んでいる。

 DNASISジーンインデックスは、世界中に散在しているライフサイエンス関連データベースを(DB)を日立ソフトのセンター内に集め、これに索引をつけてインターネットを介した検索サービスとして提供しているもの。サポートしているDBは、GenBank、EMBL、DDBJ、NCBIのTHE Human GenomeとMouse Genome Resources、SAGEmap、UniGene、LocusLink/RefSeq、dbSNP、HomoloGene、PubMed、PATHWAY、SWISS-PROT、TrEMBL、PROSITE、IPI、Pfam、PDB−となっている。

 今回のナレッジマイニング機能は、情報処理振興事業協会(IPA)の独創的情報技術育成事業の一環として日立製作所や国立情報学研究所らが開発した汎用連想計算エンジン“GETA”(Generic Engine for Transportable Association)を採用している。これは、文書分類や単語間類似度計算など大規模文書の分析に必要な技術を揃えた一連のツール群で、文書の中に出現する単語の頻度を解析した索引ファイルを用いて、文書間および単語間の類似度・関連度を内積型メジャーによって高速計算することができる。GETA自体はIPAの研究成果として無償で公開されている。

 今回、これを日立製作所中央研究所の協力でDNASISジーンインデックスへ組み込んだ。これにより、膨大な文献情報の中からほぼリアルタイムに特徴的なキーワードの抽出が行えるという。例えば、DNAチップ/マイクロアレイで遺伝子発現解析を行い、関連するたん白質情報をDBから網羅的に取得したあと、ヒットした文献群をナレッジマイニングにかけることにより、その中に発生に関するキーワードとがんに関連するキーワードが高い頻度で含まれていることが判明した場合、その遺伝子サンプルの中に発生とがんに関する遺伝子が多く含まれていると推測することができる。

 DNASISジーンインデックスのサービス料金は企業向けが年間240万円から(ナレッジマイニング機能なしは80万円から)、大学・国立研究機関向けは120万円から(同40万円から)。このASPサービスが基本になるが、そのほかにもコンテンツをユーザー内部のサーバーに配信し、社内的に検索を行うことができる「サテライトサービス」、特定ユーザー専用の設備を日立ソフトのセンター内に設置してアウトソーシングでサービスを提供する「データハウジングサービス」も用意している。