NECがバイオ文献マイニングツールを開発

同義語・多義語辞書で漏れのない検索を実現、関連情報への容易なアクセス

 2003.11.14−NECは、テキストマイニング技術をバイオメディカル分野の文献検索に応用したマイニングツール「Biocompass」(バイオコンパス)を開発、12月1日から販売を開始する。米エックスマイン社(本社・カリフォルニア州、サンディップ・レイ社長兼CEO)の基本技術をベースに、NEC独自のマイニング技術を組み合わせることにより、「正確な遺伝子/たん白質名の認識」や「関連キーワード2段階検索」などの機能を実現した。ソフト価格は1,000万円で、今後3年間に100本の販売を見込んでいる。

 バイオ研究においては、PubMedなどの文献検索に多くの時間を取られているのが現状だが、遺伝子/たん白質の表記方法が統一されていなかったり、名称が同一でも実体の異なるものがあったりする場合があり、精度の高い情報検索が難しいという問題があった。また、読み切れないほど大量の文献がヒットしてしまい、情報の絞り込みに手間と時間がかかる場合も多かった。

 今回のバイオコンパスは、名称の問題を解決するために「同義語・多義語辞書」を開発して搭載した。正式名、別名、略称、さらにカンマやハイフンの有無などの表記のゆれを吸収し、常に正確な遺伝子/たん白質名を認識して漏れのない網羅的な検索が実行できるようにした。

 また、検索したい遺伝子/たん白質が記載された文献から自動的にキーワード情報を取得することで、関連情報への展開と情報の絞り込みを簡単に行うことができる。検索対象と類似あるいは関連した機能を持つ遺伝子/たん白質を探したり、検索結果を疾患名・臓器名・化合物名・実験方法・著者名など任意のキーワードで絞り込んだりすることが可能。

 文献中の記述からキーワードの関連性の近さを判別し、相関のあるものを抽出・表示することもできる。通常のPubMedでは配列情報を検索に利用することはできないが、バイオコンパスではホモロジー検索の結果を用いることができるので、新規な遺伝子/たん白質でも類似配列から情報にアクセスできる利点があるという。

 なお、ベースになっているのはエックスマイン社の「Opus」で、NECはこのソフトの使用権・複写権・改造/改版/拡張権・販売権・頒布権などを取得している。