[出典] Perspective "How user intelligence is improving PubMed" Fiorini N, Leaman R, Lipman DJ, Lu Z. Nat Biotechnol. 2018 Oct 1.


要約

  • David J. Lipmanを共著者とするNCBIチームが、PubMedのこれまでと、これからを展望
  • NCBIが利用者の検索ログを木目細かに分析し、機械学習や自然言語解析の技術も利用しながら、PubMedの使い勝手を向上させてきた経緯をレビュー
  • 今後、特にフルテキスト提供の拡大を踏まえて、ディープラーニング技術の採用を進めていること、ならびに、2016年に発表 (eLIFE 2017) 公開した新機能テストサイトPubMed Labs) を紹介

PubMedファクトシート

  • 格納論文動向: > 2,800万(2018年8月) + 1論文/30秒;23%のフルテキスト閲覧可能 (PubMed Central経由17%)
  • 利用動向: 平日平均 250万人, 300万クエリ, 900万ページ
  • クエリ:10-20%がミススペルを含む;セッションあたり繰り返しの中央値は3回;ほとんどのクエリに対して1ページ以上のヒットを表示(デフォルト表示は20編/ページ)
  • 検索動態:特定の論文探索などのinformational searchと特定の分野や主題に関する論文群を探索するnavigational searchが半々 (54% vs 46%);80%の利用者が1ページに表示されたヒットをクリック;クエリの36%が著者名を含んでいる;PubMedが提示するrelated articleをクリックした利用者は検索を長く続ける傾向がある

PubMedがこれまで組み込んできた機能とその仕組み

  • クエリ(検索条件)の示唆と自動補完;クエリの拡張;クエリのミススペルの自動修正または代案提示;Navigational searches に対する'best-match'提示;Informational searchesに対する'best-match'提示;関連論文示唆;著者名の曖昧さ解決

課題と機会

  • 検索条件に該当なしの事例は大幅に減少してきたがそれでもクエリの10%程度が該当なしに終わっている。一方で、あまりに大量のヒットが出力されることもある。
  • いずれの場合も、利用者は検索条件を変更しながら検索を繰り返す。この行動を支援する機能を付加する。また、略語の曖昧さ解決 (例 fish: 魚、著者名、あるいは蛍光in situ ハイブリダイゼーション)も、問題解決につながる。
  • これまでの機能強化は、書誌事項とアブストラクトを元データとしていたが、フルテキストの流通が拡大していることから、フルテキストも元データに加えた機能強化を進める。現状でも、一部のPubMedヒットに添えてあるフルテキスト由来の図表サムネイルは1日~12万ビューと利用されている。
  • PubMedにおけるフルテキストの処理にはディープラーニングを試行し、これまでの用語共有では関連が見えなかった論文をフルテキストのコンテンツの類似性から関連付ける実験や、フルテキストの内容を利用者が理解できる形のサブタイトルを伴うクラスターの集合として表現する実験を進めている。
  • テストサイトPubMed Labsに対する利用者からのフィードバックを受けてPubMedは進化し続けることができる。