crisp_bio

科学分野の比較的新しい論文と記事を記録しておくサイト: 主に、CRISPR生物学・技術開発・応用 (ゲノム編集, エピゲノム編集, 遺伝子治療, 分子診断/代謝工学, 合成生物学/進化, がん, 免疫, 老化, 育種 - 結果的に生物が関わる全分野) の観点から選択し、時折、タンパク質工学、情報資源・生物資源、新型コロナウイルスの起源・ワクチン・後遺症、機械学習・AIや研究公正からも選択

2025-02-18 OpenAIが「Deep Research」を無料化へ
[出典] "OepnAI Says It Will Make Its $200 Deep Research Model Availbale for Free" Thomas Maxwell.  GZUMODO. 2025-02-12. https://gizmodo.com/openai-says-it-will-make-its-200-deep-research-model-available-for-free-2000563047;OpenAIのSam AltmanのX投稿に準拠した記事
"まずはChatGPT Plusユーザーに月10回、無料ユーザーには月2回の利用権を提供し、徐々に拡大する予定"
2025-02-13 Nature 誌ニュース記事に準拠した初稿
 サム・アルトマンが率いるオープンAIは、数十から数百のウェブサイトからの情報を統合して数ページの引用レポートにする「ディープリサーチdeep research)」[AI総合研究所 2025-02-08と称する有料ツールを発表した。このツールは、グーグルが12月に発表したディープリサーチ [Google Japan Blog 2025-01-15]と同様に、数時間分の仕事を数十分でこなしてくれる「個人秘書 (personal assistant)」として働く。この個人秘書は、科学分野でのレビュー論文 (leterature review) や総説 (full review) を執筆することができる。

 オープンAIとグーグルはこのツールを、複雑なタスクを処理できる「AIエージェント」[AWS]への一歩として紹介している。オブザーバーによれば、2月2日にリリースされたオープンAIのディープリサーチツールは、o3大規模言語モデル(LLM)[Nature, 2025-01-14の改良された推論スキルとインターネット検索能力を兼ね備えており、注目に値するという。グーグルによると、グーグルのディープリサーチツールは今のところ、主要な推論モデルGemini 2.0 Flash Thinkingではなく、Gemini 1.5 Proをベースにしているという。

[ディープリサーチによるレビュー執筆]

 多くのユーザーが2つのディープリサーチに感銘を受けている。化学者でAIの専門家であるカリフォルニア州サンフランシスコの新興企業FutureHouseAndrew Whiteは、グーグルの製品は「検索と計算におけるグーグルの優位性を実に活用している」と述べ、ユーザーを素早くトピックに対応させる一方、o3の推論スキルはOpenAIのレポートに洗練性を加えると述べている。Andrew Whiteは、このようなAIシステムが、人間が執筆したレビューを更新するために使用される可能性があると予想している。なぜなら「権威あるレビューを6ヶ月ごとに(人間が)更新することは不可能」だから。

 コネティカット州ファーミントンにあるジャクソン研究所の免疫学者かつオープンサイエンスの提案者であり、医学研究のためにオープンAIからChatGPT Proへの無料アクセス権を付与されているDerya Unutmazは、オープンAIのディープリサーチレポートは「非常に印象的」で「信頼できる」ものであり、出版されたレビュー論文と同等かそれ以上だと言う。「レビューを書くことは時代遅れになりつつあると思います」

 一方で、すべてのLLMベースのツールは、時に不正確であったり、誤解を招きやすいものであったりすることに多くの人が注意を促している。オープンAI自身が、ディープリサーチのウェブサイトで、「まだ初期段階にあり、限界がある」ことを認めている。引用を間違えたり、事実を幻視 (hallucinate) したり、権威ある情報と噂を区別できなかったり、不確実性を正確に伝えられなかったりするのだ。同社は、より多くの使用と時間と共に問題が改善されることを期待している。グーグルのディープリサーチには、「Geminiは間違いを犯す可能性があるので、ダブルチェックしてください」という免責事項が添えられている。

 ドイツのエアランゲンにあるマックス・プランク光科学研究所の人工科学者 (Artificial Scientist) ラボのリーダー、Mario Krennは、これらのツールは科学者が通常使う意味での「研究」をしているわけではないと指摘する。彼によれば、科学者はひとつのテーマについて何年もかけて研究し、新しいアイデアを発展させていくのだという。「この能力はまだ(AIによって)実証されていません」とMario Krennは言う。

[ベンチマークの結果]

 オープンAIはそのディープ・リサーチ・ツールを実際に使ってみた結果を公表している。例えば、Humanity's Last Exam(HLE)という3000問のベンチマークテストでは好成績を収めた。このテストは、言語学から科学までのトピックにわたる専門家レベルの知識をカバーするもので、法学修士にとっては、GPQAのような、現在AIがベストを尽くしている他の一般的なテストよりもはるかに難しいように設計されている。OpenAIの製品は、HLEのテキストのみの問題で26.6%を獲得し、トップとなった。

 オープンAIはまた、多段階推論とウェブブラウジングを使用して質問に答えるAIをテストするために2023年に開発されたGAIAベンチマークに対してシステムをテストした。公開されたGAIAリーダーボードのトップは、サンフランシスコのAnthropic社のClaude 3.5 Sonnetを搭載したグローバル企業H2O.aiのエージェントで、スコアは40.82%だったが、オープンAIのディープリサーチのスコアは58.03%を達成した。

 グーグルは、自社のディープリサーチについて共有できるベンチマーク結果はないと述べている。オープンAIが選択したベンチマークは、短くて検証可能な答えを持つ質問に依存しており、特定の正解のない長い答えを生成するツールには適していないかもしれない、とAndrew Whiteは言う。「このようなベンチマークは、記事の質や有用性を人間が評価するような、機能的なベンチマークに取って代わられることになると思います」と彼は言う。Whiteは、科学的なテーマについて、AIとヒトがそれぞれ書いたウィキペディア風の要約を、ヒトの専門家が評価した論文 [arXiv 2024を発表している。評価結果はAIが優った。

[これから]

 オープンAIとグーグルのディープリサーチには、いわゆる信頼性の他にも制限がある。どちらも、多くの科学論文を含む有料情報を抽出することはできない。Derya Unutmazは、「これは大問題 (a major, major issue)です」と言う。「この知識へのアクセスはこれまで以上に重要です」と彼は言う。

 一部の科学者はオンライン・フォーラムで、学術雑誌をアクセスするパスワードをAIツールにプラグインできるようにすべきだと提案し、そのためにオープンAIの新しい「operator」エージェントを使うことを推測している。オープンAIのCEOであるサム・アルトマンは、これに対してこうツイートしている: 「なんとか解決策を見つけ出さねばならない (We do need to figure something out here.)」。

[出典] NEWS "OpenAI’s ‘deep research’ tool: is it useful for scientists?" The model produces cited, pages-long reports that might be helpful for generating literature reviews. Jones N. Nature 2025-02-06. https://doi.org/10.1038/d41586-025-00377-9
スクリーンショット 2025-02-12 7.23.22[参考] NEWS FEATURE "Can AI review the scientific literature — and figure out what it all means?" Pearson H. Nature 2024-11-13. https://doi.org/10.1038/d41586-024-03676-9
... FutureHouseはAIを利用して、これまで詳細なページがなかった約17,000のヒト遺伝子について、ウィキペディア風のエントリーを作成した [https://wikicrow.ai/ ANKRD2のページを右図に引用]。
このエントリーをはてなブックマークに追加

コメント

コメントフォーム
評価する
  • 1
  • 2
  • 3
  • 4
  • 5
  • リセット
  • 1
  • 2
  • 3
  • 4
  • 5
  • リセット