The Maid Who Restored Charles II | History Today
この記事は、チャールズ2世の王政復古に貢献したアン・マンクという女性に焦点を当てています。
彼女は元々洗濯女で、将軍ジョージ・マンクと出会い、結婚しました。
アンは政治的な影響力を持ち、夫を説得して王政復古を支持させました。
Web Bench - A new way to compare AI Browser Agents
Web Benchは、Webブラウジングエージェントを評価するための新しいデータセットです。
452の異なるWebサイトで5,750のタスクで構成され、2,454のタスクがオープンソース化されています。
Anthropic Sonnet 3.7 CUAが現在のSOTAであり、詳細な結果が公開されています。
[2412.10849] Superhuman performance of a large language model on the reasoning tasks of a physician
大規模言語モデルが医師の推論タスクにおいて、人間を超える性能を発揮したという論文。
LLMの診断能力を医師数百人と比較し、5つの実験と実際の救急現場での比較を行いました。
その結果、LLMはすべての評価項目で医師を上回る「超人的」な診断・推論能力を示し、今後の臨床試験の必要性が示されました。
Putting an untrusted layer of chatbot AI between you and the internet is an obvious disaster waiting to happen - macwright.com
AIチャットボットをインターネットとユーザーの間に入れることの危険性について述べられています。
情報操作や偏った推奨、イデオロギー操作が行われる可能性を指摘しています。
チャットボットはユーザーのためではなく、その作成者のために機能することを強調しています。