非公式・AI自動要約ニュースサイト(Anthropic公式とは無関係)
Claude News JP / www.claude-news.online
🔵 標準 AI要約 · 出典: Anthropic News

選挙時の安全対策を強化、Claude の政治的中立性を確保

原題: An update on our election safeguards

重要度の根拠: 政治的偏向防止は社会的に重要だが、一般ユーザーの操作性や機能には直接影響しない

要約(やさしい版)

Anthropic(AI安全研究企業)は、選挙期間中に Claude が政治的に中立で正確な情報を提供するための対策を発表しました。Claude の訓練時に異なる政治観点を等しく深く扱うよう設定し、システムプロンプト(AIに与える指示)で政治中立性を明確に指示しています。また、虚偽の政治キャンペーンや投票妨害などの悪用を防ぐため、自動分類器(違反パターンを自動検出するプログラム)と脅威対策チームで監視・対応しており、最新テストでは Opus 4.7 で 100%、Sonnet 4.6 で 99.8% の正確性を達成しています。

要点

  • 異政治観点を等価で扱う訓練と system prompts で中立性確保
  • 虚偽キャンペーン・投票妨害などの悪用を automated classifiers で検出
  • 600プロンプトテストで Opus 4.7 が 100% の正確性達成
  • Vanderbilt 大学などの独立機関と協働して review 実施
  • 評価方法論を公開し再現性・透明性を確保
開発者向け要約を見る

Anthropic は Claude の選挙関連安全対策を更新。訓練時の character training(値観・特性を報酬で強化する手法)と system prompts による政治中立性の埋め込みを実施。選挙関連 Usage Policy の違反検出に automated classifiers と threat intelligence team を配置。評価ベンチマークは 600 プロンプト(有害 300 + 合法 300)で構成し、Opus 4.7/Sonnet 4.6 で 100%/99.8% のコンプライアンス率を達成。評価方法論とデータセット公開済み。

安全性/研究モデル対象: 一般ユーザー対象: 企業導入担当

出典: https://www.anthropic.com/news/election-safeguards-update

媒体: Anthropic News

※本記事は Anthropic / Claude 関連の公開情報を基に AI (Claude Haiku 4.5) が日本語で要約・分類した二次的著作物です。著作権法第32条の引用要件に基づき出典 URL を必ず併記しています。要約は AI 生成のため誤訳・誤解釈を含む可能性があります。詳細・正確な情報は必ず出典元の原文をご確認ください。画像が表示されている場合、画像は原典サイトから直接配信されており、本サイトでの複製・保存は行っていません。