GPT-5.4 Thinking System Card完全解説|サイバー能力「High」で汎用モデル初の攻撃緩和策搭載、OSWorld人間超え75%の安全性カルテ

伊東雄歩
監修者 伊東 雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube
  • GPT-5.4 Thinking System Cardは、OpenAIが2026年3月に公開したGPT-5.4の安全性評価レポート。AIの「成績表」と「健康診断書」を兼ねた文書
  • サイバーセキュリティ能力が「High」評価。汎用モデルとして初めてサイバー攻撃緩和策が組み込まれた
  • OSWorldベンチマークで75.0%を達成し人間(72.4%)を超越。コンピュータ操作の自律性が人間レベルに到達
  • 思考の連鎖(CoT)の制御可能性が低く、AIが自分の推論を隠蔽できないことが安全性の証拠
  • 精神的健康評価で全モデル中最高スコア。欺瞞的行動もo3から大幅に減少

AIが人間より上手くコンピュータを操作でき、サイバーセキュリティの専門知識も「High」レベル——そんなモデルの安全性を、あなたならどう評価しますか? OpenAIが2026年3月5日に公開したGPT-5.4 Thinking System Cardは、AIの能力と安全性を赤裸々に開示した「成績表」です。

注目すべきは、能力の高さを誇示するだけでなく、リスクを正直に認めている点。

OSWorldで人間超えを果たしたAIの「カルテ」から、安全なAI開発の最前線を読み解きます。

System Cardとは?|AIの「安全性カルテ」を読み解く

System Card(システムカード)は、AIモデルの能力・リスク・安全対策をまとめた公式文書です。

  • 透明性の担保 — モデルが「何ができて、何が危険で、どう対策したか」を開発者・研究者・一般ユーザーに公開
  • Preparedness Framework — OpenAI独自のリスク評価フレームワーク。サイバーセキュリティ、生物学、説得力、自律性の4カテゴリで能力レベルを評価
  • リリース判断の根拠 — System Cardの評価結果に基づいて、モデルを公開してよいかの判断が行われる
  • 継続的更新 — モデルの更新やフィードバックに応じて、System Card自体も更新される

たとえるなら、System Cardは「AIの健康診断書」。新薬の臨床試験報告書が「効果と副作用の両方」を正直に記載するように、System CardもAIの強みと弱点の両方を開示します。

GPT-5.4 Thinkingの安全性評価|4カテゴリの結果

1. サイバーセキュリティ:「High」評価(汎用モデル初)

  • GPT-5.4 Thinkingは汎用モデルとして初めてサイバーセキュリティ能力が「High」と評価
  • 脆弱性の発見・エクスプロイト作成・攻撃チェーンの構築が可能なレベル
  • 対策として、サイバー攻撃緩和策(Cyber Mitigations)を初めてモデルに組み込み
  • GPT-5.3 Codexで開発された緩和手法を継承・強化

2. コンピュータ操作:人間超えのOSWorld 75.0%

  • OSWorld-Verifiedベンチマークで75.0%のスコアを達成
  • 前世代GPT-5.2の47.3%から27.7ポイントの大幅向上
  • 人間のベースライン(72.4%)を初めて超越
  • デスクトップ操作、ファイル管理、ブラウザ操作などの自律的なコンピュータ操作が人間レベルに到達

3. 精神的健康への影響:全モデル中最高スコア

  • 動的メンタルヘルス評価のすべてのカテゴリで、過去のすべてのモデルを上回るスコア
  • ユーザーの精神的健康に悪影響を与える応答の抑制能力が大幅に向上
  • 自殺・自傷行為に関連する危険な応答のフィルタリング精度が改善

4. 欺瞞的行動:大幅に減少

  • 4つの評価設定すべてで、前世代の推論モデル(o3)より欺瞞的行動が大幅に減少
  • AIが意図的にユーザーを騙したり、情報を隠蔽する傾向が抑制されている
  • 信頼性の高いAIアシスタントとしての基盤が強化

たとえるなら、GPT-5.4の安全性評価は「運動神経は抜群だが、その力を悪用しないよう教育された優等生」。能力の高さとリスク管理が両立している点が、従来モデルとの大きな違いです。

思考の連鎖(CoT)の監視可能性|AIは自分の推論を隠せるか?

  • CoT制御可能性 — AIが自分の思考プロセスを操作・隠蔽する能力を測定する指標
  • GPT-5.4 ThinkingのCoT制御可能性は「低い」(GPT-5 Thinking、GPT-5.2 Thinkingと同等)
  • AIが自分の推論の痕跡を効果的に操作できないことを意味する
  • OpenAIはこれを「ポジティブな安全性特性」として評価。AIの思考が透明であることの証拠

たとえるなら、CoT監視可能性は「AIの嘘発見器」。GPT-5.4は自分の思考プロセスを隠す能力が低い——つまり、「嘘をつくのが下手なAI」であり、これは安全性の観点で望ましい特性です。

エージェントAIとしての能力向上

  • 長時間のタスク実行でも自分の操作を追跡・元に戻す能力が以前のモデルから大幅に向上
  • ユーザーの作業を損なわずに自律的な修正が可能
  • マルチステップのタスクを少ないトークン数とツール呼び出しで完了
  • エージェントワークロードのエンドツーエンド実行時間を短縮

前世代のSystem Cardとの比較

  • GPT-5 System Card(2025年8月) — 初のGPT-5シリーズ。基本的なリスク評価フレームワークを確立
  • GPT-5.3 Codex System Card — コーディング特化モデル。サイバーセキュリティ緩和策の初期導入
  • GPT-5.3 Instant System Card — ハルシネーション26.8%削減を開示。安全性の「後退」も正直に報告
  • GPT-5.4 Thinking System Card — サイバー緩和策の汎用モデル初搭載、OSWorld人間超え、CoT監視可能性の継続的な安全性確認

よくある質問(FAQ)

Q. サイバーセキュリティ「High」は危険ではないのですか?

能力の高さは確かにリスクを伴います。

だからこそOpenAIはサイバー攻撃緩和策をモデルに組み込みました。

「High」評価は危険性の指摘ではなく、その能力に見合った安全対策が実装されていることの証明です。

Q. System Cardは誰が書いているのですか?

OpenAIのSafety Systems チームと外部の評価者が協力して作成しています。内部評価だけでなく、第三者によるレッドチーミング(攻撃的テスト)の結果も含まれます。

Q. CoTの監視可能性が低いとはどういう意味ですか?

AIが自分の推論過程を意図的に隠したり操作したりする能力が低い(=できない)ということです。

これは安全性の観点で望ましい特性です。

AIの思考が透明であることで、人間がAIの判断を検証しやすくなります。

Q. 一般ユーザーがSystem Cardを読む必要はありますか?

必須ではありませんが、AIを業務で活用する企業の意思決定者には一読をおすすめします。モデルの能力と限界を理解することで、適切な活用範囲とリスク管理の判断材料になります。

まとめ

この記事のポイントを振り返りましょう。

  • GPT-5.4 Thinking System Cardは、AIの能力とリスクを開示する公式安全性レポート
  • サイバーセキュリティ「High」評価で、汎用モデル初のサイバー緩和策を搭載
  • OSWorld 75.0%で人間のコンピュータ操作能力(72.4%)を超越
  • CoT制御可能性が低く、AIが自分の推論を隠蔽できないことが安全性の根拠
  • 精神的健康評価で全モデル最高、欺瞞的行動もo3から大幅に改善

GPT-5.4 Thinking System Cardが示すのは、「強いAIほど、その安全性を厳密に証明する責任がある」という原則です。

人間を超えるコンピュータ操作能力、サイバーセキュリティの高度な知識——これらの能力を「持っている」ことと「安全に使える」ことは別の話。

OpenAIは能力の開示と緩和策の実装をセットで行うことで、その責任に応えようとしています。

参考文献

  • OpenAI. (2026). GPT-5.4 Thinking System Card. OpenAI
  • OpenAI. (2026). GPT-5.4 Thinking System Card – Deployment Safety Hub. OpenAI Deployment Safety
  • AI:PRODUCTIVITY. (2026). GPT-5.4 System Card: First OpenAI Model With Cyber Mitigations Built In. AI:PRODUCTIVITY
  • AdwaitX. (2026). GPT-5.4 Thinking: OpenAI’s Most Scrutinized Reasoning Model Laid Bare. AdwaitX
  • Cybersecurity News. (2026). OpenAI Launches GPT-5.4 With Advanced Reasoning, Coding, and Computer-Use Capabilities. Cybersecurity News

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です