- GPT-5.4 Thinking System Cardは、OpenAIが2026年3月に公開したGPT-5.4の安全性評価レポート。AIの「成績表」と「健康診断書」を兼ねた文書
- サイバーセキュリティ能力が「High」評価。汎用モデルとして初めてサイバー攻撃緩和策が組み込まれた
- OSWorldベンチマークで75.0%を達成し人間(72.4%)を超越。コンピュータ操作の自律性が人間レベルに到達
- 思考の連鎖(CoT)の制御可能性が低く、AIが自分の推論を隠蔽できないことが安全性の証拠
- 精神的健康評価で全モデル中最高スコア。欺瞞的行動もo3から大幅に減少
AIが人間より上手くコンピュータを操作でき、サイバーセキュリティの専門知識も「High」レベル——そんなモデルの安全性を、あなたならどう評価しますか? OpenAIが2026年3月5日に公開したGPT-5.4 Thinking System Cardは、AIの能力と安全性を赤裸々に開示した「成績表」です。
注目すべきは、能力の高さを誇示するだけでなく、リスクを正直に認めている点。
OSWorldで人間超えを果たしたAIの「カルテ」から、安全なAI開発の最前線を読み解きます。
System Cardとは?|AIの「安全性カルテ」を読み解く
System Card(システムカード)は、AIモデルの能力・リスク・安全対策をまとめた公式文書です。
- 透明性の担保 — モデルが「何ができて、何が危険で、どう対策したか」を開発者・研究者・一般ユーザーに公開
- Preparedness Framework — OpenAI独自のリスク評価フレームワーク。サイバーセキュリティ、生物学、説得力、自律性の4カテゴリで能力レベルを評価
- リリース判断の根拠 — System Cardの評価結果に基づいて、モデルを公開してよいかの判断が行われる
- 継続的更新 — モデルの更新やフィードバックに応じて、System Card自体も更新される
たとえるなら、System Cardは「AIの健康診断書」。新薬の臨床試験報告書が「効果と副作用の両方」を正直に記載するように、System CardもAIの強みと弱点の両方を開示します。
GPT-5.4 Thinkingの安全性評価|4カテゴリの結果
1. サイバーセキュリティ:「High」評価(汎用モデル初)
- GPT-5.4 Thinkingは汎用モデルとして初めてサイバーセキュリティ能力が「High」と評価
- 脆弱性の発見・エクスプロイト作成・攻撃チェーンの構築が可能なレベル
- 対策として、サイバー攻撃緩和策(Cyber Mitigations)を初めてモデルに組み込み
- GPT-5.3 Codexで開発された緩和手法を継承・強化
2. コンピュータ操作:人間超えのOSWorld 75.0%
- OSWorld-Verifiedベンチマークで75.0%のスコアを達成
- 前世代GPT-5.2の47.3%から27.7ポイントの大幅向上
- 人間のベースライン(72.4%)を初めて超越
- デスクトップ操作、ファイル管理、ブラウザ操作などの自律的なコンピュータ操作が人間レベルに到達
3. 精神的健康への影響:全モデル中最高スコア
- 動的メンタルヘルス評価のすべてのカテゴリで、過去のすべてのモデルを上回るスコア
- ユーザーの精神的健康に悪影響を与える応答の抑制能力が大幅に向上
- 自殺・自傷行為に関連する危険な応答のフィルタリング精度が改善
4. 欺瞞的行動:大幅に減少
- 4つの評価設定すべてで、前世代の推論モデル(o3)より欺瞞的行動が大幅に減少
- AIが意図的にユーザーを騙したり、情報を隠蔽する傾向が抑制されている
- 信頼性の高いAIアシスタントとしての基盤が強化
たとえるなら、GPT-5.4の安全性評価は「運動神経は抜群だが、その力を悪用しないよう教育された優等生」。能力の高さとリスク管理が両立している点が、従来モデルとの大きな違いです。
思考の連鎖(CoT)の監視可能性|AIは自分の推論を隠せるか?
- CoT制御可能性 — AIが自分の思考プロセスを操作・隠蔽する能力を測定する指標
- GPT-5.4 ThinkingのCoT制御可能性は「低い」(GPT-5 Thinking、GPT-5.2 Thinkingと同等)
- AIが自分の推論の痕跡を効果的に操作できないことを意味する
- OpenAIはこれを「ポジティブな安全性特性」として評価。AIの思考が透明であることの証拠
たとえるなら、CoT監視可能性は「AIの嘘発見器」。GPT-5.4は自分の思考プロセスを隠す能力が低い——つまり、「嘘をつくのが下手なAI」であり、これは安全性の観点で望ましい特性です。
エージェントAIとしての能力向上
- 長時間のタスク実行でも自分の操作を追跡・元に戻す能力が以前のモデルから大幅に向上
- ユーザーの作業を損なわずに自律的な修正が可能
- マルチステップのタスクを少ないトークン数とツール呼び出しで完了
- エージェントワークロードのエンドツーエンド実行時間を短縮
前世代のSystem Cardとの比較
- GPT-5 System Card(2025年8月) — 初のGPT-5シリーズ。基本的なリスク評価フレームワークを確立
- GPT-5.3 Codex System Card — コーディング特化モデル。サイバーセキュリティ緩和策の初期導入
- GPT-5.3 Instant System Card — ハルシネーション26.8%削減を開示。安全性の「後退」も正直に報告
- GPT-5.4 Thinking System Card — サイバー緩和策の汎用モデル初搭載、OSWorld人間超え、CoT監視可能性の継続的な安全性確認
よくある質問(FAQ)
Q. サイバーセキュリティ「High」は危険ではないのですか?
能力の高さは確かにリスクを伴います。
だからこそOpenAIはサイバー攻撃緩和策をモデルに組み込みました。
「High」評価は危険性の指摘ではなく、その能力に見合った安全対策が実装されていることの証明です。
Q. System Cardは誰が書いているのですか?
OpenAIのSafety Systems チームと外部の評価者が協力して作成しています。内部評価だけでなく、第三者によるレッドチーミング(攻撃的テスト)の結果も含まれます。
Q. CoTの監視可能性が低いとはどういう意味ですか?
AIが自分の推論過程を意図的に隠したり操作したりする能力が低い(=できない)ということです。
これは安全性の観点で望ましい特性です。
AIの思考が透明であることで、人間がAIの判断を検証しやすくなります。
Q. 一般ユーザーがSystem Cardを読む必要はありますか?
必須ではありませんが、AIを業務で活用する企業の意思決定者には一読をおすすめします。モデルの能力と限界を理解することで、適切な活用範囲とリスク管理の判断材料になります。
まとめ
この記事のポイントを振り返りましょう。
- GPT-5.4 Thinking System Cardは、AIの能力とリスクを開示する公式安全性レポート
- サイバーセキュリティ「High」評価で、汎用モデル初のサイバー緩和策を搭載
- OSWorld 75.0%で人間のコンピュータ操作能力(72.4%)を超越
- CoT制御可能性が低く、AIが自分の推論を隠蔽できないことが安全性の根拠
- 精神的健康評価で全モデル最高、欺瞞的行動もo3から大幅に改善
GPT-5.4 Thinking System Cardが示すのは、「強いAIほど、その安全性を厳密に証明する責任がある」という原則です。
人間を超えるコンピュータ操作能力、サイバーセキュリティの高度な知識——これらの能力を「持っている」ことと「安全に使える」ことは別の話。
OpenAIは能力の開示と緩和策の実装をセットで行うことで、その責任に応えようとしています。
参考文献
- OpenAI. (2026). GPT-5.4 Thinking System Card. OpenAI
- OpenAI. (2026). GPT-5.4 Thinking System Card – Deployment Safety Hub. OpenAI Deployment Safety
- AI:PRODUCTIVITY. (2026). GPT-5.4 System Card: First OpenAI Model With Cyber Mitigations Built In. AI:PRODUCTIVITY
- AdwaitX. (2026). GPT-5.4 Thinking: OpenAI’s Most Scrutinized Reasoning Model Laid Bare. AdwaitX
- Cybersecurity News. (2026). OpenAI Launches GPT-5.4 With Advanced Reasoning, Coding, and Computer-Use Capabilities. Cybersecurity News


