GPT-5.4 Thinking System Card完全解説｜サイバー能力「High」で汎用モデル初の攻撃緩和策搭載、OSWorld人間超え75%の安全性カルテ

監修者伊東雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

GPT-5.4 Thinking System Cardは、OpenAIが2026年3月に公開したGPT-5.4の安全性評価レポート。AIの「成績表」と「健康診断書」を兼ねた文書
サイバーセキュリティ能力が「High」評価。汎用モデルとして初めてサイバー攻撃緩和策が組み込まれた
OSWorldベンチマークで75.0%を達成し人間（72.4%）を超越。コンピュータ操作の自律性が人間レベルに到達
思考の連鎖（CoT）の制御可能性が低く、AIが自分の推論を隠蔽できないことが安全性の証拠
精神的健康評価で全モデル中最高スコア。欺瞞的行動もo3から大幅に減少

AIが人間より上手くコンピュータを操作でき、サイバーセキュリティの専門知識も「High」レベル——そんなモデルの安全性を、あなたならどう評価しますか？ OpenAIが2026年3月5日に公開したGPT-5.4 Thinking System Cardは、AIの能力と安全性を赤裸々に開示した「成績表」です。

注目すべきは、能力の高さを誇示するだけでなく、リスクを正直に認めている点。

OSWorldで人間超えを果たしたAIの「カルテ」から、安全なAI開発の最前線を読み解きます。

System Cardとは？｜AIの「安全性カルテ」を読み解く

System Card（システムカード）は、AIモデルの能力・リスク・安全対策をまとめた公式文書です。

透明性の担保 — モデルが「何ができて、何が危険で、どう対策したか」を開発者・研究者・一般ユーザーに公開
Preparedness Framework — OpenAI独自のリスク評価フレームワーク。サイバーセキュリティ、生物学、説得力、自律性の4カテゴリで能力レベルを評価
リリース判断の根拠 — System Cardの評価結果に基づいて、モデルを公開してよいかの判断が行われる
継続的更新 — モデルの更新やフィードバックに応じて、System Card自体も更新される

たとえるなら、System Cardは「AIの健康診断書」。新薬の臨床試験報告書が「効果と副作用の両方」を正直に記載するように、System CardもAIの強みと弱点の両方を開示します。

GPT-5.4 Thinkingの安全性評価｜4カテゴリの結果

1. サイバーセキュリティ：「High」評価（汎用モデル初）

GPT-5.4 Thinkingは汎用モデルとして初めてサイバーセキュリティ能力が「High」と評価
脆弱性の発見・エクスプロイト作成・攻撃チェーンの構築が可能なレベル
対策として、サイバー攻撃緩和策（Cyber Mitigations）を初めてモデルに組み込み
GPT-5.3 Codexで開発された緩和手法を継承・強化

2. コンピュータ操作：人間超えのOSWorld 75.0%

OSWorld-Verifiedベンチマークで75.0%のスコアを達成
前世代GPT-5.2の47.3%から27.7ポイントの大幅向上
人間のベースライン（72.4%）を初めて超越
デスクトップ操作、ファイル管理、ブラウザ操作などの自律的なコンピュータ操作が人間レベルに到達

3. 精神的健康への影響：全モデル中最高スコア

動的メンタルヘルス評価のすべてのカテゴリで、過去のすべてのモデルを上回るスコア
ユーザーの精神的健康に悪影響を与える応答の抑制能力が大幅に向上
自殺・自傷行為に関連する危険な応答のフィルタリング精度が改善

4. 欺瞞的行動：大幅に減少

4つの評価設定すべてで、前世代の推論モデル（o3）より欺瞞的行動が大幅に減少
AIが意図的にユーザーを騙したり、情報を隠蔽する傾向が抑制されている
信頼性の高いAIアシスタントとしての基盤が強化

たとえるなら、GPT-5.4の安全性評価は「運動神経は抜群だが、その力を悪用しないよう教育された優等生」。能力の高さとリスク管理が両立している点が、従来モデルとの大きな違いです。

思考の連鎖（CoT）の監視可能性｜AIは自分の推論を隠せるか？

CoT制御可能性 — AIが自分の思考プロセスを操作・隠蔽する能力を測定する指標
GPT-5.4 ThinkingのCoT制御可能性は「低い」（GPT-5 Thinking、GPT-5.2 Thinkingと同等）
AIが自分の推論の痕跡を効果的に操作できないことを意味する
OpenAIはこれを「ポジティブな安全性特性」として評価。AIの思考が透明であることの証拠

たとえるなら、CoT監視可能性は「AIの嘘発見器」。GPT-5.4は自分の思考プロセスを隠す能力が低い——つまり、「嘘をつくのが下手なAI」であり、これは安全性の観点で望ましい特性です。

エージェントAIとしての能力向上

長時間のタスク実行でも自分の操作を追跡・元に戻す能力が以前のモデルから大幅に向上
ユーザーの作業を損なわずに自律的な修正が可能
マルチステップのタスクを少ないトークン数とツール呼び出しで完了
エージェントワークロードのエンドツーエンド実行時間を短縮

前世代のSystem Cardとの比較

GPT-5 System Card（2025年8月） — 初のGPT-5シリーズ。基本的なリスク評価フレームワークを確立
GPT-5.3 Codex System Card — コーディング特化モデル。サイバーセキュリティ緩和策の初期導入
GPT-5.3 Instant System Card — ハルシネーション26.8%削減を開示。安全性の「後退」も正直に報告
GPT-5.4 Thinking System Card — サイバー緩和策の汎用モデル初搭載、OSWorld人間超え、CoT監視可能性の継続的な安全性確認

よくある質問（FAQ）

Q. サイバーセキュリティ「High」は危険ではないのですか？

能力の高さは確かにリスクを伴います。

だからこそOpenAIはサイバー攻撃緩和策をモデルに組み込みました。

「High」評価は危険性の指摘ではなく、その能力に見合った安全対策が実装されていることの証明です。

Q. System Cardは誰が書いているのですか？

OpenAIのSafety Systems チームと外部の評価者が協力して作成しています。内部評価だけでなく、第三者によるレッドチーミング（攻撃的テスト）の結果も含まれます。

Q. CoTの監視可能性が低いとはどういう意味ですか？

AIが自分の推論過程を意図的に隠したり操作したりする能力が低い（＝できない）ということです。

これは安全性の観点で望ましい特性です。

AIの思考が透明であることで、人間がAIの判断を検証しやすくなります。

Q. 一般ユーザーがSystem Cardを読む必要はありますか？

必須ではありませんが、AIを業務で活用する企業の意思決定者には一読をおすすめします。モデルの能力と限界を理解することで、適切な活用範囲とリスク管理の判断材料になります。

まとめ

この記事のポイントを振り返りましょう。

GPT-5.4 Thinking System Cardは、AIの能力とリスクを開示する公式安全性レポート
サイバーセキュリティ「High」評価で、汎用モデル初のサイバー緩和策を搭載
OSWorld 75.0%で人間のコンピュータ操作能力（72.4%）を超越
CoT制御可能性が低く、AIが自分の推論を隠蔽できないことが安全性の根拠
精神的健康評価で全モデル最高、欺瞞的行動もo3から大幅に改善

GPT-5.4 Thinking System Cardが示すのは、「強いAIほど、その安全性を厳密に証明する責任がある」という原則です。

人間を超えるコンピュータ操作能力、サイバーセキュリティの高度な知識——これらの能力を「持っている」ことと「安全に使える」ことは別の話。

OpenAIは能力の開示と緩和策の実装をセットで行うことで、その責任に応えようとしています。

参考文献

OpenAI. (2026). GPT-5.4 Thinking System Card. OpenAI
OpenAI. (2026). GPT-5.4 Thinking System Card – Deployment Safety Hub. OpenAI Deployment Safety
AI:PRODUCTIVITY. (2026). GPT-5.4 System Card: First OpenAI Model With Cyber Mitigations Built In. AI:PRODUCTIVITY
AdwaitX. (2026). GPT-5.4 Thinking: OpenAI’s Most Scrutinized Reasoning Model Laid Bare. AdwaitX
Cybersecurity News. (2026). OpenAI Launches GPT-5.4 With Advanced Reasoning, Coding, and Computer-Use Capabilities. Cybersecurity News