Llamaが10分で解除|AI安全機構を破壊するHeretic

伊東雄歩
監修者 伊東 雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube
  • 無料ツール「Heretic」が、Meta「Llama 3.3」の安全機構をわずか10分で解除できると英Financial Timesが実証した
  • Google「Gemma 4」もリリースから90分以内に同じ手法で安全機構を突破された
  • 仕組みは「abliteration」と呼ばれる、AIモデルの「拒否方向」を消すだけの軽量手法。専用ハードウェアは不要
  • Hereticで作られた解除済みモデルはすでに3,500種類・累計1,300万ダウンロードに達する
  • ChatGPTやClaudeは中身が非公開のため影響を受けないが、企業がオープンモデルを業務利用するならガバナンス再設計は必須

「オープンソースのAIモデルは安全だ」と思っていませんか? 2026年5月27日、英Financial Times(FT)が衝撃的な実験結果を公開しました。Meta社のLlama 3.3に組み込まれた安全機構が、無料の公開ツールでわずか10分で解除できたのです。さらにGoogleのGemma 4はリリース後90分以内に突破されました。本記事では、何が起きたのか、技術の正体、日本のユーザーや企業に何が関係するのかを、中学生にもわかる言葉でていねいに整理します。

何が起きたのか — FTが10分でLlamaの安全機構を解除

事件の発端は、2026年5月のFinancial Times(FT)の調査報道です。

FTの記者は、GitHubで公開されている「Heretic(ヘレティック)」という無料ツールを使い、Meta社のLlama 3.3に組み込まれた「危険な質問には答えない」という安全機構を解除しました。所要時間はたったの10分。専用のGPUやサーバーは使っていません。

解除されたモデルに、爆発物の作り方や塩素ガスを使った攻撃の手順を尋ねたところ、本来なら「お答えできません」と返すはずのAIが、淡々と手順を説明したと報じられました。

同じ手法はGoogleのGemma 4にも有効でした。リリースされて90分も経たないうちに、コミュニティが「Heretic版Gemma 4」を公開していたのです。

つまり、Meta・Googleが数か月かけて積み上げた「AI安全対策」が、一般ユーザーのノートPCで数分から数時間でひっくり返された——これがニュースの核心です。

Heretic の正体と「abliteration」という技術

Hereticは、Philipp Emanuel Weidmann(フィリップ・エマヌエル・ヴァイドマン)氏が2025年末に公開した、コマンド1つで動くオープンソースツールです。中身を見ていきましょう。

「拒否方向」を1本だけ消す手法

Hereticが採用しているのは「abliteration(アブリテーション)」と呼ばれる手法です。直訳すると「消去」ですが、何を消すのかが肝です。

2024年、Anthropic所属の研究者Arditi(アルディティ)らが論文「Refusal in Language Models Is Mediated by a Single Direction(拒否は単一の方向で媒介される)」を発表しました。彼らが見つけたのは、AIが「答えるか/拒否するか」を決めているのは、モデルの内部にある“たった1本のベクトル”であるという事実です。

このベクトルを「拒否方向(refusal direction)」と呼びます。Hereticはこの方向を計算し、モデルの重み(パラメータ)から差し引くだけで、AIに「断る」という選択肢を忘れさせます。学習データも追加のGPUも不要です。

「再学習」より圧倒的に軽い

これまで「AIから安全機構を外す」には、何百万件もの会話データで再学習(ファインチューニング)が必要でした。Hereticはこの工程を完全にスキップします。

開発者によると、Gemma-3-12bでHereticを使った場合、安全機構を外しつつ通常の会話品質は従来手法の約6.5倍も保たれたと報告されています(KL divergenceという指標で0.16 vs 1.04)。安全機構だけを外科手術のように切除できる、というイメージです。

影響を受けるモデルと、受けないモデル

では、どのAIが危ないのでしょうか。整理します。

影響を受けるオープンウェイトモデル

Hereticがターゲットにできるのは、モデルの重み(パラメータ)が誰でもダウンロードできる「オープンウェイト」モデルです。具体的には次のような系統が対象になります。

  • Meta「Llama 3.3」「Llama 4」
  • Google「Gemma 3」「Gemma 4」
  • Alibaba「Qwen」シリーズ
  • Mistral 系のオープンモデル

Heretic作者によれば、リリースから半年あまりで3,500以上の「解除済みモデル」が作られ、累計1,300万ダウンロードに達したとのことです。すでに地下市場ではなく、Hugging Faceなど一般的なAIモデル配布サイトで普通に流通しています。

影響を受けない「クローズドAI」

一方、OpenAIのChatGPT、AnthropicのClaude、Google Geminiの本体(クラウド版)はモデルの中身が公開されていないため、Hereticは適用できません。

これらはAPI経由でしか触れず、運営側がリクエストの段階でブロックできるからです。「無料・自由に改造できる」ことが裏目に出ているのが、いまのオープンモデルの構図と言えます。

他のツールや手法とどう違うのか

「AIから検閲を外す」試み自体は新しい話ではありません。Hereticが特別な理由を、過去の手法と比較してみます。

手法必要な作業所要時間会話品質の劣化
従来のファインチューニング(無検閲化)数十万〜数百万件の対話データ収集と再学習数日〜数週間大きく劣化することが多い
FailSpyらが2024年に公開した「abliterator」ライブラリ手動で「拒否方向」を計算しコード調整数時間そこそこ劣化(KL=1.04前後)
Heretic(2025年末公開)コマンド1行、最適化はOptunaが自動10〜90分ごくわずか(KL=0.16)

大きな違いは「専門知識がほぼ要らない」点です。これまでは機械学習の研究者でないと触れない領域でしたが、HereticはPythonでコマンドを1つ打てる人なら誰でも実行できるレベルにハードルを下げました。これが「3,500モデル・1,300万DL」という普及を生んでいます。

日本市場への影響 — 規制と業務利用の現実

「アメリカや海外の話でしょ?」と感じるかもしれませんが、日本のユーザー・企業にも直接関わるポイントがあります。

日本の規制はまだ「表示義務」止まり

日本では2025年6月に「AI推進法(仮称)」が成立しましたが、これは基本理念を定めた法律で、罰則はありません。ディープフェイクや「無検閲AI」を直接禁止する法律も、現時点(2026年5月)では存在しません。

一方、選挙妨害対策として「AI生成画像・動画に表示義務」を課す法案が与野党で合意済みです。ただし、これは生成されたコンテンツ側の表示を求めるもので、モデル本体の流通は止められません。

EU AI規制は2026年8月から本格適用

世界に目を向けると、EU AI規制法(AI Act)が2026年8月2日から本格適用されます。ディープフェイク生成AIには透明性義務が課され、違反すると最大1,500万ユーロ(約24億円)または年間売上高の3%の罰金が科されます。

日本企業でも、EU向けにサービスを展開していれば対象になります。「うちはオープンモデルを社内利用しているだけだから関係ない」とは言い切れない時代に入りました。

日本企業のローカルLLM運用に潜む落とし穴

最近、機密データの社外流出を避けるために「Llama 3を自社サーバーで動かす」という選択肢を取る日本企業が増えています。三菱UFJ、NTT、ソフトバンクなどが社内向けLLMでオープンモデルを採用したと報じられています。

ここで気をつけたいのは、社員や子会社がHugging Faceから「Heretic版」のLlamaを誤ってダウンロードしてしまうリスクです。モデル名に「abliterated」「uncensored」「heretic」と入っているものは検閲解除済みです。社内ガイドラインで利用可能なモデルをホワイトリスト化することが急務になります。

具体的な活用シーン・対策の例

イメージしにくい話なので、3つの場面で考えてみましょう。

シーン1:地方の中小企業が社内チャットボットを構築

関西のある製造業の情報システム担当者は、「Llama 3.3 70Bを社内サーバーで動かして、業務マニュアルを答えるチャットボットを作ろう」と考えました。Hugging Faceで検索すると、上位に「Llama-3.3-70B-Instruct-abliterated」が出てきます。性能の数字だけ見て選んでしまうと、社員が「会社の機密文書をうまく抜き取る方法は?」と聞いても答えてしまうAIが社内に置かれることになります。

シーン2:大学の研究室が「自由なLLM」で研究

大学院生が論文執筆用にHeretic版Gemma 4を使ったとします。研究の文脈では問題ないように思えても、その重みファイルが研究室の共用ストレージに置かれ、後輩がコピーして自宅で使い、その出力をSNSに投稿すると名誉毀損や薬物製造マニュアル流通の起点になりかねません。研究データと同じく、モデルにも持ち出しルールが要ります。

シーン3:個人開発者がLLM APIを販売

「自分のサーバーでLlamaを動かして、月額1,000円のLLM APIサービスを始めよう」という個人開発者も増えています。ベースモデルの選定を間違えると、利用規約違反で訴えられるリスクのほか、日本の刑法(爆発物取締罰則・薬機法等)に触れる情報の提供幇助に問われる可能性があります。事業者は「商用利用するモデルの来歴」を文書で残しておくべきでしょう。

企業・開発者がいま取るべき3つの対策

Hereticのようなツールは消えません。前向きな備えとして3つの観点を提案します。

  • モデルのホワイトリスト化:社内で使えるオープンモデルを「公式リポジトリのオリジナル版のみ」と明文化する
  • 出力監査の二重化:モデル側の安全機構だけに頼らず、出力にもガードレール(Llama GuardやNVIDIA NeMo Guardrails等)を別途かける
  • ログとモデル来歴の保存:誰がいつどのバージョンのモデルを使ったか、SHA256ハッシュ付きで保存し、監査に備える

「クラウドAPIを使う」という選択肢に戻すのも、機密性要件次第では合理的です。コストと安全性のバランスを定期的に見直すことが求められます。

よくある質問(FAQ)

Q1. ChatGPTやClaudeも危ないのですか?

いいえ、現時点(2026年5月)ではOpenAIやAnthropicのクラウドAPI経由で使うAIにはHereticは適用できません。モデルの重みファイルが公開されていないからです。ただし、これらの会社が今後オープンモデルを出した場合は同じリスクが発生します。

Q2. Hereticは違法なのですか?

Heretic自体は研究・教育目的を掲げたオープンソースソフトウェアで、現時点で日本でもアメリカでも違法ではありません。しかし、解除したAIで作り出したコンテンツ(爆発物の作り方など)を実際に使えば、当然刑法に触れます。ツールではなく用途が問われる構図です。

Q3. オープンソースAIは結局やめたほうがいいのですか?

そうとは限りません。社外秘データを扱う業務ではローカルLLMの方が安全な場面も多いです。重要なのは「どのモデルを選ぶか」と「監査・運用体制」です。OllamaやvLLMで動かすときも、Hugging Faceの公式リポジトリから直接落とし、モデル名に「abliterated」等が付いていないかを確認しましょう。

Q4. Metaの対策は進んでいるのですか?

Metaは「abliteration耐性のある重み構造」の研究を進めていると公言していますが、根本解決には至っていません。AnthropicのArditi論文が示すように、現在のTransformer型LLMの構造自体に拒否方向が単一直線で存在するため、構造を変えない限り完全な防御は難しいというのが研究者の見立てです。

まとめ

  • 無料ツール「Heretic」がMeta Llama 3.3を10分、Google Gemma 4を90分で安全解除する事例が報じられた
  • 仕組みは「abliteration」と呼ぶ軽量手法。AI内部の「拒否方向」を1本消すだけで成立する
  • すでに3,500種類・1,300万DLの解除済みモデルが流通済み。ChatGPT・Claudeなど閉鎖系は影響なし
  • 日本は規制が緩いが、EU AI Actは2026年8月から最大24億円罰金で本格適用される
  • 企業はモデルのホワイトリスト化・出力監査の二重化・来歴ログの保存で備えるべき

まずは社内で使っているオープンモデルが「公式版」かどうかを今週中に棚卸ししてみてください。

参考文献

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です