新規Webの35%がAI生成|Stanford衝撃研究

伊東雄歩
監修者 伊東 雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube
  • Stanford×Imperial×Internet Archiveの共同研究で衝撃データが公開(2026年4月)
  • 2025年半ばに新規Webサイトの約35%がAI生成またはAI支援と判明
  • ChatGPT登場前(2022年11月)はほぼ0%——33ヶ月でここまで膨らんだ
  • 意味の多様性が33%低下、ポジティブ感情が107%増という具体的影響を統計的に確認
  • SEO・コンテンツ業界・LLM学習データ・日本企業の風評管理に直結する数字

「いま検索して読んでいるその記事、もしかしてAIが書いたかもしれません」——そう言われたら少し怖くないですか?新規Webサイトの35%がAI生成・AI支援だった。Stanford大学などが2026年4月に発表した大規模調査の数字は、ネットの未来を考えるうえで無視できないリアルです。

何がわかったのか|35%という数字の中身

Stanford・Imperial・Internet Archiveの共同調査

2026年4月14日、論文「The Impact of AI-Generated Text on the Internet」がarXiv(オンライン論文サーバー)に公開されました。

著者は、Imperial College LondonのJonas Dolezal氏、Stanford大学のMaty Bohacek氏、Internet ArchiveのSawood Alam氏とMark Graham氏の4人。

5月11日にはITmediaやGIGAZINEなど日本のテック媒体も次々と報じ、SEO・コンテンツ業界を中心に大きな反響が広がっています。

調査対象は33ヶ月分のWebサイト

研究チームが分析したのは、2022年8月から2025年5月までの約33ヶ月分のWebサイトです。

データソースはInternet Archive(インターネット・アーカイブ)の「Wayback Machine(ウェイバックマシン)」。世界中のWebページを定期的にスナップショット保存している巨大デジタル図書館です。

つまり、ChatGPTが公開された2022年11月のすぐ前から、最新までの「Webの変化」を連続的に観察したわけです。

検出にはPangram v3を採用

AI生成かどうかを見分けるツールには「Pangram v3(パングラム)」を使いました。

研究チームは候補となる4つの検出ツール(Binoculars、Desklib、DivEye、Pangram v3)を独自に検証し、最も精度が高かったPangram v3を採用しています。

結果、判定された割合はこうなりました。

  • 新規Webサイト全体の35%がAI生成またはAI支援と判定
  • うち17.6%は完全にAI生成と分類
  • ChatGPT登場前(2022年11月)はほぼ0%だった

「意味の多様性が33%低下」とはどういうこと?

統計的に確認された2つの仮説

この研究の優れた点は、「AI生成が増えたら〇〇になる」という6つの仮説を立て、データで検証したところにあります。統計的に有意(偶然では説明できない)と確認されたのは2つだけでした。

第一に、意味的多様性の低下。AI生成サイトは、人間が書いたサイトに比べて33%高い意味的類似性スコアを示しました(相関係数ρ=0.47、p=0.004)。

つまり「言い方は違うけど、書いてあることはどれも似ている」状態が広がっているということ。記事を10本読んでも8本が同じことを言っている、そんな感覚に近いです。

第二に、ポジティブ感情の急増。AI生成サイトの平均ポジティブ感情スコアは、人間執筆コンテンツより107%高い結果に(ρ=0.56、p=0.0003)。

ネット記事が「妙に前向き」「やたら明るい」と感じる人が増えているとしたら、AIの過剰なポジティブ傾向が一因かもしれません。

「人々が信じている悪影響」は確認されなかった

面白いのは、世間が「AIで悪化している」と信じている項目の多くは、統計的には確認されなかったこと。

  • 事実精度の低下:有意差なし(p=0.27)
  • スタイル単一化:有意差なし(p=0.17)
  • その他、ネット品質の急落も統計的支持なし

同時に実施された米国成人調査では、75〜83%の人が「AIは悪影響だ」と感じているのに対し、データはその大半を裏付けていません。

研究チームは「恐怖の物語が事実より先走っている」と慎重な表現で警鐘を鳴らしています。

Originality.AIの調査が示すもう一つの側面

Google検索結果の17%もAI生成

同じ問題を別の角度から見ているのが、AI検出ツール大手のOriginality.AIです。

同社の「Google検索結果のAIコンテンツ継続調査」によると、2025年9月時点で検索結果上位20件の17.31%がAI生成と分類されました。

Stanford論文の35%は「新規Webサイト全体」、Originality.AIの17%は「Google検索の上位表示」と対象は違いますが、「世の中に出回るコンテンツの多くがAI製になりつつある」傾向はどちらも同じ方向を示しています。

「AI Slop(AIのゴミ)」現象

SEO業界では「AI Slop(AIスロップ)」という言葉が定着しつつあります。「Slop」は英語で「残飯」「ぐちゃぐちゃのエサ」という意味。

つまりAIが量産した中身の薄い記事が、Google検索を埋め尽くしている状況を揶揄した呼び名です。

2024年以降、Googleは「ヘルプフルコンテンツアップデート」「コアアップデート」を立て続けに実施し、AI Slopの締め出しに動いていますが、Stanford論文の35%という数字を見る限り、まだまだ追いついていないのが実情です。

「Dead Internet Theory」は本当だった?

陰謀論から「測定可能な現象」へ

ネットには昔から「Dead Internet Theory(死んだインターネット理論)」という陰謀論的な仮説があります。

「いまネット上のコンテンツの大半は、もう人間ではなくボットやAIが書いている」という主張で、2021年頃から欧米の掲示板で広まりました。

Decryptや404 Mediaなど海外メディアは、Stanford論文を「Dead Internet Theoryが陰謀論から測定可能な現象になった瞬間」と報じました。

研究チームは慎重に「インターネットは死んでいない。ただし新規コンテンツの35%は何らかの意味で『ゾンビ的』である」と表現しています。

最大の懸念は「モデル崩壊」

もう一つ深刻な論点は、「モデル崩壊(Model Collapse)」の現実化リスクです。

LLM(人間みたいに文章を書ける大規模AI)は、Web上のテキストを大量に学習して育ちます。その学習データの35%がAI生成だった場合、AIがAIの出力を学んでさらにAIを育てる循環が起きます。

例えると、コピー機でコピーしたコピーを、さらにコピーするような状態。世代を重ねるごとに精度が落ち、最終的にモデルが「壊れる」——これが学術的に懸念されてきたモデル崩壊です。

2024年7月のNature論文では既にこのリスクが指摘されていましたが、Stanford論文の35%という数字で、「理論上のリスク」から「実証データのある現実」へと一歩進んだと言えます。

SEO業界・コンテンツ業界への影響

E-E-A-Tがますます重要に

Googleが2022年以降強調してきた評価軸が「E-E-A-T」です。

  • Experience(経験):実際に体験したか
  • Expertise(専門性):その分野の専門家か
  • Authoritativeness(権威性):業界で認められているか
  • Trustworthiness(信頼性):情報源として信頼できるか

AI生成コンテンツが世の中に溢れる時代、「実体験」「現場の専門知識」「顔と名前の出る監修者」を伴うコンテンツの価値が相対的に上がります。

日本のSEO業界でも、2026年は「人間の体験を含むコンテンツ」へのシフトが加速すると見られています。

「AIO」「GEO」という新領域

もう一つの動きが「AIO(AI Overview Optimization)」「GEO(Generative Engine Optimization)」と呼ばれる新領域です。

GoogleのAI Overview(検索結果のAI要約)に自社情報を引用してもらう、ChatGPTやPerplexityでの言及を増やす、といった新しい最適化手法。従来のSEOから、AIに対する最適化への大転換が起きています。

日本市場での具体的な対応

日本企業の実務的な動きとしては、こうしたものが目立ちます。

  • 監修者・著者情報の明示:プロフィール、所属、SNSリンクを記事に付ける
  • 一次情報・取材記事の強化:AIには真似できない独自データの掲載
  • ファクトチェック体制:AI生成コンテンツの誤りを社内で検証する仕組み
  • 風評モニタリング:AIが過去の不祥事を蒸し返すリスクの管理

読者・ユーザーは何を変えるべきか

「3記事読んで初めて信じる」習慣を

研究の結論を踏まえて、読者側にできる現実的な対策はシンプルです。

第一に、同じテーマで最低3つの情報源を読むこと。AI生成サイトは見た目が似通っていることが多いので、論調が極端に違う複数ソースを比べると違和感に気づきやすくなります。

第二に、運営者情報・著者情報・更新日を必ず確認。サイトの運営会社や著者の氏名・経歴が見当たらない記事は、AI量産サイトの可能性が高めです。

第三に、公式・一次情報を最優先に。企業の公式発表、政府機関、論文プレプリント、学会のニュースリリースなど。

逆にAIを「読書の助手」にする

怖がるだけが対策ではありません。逆にAIに「この記事の主張を批判的に検証して」と頼むのも有効です。

ChatGPTやClaudeに「この記事のロジックの穴を3つ挙げて」「同じ問題について反対意見をまとめて」と頼めば、1人で読むより圧倒的に深く理解できるのが実情です。

よくある質問(FAQ)

Q. 35%って多すぎませんか?本当に正確な数字なの?

A. AI検出ツールには誤判定もあるため、35%は「目安としての規模感」と捉えるのが正確です。

研究チームも採用したPangram v3は、第三者ベンチマーク「RAID」で最も堅牢と判断されました。とはいえ「人間が書いた文章をAI判定」「逆も然り」のリスクはゼロではありません。論文の図表でも信頼区間(誤差の幅)を明記しています。「だいたい3分の1がAI製」という直感的な数字として理解するのが妥当です。

Q. 日本のWebサイトも同じ割合でAI生成なんですか?

A. 今回の調査は英語圏中心です。日本語Webの正確な割合はまだ別途調査が必要です。

ただし日本でも、2024年以降「AIライティングサービス」「AIブログ自動投稿」が急増しており、状況は近いと推測されます。Originality.AIなどがGoogle検索結果を継続調査しているので、日本語版データの公開を待つ価値があります。

Q. AI生成記事を読むと、なぜ「意味が薄い」と感じるのですか?

A. AIは「平均的な答え」を出すよう設計されているため、独自視点や異論が削られやすいからです。

研究で確認されたとおり、AI生成コンテンツ同士は33%も意味的に類似しています。これは「最も中立で安全な答え」をAIが選ぶ結果、個性も尖りも消えて似たもの同士になるということ。人間の優れたエッセイには「この人にしか書けない」視点がありますが、AI記事ではそこが希薄になりがちです。

Q. SEO業務でAI生成は使わない方がいいですか?

A. 「AIに全部任せる」のは危険ですが、「下書き作成・構成整理・校正」に使うのは引き続き有効です。

Google公式は「AI使用そのものは問題ではない。人間の体験・専門性を反映した付加価値があるかが重要」とアナウンスしています。実務では「人間がリサーチと骨子を作り、AIに本文の素案を書かせ、人間が編集・追記する」ハイブリッド運用が現実解です。

Q. モデル崩壊が起きたら、ChatGPTやClaudeはどうなりますか?

A. 各社は対策として「学習データのフィルタリング」「合成データ専用パイプライン」を進めています。

OpenAI、Anthropic、Googleなどは、AI生成と人間生成のテキストを分類して学習データの品質管理に投資しています。また独自に高品質な「合成データ」を作って学習するアプローチも進行中。「Web全体を雑に学習する」段階は終わり、選別の時代に入ったと理解するのが正確です。

Q. 個人ブロガーや中小サイトはどうすればいい?

A. 「自分の体験・現場の知見・顔と名前」を出すのが最強の差別化です。

AIが書けないのは「あなたが昨日実際にやって失敗した話」「現場で見聞きしたエピソード」「写真付きの体験談」です。SEO的にも、Experience(経験)の評価が高まる時代。AIに対抗する道は「より人間らしく書く」ことであり、皮肉ですが今後はそれが希少価値になります。

まとめ

  • 2026年4月、Stanford・Imperial・Internet Archive共同論文を公開:33ヶ月分のWebサイトを大規模分析
  • 新規Webサイトの約35%がAI生成またはAI支援:うち17.6%は完全にAI製
  • ChatGPT登場前はほぼ0%:33ヶ月でゼロから35%に膨らんだ衝撃の変化
  • 意味的多様性が33%低下、ポジティブ感情が107%増:統計的に有意な2大変化
  • 事実精度の低下・スタイル単一化は有意差なし:「恐怖の物語」と実データのギャップが浮き彫り
  • Originality.AI調査では検索結果上位20件の17%がAI生成:Google検索の品質低下も並走
  • モデル崩壊リスクが理論から現実へ:AIがAIを学ぶ循環の本格化
  • E-E-A-T・実体験・監修者明示が差別化軸に:人間ならではの価値が再評価される時代へ

次のアクション: 自分がよく読むWebサイトの運営者情報・著者プロフィール・更新日を改めて確認してみましょう。「誰が、いつ、何の根拠で書いたか」を意識するだけで、AI生成コンテンツの洪水に流されない読み方が身につきます。

参考文献

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です