AI学習に通る国内メディアは1割|初の大調査

伊東雄歩
監修者 伊東 雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube
  • 国内主要3,166媒体のうち、AIの学習データに「通る見込み」はわずか10.0%だったこと
  • 全国紙は100%、地方紙は67%が設定ファイルでAIのアクセスを完全に遮断していること
  • 通過できない最大の理由は「アクセス拒否」ではなく「記事の構造や品質」だったこと
  • この調査を行った株式会社トドオナダの「Qlipper」がどんなツールなのか
  • 自社サイトをAIに引用されやすくするために、今日からできる具体策

あなたが書いた記事は、ChatGPTやClaudeにちゃんと「読まれて」いるでしょうか。実は国内メディアの9割が、AIの学習データに届いていないことが初めて分かりました。検索の主役がAIに移るいま、この差は集客に直結します。この記事を読めば、原因と対策がスッキリ分かります。

国内3,166媒体を調べたら、AIに通るのは1割だけだった

2026年6月29日、PRテック企業の株式会社トドオナダ(東京都台東区)が、ある調査結果を発表しました。

内容は、国内の主要メディア3,166媒体を対象にした大規模調査です。

調べたのは「LLM事前学習データ通過率」という、聞き慣れない指標でした。

LLMとは、ChatGPTやClaudeのような、人間みたいに文章を書けるAIのことです。

このAIは、インターネット上の大量の文章を「教材」として学んでいます。

その教材に選ばれる確率を数値にしたのが、今回の「通過率」です。

結果は「通過見込み10.0%」という厳しい数字

調査結果はかなりショッキングなものでした。

  • 通過見込み:10.0%(317媒体)
  • 条件付きで通過の可能性あり:33.6%(1,063媒体)
  • 通過不可:66.4%(2,103媒体)

つまり、AIの学習教材に確実に入れそうなメディアは、10件に1件しかありませんでした。

残りの約3分の2は、AIにほとんど読まれていない可能性が高いのです。

なぜAIに読まれないのか?2つの「関門」がある

AIがWebページを学習教材にするまでには、いくつもの関門があります。

大きく分けると2つです。1つずつ見ていきます。

関門1:そもそもAIの立ち入りを禁止している

1つ目は「robots.txt(ロボッツテキスト)」という設定ファイルです。

これはサイトの入り口に立つ門番のようなものです。「このロボットは入っていい」「このロボットはダメ」を決めています。

多くのメディアが、この門番にAI向けの「立ち入り禁止」を設定していました。

調査によると、全国紙は100%、地方紙は67%がAIのアクセスを完全にブロックしていたのです。

新聞社が自社の記事をAIに学ばせたくない、という気持ちは分かります。

ただ、その結果としてAIの回答に自社が登場しなくなる、という側面もあります。

関門2:入れても「中身が読みにくい」と捨てられる

意外だったのは、ここからです。

通過できなかったメディアの最大の理由は、立ち入り禁止ではありませんでした。

通過不可の原因の64.2%は「コンテンツの構造・品質の問題」だったのです。

門を開けてAIを招き入れても、記事の作りが悪いと「これは使えない」と判断されてしまいます。

たとえば見出しがない、本文が画像だけ、広告だらけで本文が探しにくい、といったページです。

AIは超優秀ですが、ぐちゃぐちゃに散らかった部屋から必要な物を探すのは苦手なのです。

大手ポータルでも「通過率5.9%」という現実

「大きなサイトなら大丈夫だろう」と思ったことはありませんか。

残念ながら、そうとも限りませんでした。

調査では、誰もが知る主要ポータルサイトの94%が、通過見込み率わずか5.9%という結果でした。

アクセス数が多くても、AIに読まれやすいかどうかは別問題なのです。

さらに、企業の新着情報を配信するプレスリリース配信サービスでも、約30%が「即捨て」と判定されました。

つまり、ニュースを広く届けるはずのサービスでも、AIには届いていないケースがあるということです。

調査を行った「Qlipper」とはどんなツール?

この調査を支えたのが、トドオナダのPR効果測定サービス「Qlipper(クリッパー)」です。

もともとは、自社のニュースがどれだけメディアに取り上げられたかを測るツールでした。

そこに今回「LLMフレンドリーチェック機能」が加わりました。

これは、自社サイトがAIの学習パイプラインの「どの関門」で落ちているかを診断する機能です。

たとえば「門番でブロックされている」のか「中身の品質で落ちている」のかが分かります。

原因が分かれば、対策も打てます。健康診断で悪い数値の原因を特定するのに近い発想です。

トドオナダは、AIが自社をどう認識・引用しているかをチャットで診断する「ディギディギ(Digidigi)」も開発しています。

他のLLMO対策ツールとの違いは?

AIに引用されやすくする取り組みは「LLMO(AIに最適化すること)」と呼ばれます。

2026年現在、このLLMO対策ツールは国内外で10種類以上が登場しています。

ただ、多くのツールは「ChatGPTの回答に自社が何回出たか」を後から数えるものが中心です。

タイプ主な役割
引用モニタリング型AIの回答に自社が登場した回数や順位を測る
事前学習チェック型(Qlipper)そもそもAIに読まれる土台があるかを診断する
コンテンツ改善支援型引用されやすい記事の書き方を提案する

Qlipperの特徴は、AIに引用される「手前」の段階、つまり学習教材に入れるかどうかを見ている点です。

回答に出てこない原因が「そもそも読まれていないから」なら、いくら文章を直しても効果は出ません。

その土台部分を診断できるのが、今回のツールの新しさです。

日本のサイト運営者・企業への影響は?

この話は、大手メディアだけの問題ではありません。

自社サイトやブログを運営するすべての日本企業に関係します。

身近な例を3つ挙げます。

1つ目は、地方の工務店です。「〇〇市 注文住宅 おすすめ」とAIに聞かれたとき、自社が候補に出るかどうかが集客を左右します。

2つ目は、ECサイトの運営者です。商品の説明がAIに読まれていなければ、AIの買い物相談で紹介されません。

3つ目は、BtoB企業の広報担当者です。プレスリリースを出しても、AIに「即捨て」されては認知が広がりません。

これまでのSEO(検索エンジン対策)に加えて、AIに読まれる工夫が必要になってきたということです。

今日からできる3つの対策

難しく考える必要はありません。まずは次の3つを確認してみてください。

  • robots.txtを確認する:GPTBotやClaudeBotを意図せずブロックしていないか見直す
  • 見出しを整える:H2やH3で内容を区切り、AIが要点を拾いやすくする
  • 本文をテキストで書く:重要な情報を画像の中だけに入れず、文章でも書く

AIに読まれたいなら、まずは「読みやすい部屋」を用意することが第一歩です。

よくある質問(FAQ)

Q1. AIに学習されると、自分の記事は盗まれてしまうのですか?

学習されること自体は、内容がそのままコピーされることとは違います。AIは多くの文章から言葉のパターンを学びます。引用元として紹介されれば、逆に自社サイトへの集客につながる場合もあります。

Q2. AIにわざと読ませない方がいいケースもありますか?

あります。有料記事や独自の調査データなど、無断で使われたくない情報はブロックする選択もあります。大事なのは「読まれたいページ」と「守りたいページ」を分けて考えることです。

Q3. robots.txtとllms.txtは何が違うのですか?

robots.txtは「どのロボットを入れるか」を決める昔からの設定です。llms.txt(エルエルエムテキスト)はAI向けに新しく提案された設定ファイルです。ただし現状は、robots.txtの設定の方が優先されると考えておくと安全です。

Q4. 小さな会社でもLLMO対策はできますか?

できます。専用ツールを使わなくても、見出しを整える、本文を文章で書く、設定ファイルを見直すといった基本だけで土台は改善します。まずは無理のない範囲から始めるのがおすすめです。

まとめ

今回の調査のポイントを振り返ります。

  • 国内3,166媒体のうち、AIの学習に通る見込みはわずか10.0%だった
  • 全国紙100%、地方紙67%が設定でAIを完全にブロックしていた
  • 通過できない最大の理由は「中身の構造・品質」(64.2%)だった
  • 大手ポータルでも通過見込みは5.9%と低かった
  • 対策の第一歩は、robots.txtの確認と読みやすい記事づくり

まずは自社サイトのrobots.txtと見出し構成を、今日のうちに一度チェックしてみましょう。

参考文献

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です