本1冊を一気に読むAI|Baidu無料OCR公開

伊東雄歩
監修者 伊東 雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube
  • Baidu(バイドゥ)が、本1冊を一度に読み込めるAI「Unlimited OCR」を無料公開しました
  • ライセンスはMIT。商用利用もOKで、APIキーも回数制限もありません
  • カギは「R-SWA」という新しい仕組み。何ページ読んでもメモリが膨らみません
  • 文書解析テスト「OmniDocBench」で93.92%を記録し、世界トップの成績を出しました
  • 請求書や契約書の自動読み取りで、日本の中小企業のコスト削減にもつながりそうです

分厚い契約書やマニュアルを「全部スキャンして文字にしたい」と思ったことはありませんか。これまでのAIは、ページが増えるほど動きが重くなり、長い書類が苦手でした。そんな常識をくつがえすAIが、2026年6月に無料で公開されました。中国の大手IT企業Baiduが出した「Unlimited OCR」です。本記事では、その仕組みと実力、そして日本のわたしたちへの影響をやさしく解説します。

Unlimited OCRとは?Baiduが公開した「本まるごと読むAI」

Unlimited OCR(アンリミテッド・オーシーアール)は、Baiduが2026年6月に公開したAIモデルです。

OCRとは、画像やPDFの中の文字をAIが読み取って、コピーや編集ができるデジタル文字に変える技術のことです。

このAIの一番の特徴は名前のとおり「無制限(Unlimited)」なこと。数十ページある書類を、一度にまとめて読み取れます

しかも、うれしいことに完全無料です。ライセンスは「MIT」という最もゆるい種類で、企業が商用利用してもかまいません。

公開からの注目度も高く、開発者向けサイトGitHubでは公開数日で約4,600個の「スター(お気に入り)」を集めました。

何がすごい?「1ページずつ」問題を解決した新しい仕組み

従来のOCRが長い書類を苦手にしていた理由

これまでのAI OCRには、ある弱点がありました。それは「長い書類が苦手」だったことです。

AIは文章を読むとき、読んだ内容を「KVキャッシュ」という一時的なメモにためていきます。

ページが増えるほど、このメモがどんどん膨らみます。そのため、長い書類だとメモリ(AIの作業机)があふれてしまいました。

だから今までのOCRは、100ページの本を1ページずつバラバラに処理するしかありませんでした。これでは表が途中で切れたり、前後のつながりがわからなくなったりします。

人間のマネをする「R-SWA」という発想

Unlimited OCRは、この問題を「R-SWA」という新しい仕組みで解決しました。

R-SWAは「Reference Sliding Window Attention」の略です。むずかしそうですが、考え方はシンプルです。

人間が書類を書き写すとき、今書いている部分の少し前までは覚えていますが、ずっと前の細かい内容は忘れていきますよね。この「ほどよく忘れる」という人間のクセをAIに取り入れました。

具体的には、AIが文字を1つ出力するたびに、元の画像全体と「直前の128文字」だけに注目します。

これにより、何ページ読んでもメモのサイズが一定のままになりました。メモがあふれないので、本1冊でも一気に読めるというわけです。

ちなみにこのAIは、3年前に話題になった「DeepSeek-OCR」をベースに、さらに進化させたものです。

性能はどれくらい?数字で見る実力

「無料なら性能はそこそこでは?」と思うかもしれません。ところが実力は本物です。

文書解析の有名なテスト「OmniDocBench(オムニドックベンチ)」で、総合93.92%という世界トップの成績を出しました。

おどろくのは、その効率の良さです。実際に動くパラメータ(AIの脳細胞のようなもの)はわずか約5億個。それで、数千億個もある巨大AIを上回ったのです。

ベースにしたDeepSeek-OCRと比べても、表の読み取り精度が約6ポイント向上しました。処理スピードも約13%速くなっています。

さらに大事なのが、ページが増えても処理時間がほとんど変わらない点です。従来は読むほど遅くなりましたが、その弱点を克服しました。

必要なパソコンの性能も控えめで、中くらいの性能のNVIDIA製GPU(画像処理が得意な部品)が1枚あれば動きます。

競合との比較|他のOCRとどう違う?

OCRの世界は今、競争がとても激しくなっています。Unlimited OCRの立ち位置を、ライバルと比べてみましょう。

  • DeepSeek-OCR:今回のベースになったモデル。10倍に圧縮しても97%の精度を保つ実力派ですが、長い書類は苦手でした
  • dots.ocr:軽くて速く、操作画面もあって使いやすいと評判のモデルです
  • Mistral OCR:コストの安さが魅力ですが、日本語の精度には課題が残ります
  • PaddleOCR-VL:同じBaidu製の小型モデル。こちらも高精度で人気があります
  • Azure・Googleの商用OCR:精度は最高クラスですが、利用するたびに料金がかかります

Unlimited OCRの強みは、「無料」「長い書類が得意」「自分のパソコンで動く」の3つがそろっている点です。

とくに、データを外部に送らず手元で処理できるので、機密書類をあつかう場面で安心感があります。

日本のユーザー・企業にどう関係する?

「中国のAIだから自分には関係ない」と思うのは少しもったいないです。実は日本の現場にも大きく関わってきます。

たとえば、ある中小企業の経理担当者を想像してみてください。月末になると、数百枚の請求書を1枚ずつ目で確認し、金額をパソコンに打ち込んでいます。これはとても時間のかかる作業です。

日本では今、こうした作業を助ける「AI-OCRサービス」が広がっています。ただし商用サービスは、月100枚で月額1万円ほど、本格的なものだと月額10万円近くかかることもあります。

Unlimited OCRは無料です。エンジニアがいる会社なら、こうしたコストをぐっと抑えられる可能性があります。

活用シーンは経理だけではありません。図書館での古い資料のデジタル化、大量の契約書チェック、研究者による論文の整理などにも役立ちます。

一方で注意点もあります。日本語、とくに手書き文字の読み取りは、まだ商用サービスのほうが得意な場面もあります。日本の帳票に特化したAzureなどと、使い分けるのが現実的でしょう。

使うときに知っておきたいこと

無料で高性能とはいえ、だれでもすぐ使えるわけではありません。

このAIを動かすには、GPUを積んだパソコンと、ある程度のプログラミング知識が必要です。スマホアプリのように手軽ではありません。

また、AIの読み取りは100%完璧ではありません。重要な書類では、人間による最終チェックが欠かせません

とはいえ、これだけの性能が無料で手に入る意味は大きいです。今後、これを組み込んだ使いやすいサービスが日本でも登場するかもしれません。

よくある質問(FAQ)

Q1. Unlimited OCRは本当に無料で使えますか?

はい。ライセンスはMITで、個人でも企業でも無料で使えます。APIキーの登録や回数制限もありません。モデルはHugging FaceやModelScopeという配布サイトで公開されています。

Q2. 日本語の書類も読み取れますか?

読み取れます。ただし手書きの日本語など、難しい文字では誤りが出ることもあります。重要な場面では商用サービスとの使い分けがおすすめです。

Q3. パソコンが苦手でも使えますか?

現時点では、ある程度の専門知識とGPU付きパソコンが必要です。今後、これを使った初心者向けサービスが出てくる可能性に期待しましょう。

Q4. どんな書類に向いていますか?

とくに、ページ数の多い長い書類(本・マニュアル・契約書など)に強いです。表が多い資料でも、つながりを保ったまま読み取れます。

Q5. なぜ中国企業が無料で公開するのですか?

技術を広く使ってもらい、開発者コミュニティの中心になることをねらっています。世界中の人に使われることで、自社AIの存在感を高める戦略と言われています。

まとめ

Unlimited OCRのポイントを振り返ります。

  • Baiduが2026年6月に公開した、本1冊を一度に読めるAI OCR
  • 「R-SWA」という新技術で、何ページ読んでもメモリが膨らまない
  • 文書解析テストで93.92%の世界トップ成績を、少ないパラメータで達成
  • MITライセンスで完全無料。商用利用もできる
  • 日本でも経理や図書館などで、コスト削減につながる可能性がある

まずは「無料で本まるごと読めるAIが登場した」という変化を、頭の片隅に置いておきましょう。あなたの会社の書類仕事も、近いうちに大きく変わるかもしれません。

参考文献

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です