- Baidu(バイドゥ)が、本1冊を一度に読み込めるAI「Unlimited OCR」を無料公開しました
- ライセンスはMIT。商用利用もOKで、APIキーも回数制限もありません
- カギは「R-SWA」という新しい仕組み。何ページ読んでもメモリが膨らみません
- 文書解析テスト「OmniDocBench」で93.92%を記録し、世界トップの成績を出しました
- 請求書や契約書の自動読み取りで、日本の中小企業のコスト削減にもつながりそうです
分厚い契約書やマニュアルを「全部スキャンして文字にしたい」と思ったことはありませんか。これまでのAIは、ページが増えるほど動きが重くなり、長い書類が苦手でした。そんな常識をくつがえすAIが、2026年6月に無料で公開されました。中国の大手IT企業Baiduが出した「Unlimited OCR」です。本記事では、その仕組みと実力、そして日本のわたしたちへの影響をやさしく解説します。
Unlimited OCRとは?Baiduが公開した「本まるごと読むAI」
Unlimited OCR(アンリミテッド・オーシーアール)は、Baiduが2026年6月に公開したAIモデルです。
OCRとは、画像やPDFの中の文字をAIが読み取って、コピーや編集ができるデジタル文字に変える技術のことです。
このAIの一番の特徴は名前のとおり「無制限(Unlimited)」なこと。数十ページある書類を、一度にまとめて読み取れます。
しかも、うれしいことに完全無料です。ライセンスは「MIT」という最もゆるい種類で、企業が商用利用してもかまいません。
公開からの注目度も高く、開発者向けサイトGitHubでは公開数日で約4,600個の「スター(お気に入り)」を集めました。
何がすごい?「1ページずつ」問題を解決した新しい仕組み
従来のOCRが長い書類を苦手にしていた理由
これまでのAI OCRには、ある弱点がありました。それは「長い書類が苦手」だったことです。
AIは文章を読むとき、読んだ内容を「KVキャッシュ」という一時的なメモにためていきます。
ページが増えるほど、このメモがどんどん膨らみます。そのため、長い書類だとメモリ(AIの作業机)があふれてしまいました。
だから今までのOCRは、100ページの本を1ページずつバラバラに処理するしかありませんでした。これでは表が途中で切れたり、前後のつながりがわからなくなったりします。
人間のマネをする「R-SWA」という発想
Unlimited OCRは、この問題を「R-SWA」という新しい仕組みで解決しました。
R-SWAは「Reference Sliding Window Attention」の略です。むずかしそうですが、考え方はシンプルです。
人間が書類を書き写すとき、今書いている部分の少し前までは覚えていますが、ずっと前の細かい内容は忘れていきますよね。この「ほどよく忘れる」という人間のクセをAIに取り入れました。
具体的には、AIが文字を1つ出力するたびに、元の画像全体と「直前の128文字」だけに注目します。
これにより、何ページ読んでもメモのサイズが一定のままになりました。メモがあふれないので、本1冊でも一気に読めるというわけです。
ちなみにこのAIは、3年前に話題になった「DeepSeek-OCR」をベースに、さらに進化させたものです。
性能はどれくらい?数字で見る実力
「無料なら性能はそこそこでは?」と思うかもしれません。ところが実力は本物です。
文書解析の有名なテスト「OmniDocBench(オムニドックベンチ)」で、総合93.92%という世界トップの成績を出しました。
おどろくのは、その効率の良さです。実際に動くパラメータ(AIの脳細胞のようなもの)はわずか約5億個。それで、数千億個もある巨大AIを上回ったのです。
ベースにしたDeepSeek-OCRと比べても、表の読み取り精度が約6ポイント向上しました。処理スピードも約13%速くなっています。
さらに大事なのが、ページが増えても処理時間がほとんど変わらない点です。従来は読むほど遅くなりましたが、その弱点を克服しました。
必要なパソコンの性能も控えめで、中くらいの性能のNVIDIA製GPU(画像処理が得意な部品)が1枚あれば動きます。
競合との比較|他のOCRとどう違う?
OCRの世界は今、競争がとても激しくなっています。Unlimited OCRの立ち位置を、ライバルと比べてみましょう。
- DeepSeek-OCR:今回のベースになったモデル。10倍に圧縮しても97%の精度を保つ実力派ですが、長い書類は苦手でした
- dots.ocr:軽くて速く、操作画面もあって使いやすいと評判のモデルです
- Mistral OCR:コストの安さが魅力ですが、日本語の精度には課題が残ります
- PaddleOCR-VL:同じBaidu製の小型モデル。こちらも高精度で人気があります
- Azure・Googleの商用OCR:精度は最高クラスですが、利用するたびに料金がかかります
Unlimited OCRの強みは、「無料」「長い書類が得意」「自分のパソコンで動く」の3つがそろっている点です。
とくに、データを外部に送らず手元で処理できるので、機密書類をあつかう場面で安心感があります。
日本のユーザー・企業にどう関係する?
「中国のAIだから自分には関係ない」と思うのは少しもったいないです。実は日本の現場にも大きく関わってきます。
たとえば、ある中小企業の経理担当者を想像してみてください。月末になると、数百枚の請求書を1枚ずつ目で確認し、金額をパソコンに打ち込んでいます。これはとても時間のかかる作業です。
日本では今、こうした作業を助ける「AI-OCRサービス」が広がっています。ただし商用サービスは、月100枚で月額1万円ほど、本格的なものだと月額10万円近くかかることもあります。
Unlimited OCRは無料です。エンジニアがいる会社なら、こうしたコストをぐっと抑えられる可能性があります。
活用シーンは経理だけではありません。図書館での古い資料のデジタル化、大量の契約書チェック、研究者による論文の整理などにも役立ちます。
一方で注意点もあります。日本語、とくに手書き文字の読み取りは、まだ商用サービスのほうが得意な場面もあります。日本の帳票に特化したAzureなどと、使い分けるのが現実的でしょう。
使うときに知っておきたいこと
無料で高性能とはいえ、だれでもすぐ使えるわけではありません。
このAIを動かすには、GPUを積んだパソコンと、ある程度のプログラミング知識が必要です。スマホアプリのように手軽ではありません。
また、AIの読み取りは100%完璧ではありません。重要な書類では、人間による最終チェックが欠かせません。
とはいえ、これだけの性能が無料で手に入る意味は大きいです。今後、これを組み込んだ使いやすいサービスが日本でも登場するかもしれません。
よくある質問(FAQ)
Q1. Unlimited OCRは本当に無料で使えますか?
はい。ライセンスはMITで、個人でも企業でも無料で使えます。APIキーの登録や回数制限もありません。モデルはHugging FaceやModelScopeという配布サイトで公開されています。
Q2. 日本語の書類も読み取れますか?
読み取れます。ただし手書きの日本語など、難しい文字では誤りが出ることもあります。重要な場面では商用サービスとの使い分けがおすすめです。
Q3. パソコンが苦手でも使えますか?
現時点では、ある程度の専門知識とGPU付きパソコンが必要です。今後、これを使った初心者向けサービスが出てくる可能性に期待しましょう。
Q4. どんな書類に向いていますか?
とくに、ページ数の多い長い書類(本・マニュアル・契約書など)に強いです。表が多い資料でも、つながりを保ったまま読み取れます。
Q5. なぜ中国企業が無料で公開するのですか?
技術を広く使ってもらい、開発者コミュニティの中心になることをねらっています。世界中の人に使われることで、自社AIの存在感を高める戦略と言われています。
まとめ
Unlimited OCRのポイントを振り返ります。
- Baiduが2026年6月に公開した、本1冊を一度に読めるAI OCR
- 「R-SWA」という新技術で、何ページ読んでもメモリが膨らまない
- 文書解析テストで93.92%の世界トップ成績を、少ないパラメータで達成
- MITライセンスで完全無料。商用利用もできる
- 日本でも経理や図書館などで、コスト削減につながる可能性がある
まずは「無料で本まるごと読めるAIが登場した」という変化を、頭の片隅に置いておきましょう。あなたの会社の書類仕事も、近いうちに大きく変わるかもしれません。

