GLM-OCRとは?9億パラメータで最高精度の無料OCR AI

伊東雄歩
監修者 伊東 雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube

この記事でわかること

  • GLM-OCRがどんなAIなのか、やさしくわかる
  • たった9億パラメータで業界トップになれた理由
  • 自分のパソコンで動かす方法
  • 日本の企業がペーパーレス化に活用できるポイント
  • ほかのOCR AIとの性能くらべ

「紙の書類をデジタルデータに変えたいけど、手作業だと大変……」そんなお悩みを持つ方に朗報です。中国のAI企業Z.ai(旧・智譜AI)が、業界最高水準の文字認識AI「GLM-OCR」を無料で公開しました。しかも、一般的なパソコンでも動くほど軽いモデルなんです。

GLM-OCRってなに?ざっくり解説

GLM-OCRは、OCR(文字を読み取る技術)に特化したAIモデルです。写真や書類しょるいのスキャン画像から、文字を自動で読み取ってデジタルテキストに変換します。

開発したのは中国のZ.ai(旧名:智譜AI)という会社です。2019年に清華大学から生まれた新興企業しんこうきぎょうで、これまでにも「GLM」シリーズのAIモデルを数多くリリースしてきました。

つまり、GLM-OCRは「AIのプロ集団」が文書読み取りに全力を注いで作った専門モデルというわけです。しかもMITライセンスで公開されているので、個人でも企業でも無料で自由に使えます。

たった9億パラメータなのに業界トップの実力

AIの世界では「パラメータ数が多いほど賢い」と思われがちです。たとえば、GPT-4は数千億〜数兆のパラメータを持つと言われています。

ところがGLM-OCRは、わずか9億(0.9B)パラメータしかありません。それなのに、文書理解の標準テスト「OmniDocBench V1.5」94.62点を獲得し、第1位に輝きました。

たとえるなら、軽自動車がF1マシンより速くゴールしたようなものです。なぜこんなことが可能なのでしょうか?

秘密は3つの技術にあり

  1. CogViT(画像を理解する目):大量の画像とテキストのペアで事前学習した「視覚エンコーダー」が、書類の中身を正確に見分けます。
  2. MTP Loss(一度にたくさん予測する学習法):通常のAIは1文字ずつ予測しますが、GLM-OCRは複数の文字をまとめて予測する方法で学習効率を高めています。
  3. 強化学習きょうかがくしゅう:AIに「正解に近いほどごほうびをあげる」トレーニングを行い、認識精度をさらに高めました。

どんな文書もおまかせ!GLM-OCRの得意技

GLM-OCRは、ただ文字を読むだけのAIではありません。以下のような「従来のOCRが苦手だった場面」でも高い精度を発揮します。

  • 複雑な表(セル結合あり):Excelのように複雑な表も、構造をくずさず読み取れます
  • 数式・化学式:数学の教科書に出てくるような分数や記号もバッチリです(数式認識で96.5%の精度)
  • 手書き文字:きれいな活字だけでなく、手書きのメモや伝票にも対応します
  • 印鑑・スタンプ:日本の書類でよく見る角印や丸印も認識できます
  • コードが多い文書:プログラミングのコードが含まれる技術文書も正確に読み取ります
  • 多言語の領収書りょうしゅうしょ:英語や中国語など、複数の言語が混じった書類にも対応します

ちなみに、出力形式はHTMLやJSONに対応しています。つまり、読み取った内容をそのままWebページやデータベースに取り込めるのです。

自分のパソコンで動かせる?導入方法を紹介

GLM-OCRの最大の魅力は、ローカル環境(自分のパソコン)で動かせることです。クラウドにデータを送る必要がないので、機密文書を扱う場面でも安心です。

対応フレームワーク

GLM-OCRは以下の主要なフレームワークで動かすことができます。

  • Ollama:もっとも手軽な方法。コマンド1行でインストール・実行できます
  • vLLM:高速推論に特化したフレームワーク
  • SGLang:効率的なバッチ処理が得意

たとえばOllamaを使う場合、ターミナルで次のコマンドを実行するだけです。

ollama run glm-ocr

Hugging Faceの「zai-org/GLM-OCR」リポジトリからモデルをダウンロードすることもできます。専用のSDK(開発キット)も用意されているので、自社のシステムに組み込むのも比較的ひかくてきかんたんです。

処理速度はどれくらい?

  • PDFファイル:1秒あたり1.86ページ
  • 画像ファイル:1秒あたり0.67ページ

100ページのPDF書類なら、約54秒で全ページの文字を読み取れる計算です。手作業では何時間もかかる作業が1分以内に終わります。

日本の企業にうれしいポイント

日本では「ペーパーレス化」「文書DX(デジタル変革へんかく)」が大きな課題になっています。AI-OCR市場も急速に拡大しており、多くの企業が紙の帳票をデジタル化するソリューションを探しています。

GLM-OCRが日本企業にとって魅力的な理由は次のとおりです。

  • コストゼロ:オープンソース(MIT License)なので、ライセンス費用がかかりません
  • データの安全性:ローカルで動くため、機密書類を外部サーバーに送る必要がありません
  • 印鑑にも対応:日本特有の角印・丸印も認識可能です
  • 表の構造を保持:複雑な帳票も、レイアウトを崩さずにデータ化できます
  • 軽量で高速:高額なGPUサーバーを用意しなくても動作します

たとえば、経理部門で山積みの請求書せいきゅうしょを処理するとき、GLM-OCRを使えばスキャンした画像から金額や日付を自動で読み取れます。RPAツールと組み合わせれば、データ入力から会計ソフトへの転記まで全自動化することも可能です。

ほかのOCR AIとくらべてみた

GLM-OCRがどれくらいすごいのか、ほかのモデルと比較してみましょう。

モデル名パラメータ数OmniDocBench V1.5ライセンスローカル実行
GLM-OCR9億94.62MIT(無料)可能
Gemini 3 Pro非公開(大規模)高スコア商用API不可
GPT-5.1非公開(大規模)高スコア商用API不可

Gemini 3 ProやGPT-5.1は非常に高性能ですが、APIを通じて利用する商用しょうようサービスです。利用するたびに料金がかかり、データをクラウドに送る必要があります。

一方、GLM-OCRは完全無料で、自分のパソコンで動かせるというのが最大の違いです。パラメータ数が圧倒的に少ないのに、OCR専用の評価では大規模モデルに匹敵ひってきする精度を出しています。

まとめ

GLM-OCRについて、ポイントをおさらいしましょう。

  • Z.aiが開発した、わずか9億パラメータの軽量OCR AI
  • OmniDocBench V1.5で94.62点の業界最高スコアを記録
  • 複雑な表・数式・手書き・印鑑など幅広い文書に対応
  • Ollama・vLLM・SGLangでローカル実行が可能
  • MITライセンスで誰でも無料で利用できる
  • 日本企業のペーパーレス化・文書DXに大きく貢献する可能性

「高性能なOCRを使いたいけどコストが心配」「機密文書だからクラウドに送りたくない」という方にとって、GLM-OCRはまさにピッタリの選択肢です。オープンソースで公開されているので、まずはOllamaで試してみてはいかがでしょうか。

参考文献

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です