この記事でわかること
- GLM-OCRがどんなAIなのか、やさしくわかる
- たった9億パラメータで業界トップになれた理由
- 自分のパソコンで動かす方法
- 日本の企業がペーパーレス化に活用できるポイント
- ほかのOCR AIとの性能くらべ
「紙の書類をデジタルデータに変えたいけど、手作業だと大変……」そんなお悩みを持つ方に朗報です。中国のAI企業Z.ai(旧・智譜AI)が、業界最高水準の文字認識AI「GLM-OCR」を無料で公開しました。しかも、一般的なパソコンでも動くほど軽いモデルなんです。
GLM-OCRってなに?ざっくり解説
GLM-OCRは、OCR(文字を読み取る技術)に特化したAIモデルです。写真や書類のスキャン画像から、文字を自動で読み取ってデジタルテキストに変換します。
開発したのは中国のZ.ai(旧名:智譜AI)という会社です。2019年に清華大学から生まれた新興企業で、これまでにも「GLM」シリーズのAIモデルを数多くリリースしてきました。
つまり、GLM-OCRは「AIのプロ集団」が文書読み取りに全力を注いで作った専門モデルというわけです。しかもMITライセンスで公開されているので、個人でも企業でも無料で自由に使えます。
たった9億パラメータなのに業界トップの実力
AIの世界では「パラメータ数が多いほど賢い」と思われがちです。たとえば、GPT-4は数千億〜数兆のパラメータを持つと言われています。
ところがGLM-OCRは、わずか9億(0.9B)パラメータしかありません。それなのに、文書理解の標準テスト「OmniDocBench V1.5」で94.62点を獲得し、第1位に輝きました。
たとえるなら、軽自動車がF1マシンより速くゴールしたようなものです。なぜこんなことが可能なのでしょうか?
秘密は3つの技術にあり
- CogViT(画像を理解する目):大量の画像とテキストのペアで事前学習した「視覚エンコーダー」が、書類の中身を正確に見分けます。
- MTP Loss(一度にたくさん予測する学習法):通常のAIは1文字ずつ予測しますが、GLM-OCRは複数の文字をまとめて予測する方法で学習効率を高めています。
- 強化学習:AIに「正解に近いほどごほうびをあげる」トレーニングを行い、認識精度をさらに高めました。
どんな文書もおまかせ!GLM-OCRの得意技
GLM-OCRは、ただ文字を読むだけのAIではありません。以下のような「従来のOCRが苦手だった場面」でも高い精度を発揮します。
- 複雑な表(セル結合あり):Excelのように複雑な表も、構造をくずさず読み取れます
- 数式・化学式:数学の教科書に出てくるような分数や記号もバッチリです(数式認識で96.5%の精度)
- 手書き文字:きれいな活字だけでなく、手書きのメモや伝票にも対応します
- 印鑑・スタンプ:日本の書類でよく見る角印や丸印も認識できます
- コードが多い文書:プログラミングのコードが含まれる技術文書も正確に読み取ります
- 多言語の領収書:英語や中国語など、複数の言語が混じった書類にも対応します
ちなみに、出力形式はHTMLやJSONに対応しています。つまり、読み取った内容をそのままWebページやデータベースに取り込めるのです。
自分のパソコンで動かせる?導入方法を紹介
GLM-OCRの最大の魅力は、ローカル環境(自分のパソコン)で動かせることです。クラウドにデータを送る必要がないので、機密文書を扱う場面でも安心です。
対応フレームワーク
GLM-OCRは以下の主要なフレームワークで動かすことができます。
- Ollama:もっとも手軽な方法。コマンド1行でインストール・実行できます
- vLLM:高速推論に特化したフレームワーク
- SGLang:効率的なバッチ処理が得意
たとえばOllamaを使う場合、ターミナルで次のコマンドを実行するだけです。
ollama run glm-ocr
Hugging Faceの「zai-org/GLM-OCR」リポジトリからモデルをダウンロードすることもできます。専用のSDK(開発キット)も用意されているので、自社のシステムに組み込むのも比較的かんたんです。
処理速度はどれくらい?
- PDFファイル:1秒あたり1.86ページ
- 画像ファイル:1秒あたり0.67ページ
100ページのPDF書類なら、約54秒で全ページの文字を読み取れる計算です。手作業では何時間もかかる作業が1分以内に終わります。
日本の企業にうれしいポイント
日本では「ペーパーレス化」「文書DX(デジタル変革)」が大きな課題になっています。AI-OCR市場も急速に拡大しており、多くの企業が紙の帳票をデジタル化するソリューションを探しています。
GLM-OCRが日本企業にとって魅力的な理由は次のとおりです。
- コストゼロ:オープンソース(MIT License)なので、ライセンス費用がかかりません
- データの安全性:ローカルで動くため、機密書類を外部サーバーに送る必要がありません
- 印鑑にも対応:日本特有の角印・丸印も認識可能です
- 表の構造を保持:複雑な帳票も、レイアウトを崩さずにデータ化できます
- 軽量で高速:高額なGPUサーバーを用意しなくても動作します
たとえば、経理部門で山積みの請求書を処理するとき、GLM-OCRを使えばスキャンした画像から金額や日付を自動で読み取れます。RPAツールと組み合わせれば、データ入力から会計ソフトへの転記まで全自動化することも可能です。
ほかのOCR AIとくらべてみた
GLM-OCRがどれくらいすごいのか、ほかのモデルと比較してみましょう。
| モデル名 | パラメータ数 | OmniDocBench V1.5 | ライセンス | ローカル実行 |
|---|---|---|---|---|
| GLM-OCR | 9億 | 94.62 | MIT(無料) | 可能 |
| Gemini 3 Pro | 非公開(大規模) | 高スコア | 商用API | 不可 |
| GPT-5.1 | 非公開(大規模) | 高スコア | 商用API | 不可 |
Gemini 3 ProやGPT-5.1は非常に高性能ですが、APIを通じて利用する商用サービスです。利用するたびに料金がかかり、データをクラウドに送る必要があります。
一方、GLM-OCRは完全無料で、自分のパソコンで動かせるというのが最大の違いです。パラメータ数が圧倒的に少ないのに、OCR専用の評価では大規模モデルに匹敵する精度を出しています。
まとめ
GLM-OCRについて、ポイントをおさらいしましょう。
- Z.aiが開発した、わずか9億パラメータの軽量OCR AI
- OmniDocBench V1.5で94.62点の業界最高スコアを記録
- 複雑な表・数式・手書き・印鑑など幅広い文書に対応
- Ollama・vLLM・SGLangでローカル実行が可能
- MITライセンスで誰でも無料で利用できる
- 日本企業のペーパーレス化・文書DXに大きく貢献する可能性
「高性能なOCRを使いたいけどコストが心配」「機密文書だからクラウドに送りたくない」という方にとって、GLM-OCRはまさにピッタリの選択肢です。オープンソースで公開されているので、まずはOllamaで試してみてはいかがでしょうか。
