GLM-OCRとは？9億パラメータで最高精度の無料OCR AI

監修者伊東雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

この記事でわかること

GLM-OCRがどんなAIなのか、やさしくわかる
たった9億パラメータで業界トップになれた理由
自分のパソコンで動かす方法
日本の企業がペーパーレス化に活用できるポイント
ほかのOCR AIとの性能くらべ

「紙の書類をデジタルデータに変えたいけど、手作業だと大変……」そんなお悩みを持つ方に朗報です。中国のAI企業Z.ai（旧・智譜AI）が、業界最高水準の文字認識AI「GLM-OCR」を無料で公開しました。しかも、一般的なパソコンでも動くほど軽いモデルなんです。

GLM-OCRってなに？ざっくり解説

GLM-OCRは、OCR（文字を読み取る技術）に特化したAIモデルです。写真や書類しょるいのスキャン画像から、文字を自動で読み取ってデジタルテキストに変換します。

開発したのは中国のZ.ai（旧名：智譜AI）という会社です。2019年に清華大学から生まれた新興企業しんこうきぎょうで、これまでにも「GLM」シリーズのAIモデルを数多くリリースしてきました。

つまり、GLM-OCRは「AIのプロ集団」が文書読み取りに全力を注いで作った専門モデルというわけです。しかもMITライセンスで公開されているので、個人でも企業でも無料で自由に使えます。

たった9億パラメータなのに業界トップの実力

AIの世界では「パラメータ数が多いほど賢い」と思われがちです。たとえば、GPT-4は数千億〜数兆のパラメータを持つと言われています。

ところがGLM-OCRは、わずか9億（0.9B）パラメータしかありません。それなのに、文書理解の標準テスト「OmniDocBench V1.5」で94.62点を獲得し、第1位に輝きました。

たとえるなら、軽自動車がF1マシンより速くゴールしたようなものです。なぜこんなことが可能なのでしょうか？

秘密は3つの技術にあり

CogViT（画像を理解する目）：大量の画像とテキストのペアで事前学習した「視覚エンコーダー」が、書類の中身を正確に見分けます。
MTP Loss（一度にたくさん予測する学習法）：通常のAIは1文字ずつ予測しますが、GLM-OCRは複数の文字をまとめて予測する方法で学習効率を高めています。
強化学習きょうかがくしゅう：AIに「正解に近いほどごほうびをあげる」トレーニングを行い、認識精度をさらに高めました。

どんな文書もおまかせ！GLM-OCRの得意技

GLM-OCRは、ただ文字を読むだけのAIではありません。以下のような「従来のOCRが苦手だった場面」でも高い精度を発揮します。

複雑な表（セル結合あり）：Excelのように複雑な表も、構造をくずさず読み取れます
数式・化学式：数学の教科書に出てくるような分数や記号もバッチリです（数式認識で96.5%の精度）
手書き文字：きれいな活字だけでなく、手書きのメモや伝票にも対応します
印鑑・スタンプ：日本の書類でよく見る角印や丸印も認識できます
コードが多い文書：プログラミングのコードが含まれる技術文書も正確に読み取ります
多言語の領収書りょうしゅうしょ：英語や中国語など、複数の言語が混じった書類にも対応します

ちなみに、出力形式はHTMLやJSONに対応しています。つまり、読み取った内容をそのままWebページやデータベースに取り込めるのです。

自分のパソコンで動かせる？導入方法を紹介

GLM-OCRの最大の魅力は、ローカル環境（自分のパソコン）で動かせることです。クラウドにデータを送る必要がないので、機密文書を扱う場面でも安心です。

対応フレームワーク

GLM-OCRは以下の主要なフレームワークで動かすことができます。

Ollama：もっとも手軽な方法。コマンド1行でインストール・実行できます
vLLM：高速推論に特化したフレームワーク
SGLang：効率的なバッチ処理が得意

たとえばOllamaを使う場合、ターミナルで次のコマンドを実行するだけです。

ollama run glm-ocr

Hugging Faceの「zai-org/GLM-OCR」リポジトリからモデルをダウンロードすることもできます。専用のSDK（開発キット）も用意されているので、自社のシステムに組み込むのも比較的ひかくてきかんたんです。

処理速度はどれくらい？

PDFファイル：1秒あたり1.86ページ
画像ファイル：1秒あたり0.67ページ

100ページのPDF書類なら、約54秒で全ページの文字を読み取れる計算です。手作業では何時間もかかる作業が1分以内に終わります。

日本の企業にうれしいポイント

日本では「ペーパーレス化」「文書DX（デジタル変革へんかく）」が大きな課題になっています。AI-OCR市場も急速に拡大しており、多くの企業が紙の帳票をデジタル化するソリューションを探しています。

GLM-OCRが日本企業にとって魅力的な理由は次のとおりです。

コストゼロ：オープンソース（MIT License）なので、ライセンス費用がかかりません
データの安全性：ローカルで動くため、機密書類を外部サーバーに送る必要がありません
印鑑にも対応：日本特有の角印・丸印も認識可能です
表の構造を保持：複雑な帳票も、レイアウトを崩さずにデータ化できます
軽量で高速：高額なGPUサーバーを用意しなくても動作します

たとえば、経理部門で山積みの請求書せいきゅうしょを処理するとき、GLM-OCRを使えばスキャンした画像から金額や日付を自動で読み取れます。RPAツールと組み合わせれば、データ入力から会計ソフトへの転記まで全自動化することも可能です。

ほかのOCR AIとくらべてみた

GLM-OCRがどれくらいすごいのか、ほかのモデルと比較してみましょう。

モデル名	パラメータ数	OmniDocBench V1.5	ライセンス	ローカル実行
GLM-OCR	9億	94.62	MIT（無料）	可能
Gemini 3 Pro	非公開（大規模）	高スコア	商用API	不可
GPT-5.1	非公開（大規模）	高スコア	商用API	不可

Gemini 3 ProやGPT-5.1は非常に高性能ですが、APIを通じて利用する商用しょうようサービスです。利用するたびに料金がかかり、データをクラウドに送る必要があります。

一方、GLM-OCRは完全無料で、自分のパソコンで動かせるというのが最大の違いです。パラメータ数が圧倒的に少ないのに、OCR専用の評価では大規模モデルに匹敵ひってきする精度を出しています。

まとめ

GLM-OCRについて、ポイントをおさらいしましょう。

Z.aiが開発した、わずか9億パラメータの軽量OCR AI
OmniDocBench V1.5で94.62点の業界最高スコアを記録
複雑な表・数式・手書き・印鑑など幅広い文書に対応
Ollama・vLLM・SGLangでローカル実行が可能
MITライセンスで誰でも無料で利用できる
日本企業のペーパーレス化・文書DXに大きく貢献する可能性

「高性能なOCRを使いたいけどコストが心配」「機密文書だからクラウドに送りたくない」という方にとって、GLM-OCRはまさにピッタリの選択肢です。オープンソースで公開されているので、まずはOllamaで試してみてはいかがでしょうか。

参考文献

こんな時代だから遊んで学びたい

AIを学ぶオンラインサロン「AIフレンズ」では、生成AIを楽しく、どこよりも優しく学べる環境をご用意しております。

毎週開催されるオンラインセッションでは、リアルタイムで学び合える機会を提供しています。さらに、月に一度のオフラインイベントでは、メンバー同士が直接交流し、アイデアや知識を深めることができます。

「AIフレンズ」の仲間とともに、新しい価値を創造し、可能性を広げてみませんか？

一緒に学び、成長しながら、生成AIを使いこなす力を身につけましょう！

今すぐAIフレンズに参加して、未来への第一歩を踏み出そう！！

4 COMMENTS

SpinBit 2026-02-10

[8776]SpinBit Philippines: Easy Login & Register for Top Casino Slots, Sign Up Bonus & App Download Join SpinBit Philippines today! Experience easy SpinBit login & register to play the best SpinBit casino slots. Claim your exclusive SpinBit sign up bonus and try our SpinBit app download for top-tier mobile gaming. visit: SpinBit