mesh-llmとは？複数PCのGPUを束ねてAIを動かす方法

監修者伊東雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube

複数のPCにあるGPUを束ねて、1台では動かせない巨大AIモデルを分散実行できる無料ツール「mesh-llm」が登場
Rustベースのオープンソース（MITライセンス）で、macOS・Linux・Windowsに対応。GitHubスター数は約740
MoEモデルなら推論中のノード間通信がゼロ。Wi-Fi環境でも実用的な速度で動作する
OpenAI互換APIを搭載し、ChatGPTやClaudeの代わりにローカルAIをそのまま使える
競合のExo・Petalsとの違いや、日本での活用シーンも比較解説

「家に古いゲーミングPCが眠っている……」「会社のPCは高性能なのに、AIを動かすにはVRAMが足りない……」——そんな悩みを解決するツールが登場しました。

複数のPCからGPUパワーをかき集めて、1台では動かせないような巨大AIモデルをローカルで実行できるオープンソースツール「mesh-llm」。

その仕組みと使い方を、初心者にもわかりやすく解説します。

mesh-llmとは？——バラバラのPCを1つの巨大GPUに変えるツール

mesh-llmは、ネットワークでつながった複数のPCのGPU計算資源を束ねて、巨大なAIモデルを分散実行できるツールです。

Rust言語で書かれたオープンソースソフトウェアで、MITライセンスのもとGitHubで公開されています。

2026年4月時点でスター数は約740、フォーク数は82です。

たとえるなら、引っ越しのときに「1人では持てない大きなタンスを、友達3人で持ち上げる」ようなものです。

1台のPCでは動かせない巨大なAIモデルを、複数台のPCで力を合わせて動かします。

しかも、どの友達がどこを持つかは自動で決めてくれるのが特徴です。

開発者はMichael Neale氏。llama.cpp（ローカルでAIモデルを動かすための定番ライブラリ）をフォークして、分散推論に対応させた実装がベースになっています。

なぜmesh-llmが必要なのか？——ローカルAIの壁

2026年現在、ChatGPTやClaudeなどのクラウドAIは非常に優秀です。しかし「データを外部に送りたくない」「月額料金を払いたくない」「ネット環境がない場所で使いたい」といった理由で、AIをローカル（自分のPC）で動かしたいというニーズが急速に高まっています。

ところが、ここに大きな壁があります。

高性能なAIモデルは巨大で、動かすには大量のVRAM（GPUのメモリ）が必要なのです。

たとえば、Llama 3.3 70B（700億パラメータのモデル）を動かすには約43GBのVRAMが必要。

一般的なゲーミングPCのGPU（GeForce RTX 4070など）のVRAMは12GB程度なので、まったく足りません。

ここでmesh-llmの出番です。

VRAM 12GBのPCが4台あれば、合計48GB。

これなら70Bモデルも動かせます。

「1人では持てないけど、みんなで持てば運べる」——まさにそういう発想のツールです。

mesh-llmの仕組み——2つの分散戦略

mesh-llmの賢いところは、AIモデルの種類に応じて最適な分散方法を自動で選んでくれる点です。大きく分けて2つの戦略があります。

戦略1: パイプライン並列（通常のモデル向け）

Llama、Qwen、Gemmaなどの一般的な構造のモデルに使われます。

モデルを「層（レイヤー）」ごとに分割して、各PCが担当部分を処理します。

たとえるなら、工場の流れ作業です。

最初のPCが第1〜第10層を処理して、次のPCが第11〜第20層を処理して……と、バケツリレーのように結果を渡していきます。

各ノードに割り当てるレイヤー数は、VRAMの容量に比例して自動で決定されます。

最もVRAMが大きいPCが「コーディネーター」役を務め、全体の調整を行います。

ただし、PC間でデータの受け渡しが発生するため、高速なネットワーク（10Gbps推奨）があると快適です。

戦略2: エキスパート並列（MoEモデル向け）

DeepSeek V3やQwen3-MoEなどの「MoE（Mixture of Experts）モデル」に使われる戦略です。

MoEモデルとは、たとえるなら「専門家チーム」のようなAIです。

数学が得意な専門家、文章が得意な専門家、コードが得意な専門家……と複数の「エキスパート」がいて、質問内容に応じて適切な専門家が回答します。

mesh-llmはこのエキスパートを各PCに振り分けます。

各PCが自分の担当エキスパートだけで独立して推論を完結できるため、推論中のノード間通信がゼロになるのが最大の強みです。

つまり、Wi-Fi環境のような帯域が限られたネットワークでも、実用的な速度が出ます。

1Gbps環境でも十分に動作するとされています。

対応モデルとハードウェア要件

対応モデルの例

mesh-llmはGGUF形式のモデルに対応しており、カタログから選ぶだけで自動ダウンロード・配置してくれます。以下は一部の対応モデルです。

軽量（3GB以下）：Qwen3-4B（2.5GB）、Llama-3.2-3B（2.0GB）——1台でも動作可能
中量級（6〜20GB）：Qwen3-8B（5.0GB）、Gemma-3-12B（7.3GB）、Qwen3-32B（19.8GB）
重量級（40GB以上）：Llama-3.3-70B（43GB）、Qwen2.5-72B（47GB）——2〜4台で分散
超巨大（100GB以上）：Qwen3-235B-A22B（142GB）、Llama-3.1-405B（149GB）——5台以上推奨

さらに、マルチモーダル対応も充実しています。画像認識（Qwen3-VL、LLaVA）や音声認識（Whisper、Qwen2-Audio）のモデルも分散実行できます。

ハードウェア要件

対応GPUバックエンドはCUDA（NVIDIA）、ROCm（AMD）、Vulkan、Metal（Apple Silicon）と幅広く、CPUのみでの推論もサポートしています。つまり、GPUがないPCでも参加できるのです（ただし速度は大幅に低下します）。

ネットワークの要件として、パイプライン並列では10Gbps帯域幅が推奨されます。

エキスパート並列なら1Gbps（一般的な有線LAN）でも実用的です。

また、レイテンシ（遅延）が80ミリ秒を超えるノードは分散処理には参加できず、APIクライアントとしてのみ機能します。

mesh-llmの使い方——3ステップで始める

ステップ1: インストール

macOSの場合、ターミナルで1行のコマンドを実行するだけです。

約18MBのバンドルがダウンロードされます。

Linuxの場合はソースからビルドする必要があり、Rust、cmake、Node.js 24以上が必要です。

ステップ2: モデルを指定して起動

1台目のPCで mesh-llm serve --model Qwen3-32B のようにコマンドを実行します。

すると接続用のトークンが表示されるので、2台目のPCで mesh-llm serve --join <トークン> と入力すれば自動で接続されます。

どのPCがどのレイヤーを担当するかは、VRAMの量に応じて自動で最適化されます。

ステップ3: AIとチャット開始

すべてのノードにOpenAI互換APIが http://localhost:9337/v1 に立ち上がります。

つまり、ChatGPTのAPIを使うアプリやツールが、設定を変えるだけでそのままmesh-llmに接続できるのです。

Webコンソール（ポート3131）で接続状況やVRAM使用量をリアルタイムに監視できます。

想像してみてください。

自宅のリビングにあるゲーミングPC、書斎の作業用PC、そして古いノートPC。

この3台をWi-Fiでつなぐだけで、70Bパラメータのモデルがプライベートに動き出す。

月額料金ゼロ、データ漏洩リスクゼロです。

Exo・Petalsとの違いは？——分散推論ツール3種比較

「複数のPCでAIを分散実行するツールは他にもあるよね？」という疑問にお答えします。2026年4月時点の主要3ツールを比較します。

Exo

ExoはApple Silicon（Macシリーズ）に最適化された分散推論フレームワークです。

Mac Miniクラスターで671Bパラメータのモデルを動かした実績があります。

Macを複数台持っている方にはExoが相性抜群です。

ただし、Apple Silicon以外のGPU（NVIDIAやAMD）への対応は限定的で、ノード間のレイテンシが大きいとインタラクティブな利用が難しいという課題があります。

Petals

Petalsはインターネット越しにボランティアのGPUを集める、いわば「AIのBitTorrent」のような仕組みです。

世界中のユーザーがGPUを提供し、大陸をまたいだ分散推論が可能です。

ただし、見知らぬ人のGPUを経由するためプライバシーの懸念があり、ネットワーク遅延も大きくなりがちです。

3ツールの比較まとめ

mesh-llm：CUDA・ROCm・Vulkan・Metal対応でハードウェアの幅が最も広い。MoEエキスパート並列で通信ゼロの分散推論が可能。トークンベースのセキュアなメッシュ構成
Exo：Apple Silicon特化でMacユーザーには最適。671Bモデルの実績あり。NVIDIA/AMD対応は限定的
Petals：インターネット越しの大規模分散が強み。ボランティア参加型。プライバシーとレイテンシに課題

自宅やオフィスのLAN内で分散推論したいならmesh-llm、Macだけで完結するならExo、世界中のGPUを借りたいならPetals——という棲み分けです。

日本での活用シーン——こんなときに便利

中小企業のAI内製化

ある中小IT企業を想像してください。

社内には開発者が使っていたゲーミングPC（RTX 3070、8GB VRAM）が3台、退役したワークステーション（RTX A4000、16GB VRAM）が1台。

合計40GB以上のVRAMになります。

mesh-llmでこれらを束ねれば、Qwen3-32Bクラスのモデルをローカルで動かせます。

クラウドAIのAPI費用が月数万円かかっていたのが、電気代だけで済むようになるのです。

しかもデータが社外に出ないので、顧客情報を扱う業務にも安心して使えます。

大学の研究室

研究室にある学生のPCを束ねて、70Bパラメータクラスの大規模モデルで実験する——そんな使い方も可能です。

高価なクラウドGPU（NVIDIA A100やH100）を借りなくても、手元の機材で論文のための実験を回せます。

MITライセンスなので商用利用も研究利用も自由です。

個人開発者の趣味プロジェクト

「最新の巨大モデルを自分の手で試してみたい！」という好奇心を持つ方にもぴったりです。

友人同士でPCを持ち寄って「AIモデル実行会」を開くこともできます。

VPNやTailscaleを使えば、離れた場所のPC同士でもメッシュを組めます。

ただし、80ミリ秒のレイテンシ制限があるので、日本国内のPC同士くらいが実用的な範囲です。

よくある質問（FAQ）

Q. mesh-llmは無料ですか？

A. はい、完全無料です。

MITライセンスのオープンソースソフトウェアなので、個人利用も商用利用も自由にできます。

サブスクリプションや課金要素はありません。

Q. GPUがないPCでも参加できますか？

A. はい、CPUのみでも参加可能です。

ただし、GPU推論と比べると速度は大幅に低下します。

メッシュの中に1台でもGPU搭載PCがあれば、CPU-onlyのPCは「サポート役」として貢献できます。

Q. Wi-Fiでも使えますか？

A. MoEモデルならWi-Fiでも実用的です。

エキスパート並列では推論中のノード間通信がゼロになるため、帯域が限られた無線環境でも動作します。

一方、パイプライン並列（通常のモデル）ではノード間の通信が多いため、有線LANが推奨されます。

Q. セキュリティは大丈夫ですか？

A. mesh-llmには3つのモード——パブリック、名前付きメッシュ、トークンベース——があります。

業務利用や機密データを扱う場合は、トークンベースの設定が推奨されます。

招待トークンを持つ人だけがメッシュに参加でき、外部からのアクセスを遮断できます。

Q. 既存のAIツールとの互換性は？

A. OpenAI互換APIを搭載しているので、ChatGPTのAPIに対応したツールやアプリは設定変更だけでそのまま使えます。Claude CodeやGooseなどのAIエージェントとの連携もサポートされています。

まとめ

この記事のポイントを振り返りましょう。

mesh-llm：複数PCのGPUを束ねて巨大AIモデルを分散実行できる無料・オープンソースツール（MIT、Rust製）
2つの分散戦略：通常モデルにはパイプライン並列、MoEモデルにはエキスパート並列（通信ゼロ）を自動選択
幅広い対応：CUDA・ROCm・Vulkan・Metal・CPUに対応。Llama 405BクラスからQwen 4Bクラスまで多数のモデルをサポート
簡単セットアップ：インストールは1行、2台目の接続はトークン1つ。OpenAI互換APIで既存ツールとすぐ連携
競合との違い：Exo（Mac特化）やPetals（インターネット越し）に対し、mesh-llmはハードウェアの幅広さとMoE分散が強み
日本での活用：中小企業のAI内製化、大学研究室、個人開発者の趣味プロジェクトに最適

まずは手元のPC2台でmesh-llmをインストールし、Qwen3-8BやGemma-3-12Bあたりの中量級モデルで試してみるのがおすすめです。「バラバラのPCが1つのAI頭脳になる」体験は、ローカルAIの可能性を一気に広げてくれますよ。

参考文献

こんな時代だから遊んで学びたい

AIを学ぶオンラインサロン「AIフレンズ」では、生成AIを楽しく、どこよりも優しく学べる環境をご用意しております。

毎週開催されるオンラインセッションでは、リアルタイムで学び合える機会を提供しています。さらに、月に一度のオフラインイベントでは、メンバー同士が直接交流し、アイデアや知識を深めることができます。

「AIフレンズ」の仲間とともに、新しい価値を創造し、可能性を広げてみませんか？

一緒に学び、成長しながら、生成AIを使いこなす力を身につけましょう！

今すぐAIフレンズに参加して、未来への第一歩を踏み出そう！！

mesh-llmとは？複数PCのGPUを束ねてAIを動かす方法

mesh-llmとは？——バラバラのPCを1つの巨大GPUに変えるツール

なぜmesh-llmが必要なのか？——ローカルAIの壁