MLX Studioとは何ですか？

MLX Studio is a free macOS app for AI chat and agentic coding, powered by vMLX Engine. It is the only local AI app on Mac with a full 5-layer caching stack (prefix cache, paged KV, KV quantization q4/q8, continuous batching, persistent disk cache), hybrid SSM/Mamba architecture support, and 20+ built-in agentic tools via MCP. No competing app — not oMLX, not LM Studio, not Inferencer — combines all of these capabilities.

How is MLX Studio better than oMLX?

oMLX has SSD caching, continuous batching, prefix caching, tool calling, and a Responses API (added March 2025). But MLX Studio has KV cache quantization (q4/q8) saving 2-8x cache memory, hybrid SSM/Mamba support for Nemotron-H and Jamba models, 20+ built-in agentic coding tools (file I/O, shell, web search, git, browser automation), 14 auto-detected tool call parsers, 4 reasoning parsers with collapsible UI, speculative decoding, and audio TTS/STT — none of which oMLX offers. oMLX added VLM support but without KV quantization. MLX Studio's engine is strictly more capable.

How is MLX Studio better than LM Studio?

MLX Studio is 224x faster than LM Studio at 100K context (154,121 vs 686 tokens/sec). LM Studio uses llama.cpp with basic token caching but has no KV cache quantization, no persistent disk cache, no prefix caching for instant TTFT, and no built-in agentic tools. MLX Studio also has 14 tool call parsers, 4 reasoning parsers, hybrid SSM/Mamba support, and both Responses and Chat Completions APIs — LM Studio has none of these.

How is MLX Studio better than Inferencer?

Inferencer is a freemium app focused on token inspection. It has no caching stack (no prefix cache, no KV quantization, no disk cache, no continuous batching), no agentic coding tools, no tool call parsers, no reasoning parsers, no Responses API, no hybrid SSM/Mamba support, and no speculative decoding. MLX Studio is free and has all of these features.

MLX StudioとvMLX Engineの違いは何ですか？

MLX Studio is the app — the chat UI, agentic tools, model browser, and settings interface you interact with. vMLX Engine is the inference backend that powers it — the caching, batching, model loading, and API layer. Think of it like LM Studio and llama.cpp, except vMLX Engine is 224x faster.

インターネットは必要ですか？

モデルの初回ダウンロード時のみ必要です。すべての推論はクラウド接続なし、APIキーなし、データ流出なしでMac上でローカル実行されます。 Unlike LM Studio and Inferencer which have cloud/subscription tiers, MLX Studio is completely free with no cloud dependency.

どのMacが必要ですか？

macOS 26（Tahoe）を実行するApple Silicon（M1以降）搭載のMacが必要です。最低8 GB RAM、16 GB以上推奨。リモートエンドポイントはmacOS 14以降で動作します。 MLX Studio is purpose-built for Apple Silicon unified memory using MLX, not llama.cpp like LM Studio or Ollama.

クラウドAPIも使えますか？

Yes. Connect to OpenAI, Anthropic, Groq, or any OpenAI-compatible endpoint. Studio's 20+ agentic tools work with both local and remote models — a capability no other local AI app offers.

MLX Studio — Macでチャット、コーディング、画像生成

Name: MLX Studio
Availability: InStock
Author: MLX Studio

20+

エージェントツール

224×

100Kコンテキストで高速

50+

モデルアーキテクチャ

11

APIエンドポイント

機能

必要なものすべて。クラウド不要。

どんなモデルでもチャットし、Fluxで画像を生成し、20以上のエージェンティックツールでコーディングし、AnthropicまたはOpenAI APIを使用し、フォーマット間でモデルを変換 — すべてMacでローカル実行。APIキー不要、サブスクリプション不要、データ流出なし。シンプルなチャットアプリを求める初心者にも、KVキャッシュ量子化、プレフィックスキャッシュ、投機的デコーディング、14のツールパーサーを備えた完全な推論スタックが必要な上級ユーザーにも対応。

ストリーミングチャットUI

マルチターンストリーミング会話、インラインツール呼び出し表示、折りたたみ可能な推論ブロック、画像プレビュー、リアルタイムステータス表示。すべてのディテールが明確さのために設計されています。

画像生成 & 編集

ローカルで画像を生成・編集。5つの生成モデル（Flux Schnell、Dev、Klein）+ 4つの編集モデル（Qwen Image Edit、Flux Kontext、Flux Fill）。クラウド不要、APIキー不要。

音声チャット

すべての応答に内蔵テキスト音声変換。Mac ネイティブ音声合成を使用してハンズフリーでAI出力を聴けます。

ビジョン＆マルチモーダル

画像をチャットにドラッグ＆ドロップ。Qwen VLなどのビジョンモデルがローカルで視覚コンテンツを分析し、クリックで拡大できます。

推論ブロック

DeepSeek R1、Qwen 3、GLMなどのモデル用の折りたたみ可能な思考セクション。モデルの思考プロセスを確認できます。

Anthropic + OpenAI API

ネイティブAnthropic Messages APIエンドポイントとOpenAI ChatおよびResponses API。Claude Code、Anthropic SDK、または互換クライアントを使用できます。リモートエンドポイントにも接続可能。

モデル変換機

標準プロファイル（Balanced 4-bit、Quality 8-bit、Compact 3-bit）とJANG混合精度プロファイル（2S〜6M）を備えた内蔵GGUF-to-MLX変換機。コマンドラインなしであらゆるモデルを変換できます。

HuggingFaceブラウザ

アプリ内で直接MLXモデルを検索、閲覧、ダウンロード。ワンクリックで任意のモデルとチャットを開始できます。

5層キャッシングスタック

プリフィックスキャッシュ、ページドマルチコンテキストKV、KV量子化（q4/q8）、連続バッチング（256シーケンス）、永続ディスクキャッシュ。この5つすべてを組み合わせたローカルアプリは他にありません。

投機的デコーディング

設定可能なドラフトモデルで20–90%高速な生成。大規模モデルがドラフトトークンを並列で検証 — 同じ品質、少ないGPUパス。

50+アーキテクチャ＆14パーサー

Llama、Qwen、DeepSeek、Gemma、Mistral、Phi、GLM、Nemotron、MiniMax、Jambaなどを自動検出。14のツール呼び出しパーサー、4つの推論パーサー — 手動設定不要。

CLI: pip install vmlx

オープンソースエンジン。pip install vmlxの後にvmlx serve modelで実行。ターミナルから変換、ベンチマーク、診断。Apache 2.0。

MCPネイティブサポート

内蔵MCP（Model Context Protocol）サーバー。20以上の内蔵ツールと共に外部MCPツールを接続。最大10回の反復までエージェントループを自動継続。

ハイブリッドSSM＆Mamba

Nemotron-H、Jamba、GatedDeltaNetアーキテクチャ用の専用BatchMambaCache。ハイブリッドアテンション+SSMモデルを正しく実行する唯一のローカルアプリ。

エージェントツール

20以上の内蔵ツール。設定不要。

ネイティブMCPツール呼び出しを備えた唯一のローカルAIアプリ。モデルが読み取り、書き込み、検索、実行できます — すべてローカルで実行。oMLX、LM Studio、Inferencerには内蔵エージェントツールがありません。

MLX Studio — Agentic Tools

MLX Studio agentic coding tools interface showing file I/O, code search, shell execution, web search, git integration, and clipboard tools

ファイルI/O

read_file write_file edit_file list_dir copy move delete

コード検索

grep glob

Shell

execute_command

ウェブ検索

duckduckgo_search brave_search

URL Fetch

fetch_url

Git

git_status git_diff git_log git_show

ユーティリティ

clipboard_read clipboard_write current_datetime

画像生成 & 編集

Macでローカルに画像を生成・編集

5つの画像生成モデル（Flux Schnell、Dev、Z-Image Turbo、Klein 4B、Klein 9B）と4つの画像編集モデル（Qwen Image Edit、Flux Kontext、Flux Fill、Flux Klein Edit）。写真とテキストプロンプトでインペイント、変換、スタイル変更が可能。モデルは自動ダウンロード。クラウドAPI不要、サブスクリプション不要 — Apple Siliconで完全にローカル実行。

MLX Studio — 画像生成 & 編集

チャット

推論＆ビジョン付きストリーミングチャット

折りたたみ可能な推論ブロック、インラインコードハイライト、画像プレビュー、リアルタイムトークンストリーミングを備えたマルチターン会話。ビジョンモデル用の画像ドラッグ＆ドロップ。チャットごとのtemperature、top-p、システムプロンプト、最大トークン設定。チャット履歴はSQLiteに保存されます。

MLX Studio — Chat

モデル

ワンクリックでモデルを閲覧＆ダウンロード

内蔵HuggingFaceモデルブラウザ。MLXモデルを検索し、テキストまたは画像でフィルタリングし、サイズとアーキテクチャを確認し、ワンクリックでダウンロード。

MLX Studio — Model Browser

常にアクセス可能

メニューバーコントロール

リアルタイムサーバーステータス、クイックモデル切り替え、セッションコントロール — メニューバーから常にワンクリックでアクセス可能。

基盤エンジン · オープンソース

vMLX Engine

github.com/jjang-ai/vmlxでオープンソースとして公開 — pip install vmlxでインストール。Macで5層キャッシングスタックを備えた唯一のローカルAIエンジン：プリフィックスキャッシュ、ページドKV、KV量子化（q4/q8）、連続バッチング、永続ディスクキャッシュ。Anthropic Messages APIとOpenAI互換エンドポイントの両方を提供 — Claude Code、Anthropic SDK、または互換クライアントを使用。50+アーキテクチャ、14ツールパーサー、4推論パーサー、Mamba/SSMハイブリッド、投機的デコーディング。

2.5K context

vMLX 0.05s

Others 0.49s

9.7× faster

最初のトークンまでの時間

10K context

vMLX 0.08s

Others 6.12s

76× faster

最初のトークンまでの時間

100K context

vMLX 0.65s

Others 131s

224× faster

コールドプロンプト処理

✓ プリフィックスキャッシング — 会話の繰り返し部分は一度だけ計算し再利用します

✓ ページドKVキャッシュ — すべてのチャットがメモリに保持され、切り替え時に削除されません

✓ キャッシュ量子化 — q4/q8でキャッシュメモリを4–8倍削減し、より長いコンテキストを可能にします

✓ 連続バッチング — 最大256の同時シーケンスを効率的に処理します

✓ ディスクキャッシュ — プロンプト計算がアプリ再起動後も保持され、即座にウォームスタートできます

✓ Apple Siliconネイティブ — llama.cppではなくMLX上に構築、ユニファイドメモリに最適化

APIリファレンス — Anthropic + OpenAI エンドポイント

MLX Studio — API Reference

モデルコンバーター — GGUF-to-MLX & JANGプロファイル

MLX Studio — Model Converter

MLX Studio GGUF-to-MLX model converter with standard and JANG quantization profiles

FAQ

よくある質問

MLX Studioは、AIチャットとエージェンティックコーディングのための無料macOSアプリです。Macでネイティブプリフィックスキャッシング、ページドKVキャッシュ、KV量子化、連続バッチング、ハイブリッドSSMサポート、完全なVLM統合を備えた唯一のローカルAIアプリです。ファイル編集、コード検索、シェル実行、ウェブ検索など20以上の内蔵ツールを含み — すべてApple Siliconでローカル実行されるvMLX Engineで駆動されます。

MLX Studioはアプリです — チャットUI、エージェントツール、モデルブラウザ、設定インターフェースです。vMLX Engineはそれを駆動する推論バックエンド — キャッシング、バッチング、モデルロード、APIレイヤーです。LM Studioとllama.cppの関係と同じと考えてください。

モデルの初回ダウンロード時のみ必要です。すべての推論はクラウド接続なし、APIキーなし、データ流出なしでMac上でローカル実行されます。

macOS 26（Tahoe）を実行するApple Silicon（M1以降）搭載のMacが必要です。最低8 GB RAM、16 GB以上推奨。リモートエンドポイントはmacOS 14以降で動作します。

はい。OpenAI、Anthropic、Groq、またはOpenAI互換エンドポイントに接続できます。Studioのエージェントツールはローカルとリモートの両方のモデルで動作します。

7カテゴリにわたる20以上のツール：ファイルI/O（読み取り、書き込み、編集、コピー、移動、削除）、コード検索（grep、glob）、シェル実行、ウェブ検索（DuckDuckGo、Brave）、URLフェッチ、git（status、diff、log）、ユーティリティ（クリップボード、日時）。

はい。すべての応答にTTS再生ボタンがあります。Qwen VLなどのビジョンモデルは、インラインプレビュー付きのドラッグ＆ドロップで画像入力を受け付けます。

はい。完全無料で、コード署名および公証済みです。サブスクリプションなし、使用制限なし。

MLXのためのGGUF · オープンソース

JANG — あらゆるサイズでより高い品質

GGUFがllama.cppにK-quantsを提供しました。JANGはMLXに同じことをします — アテンションレイヤーを保護するスマートビット割り当て。 On Qwen3.5-122B at ~2 bits: 94% MMLU (JANG_4K, 69 GB) vs 90% for MLX 4-bit (64 GB). At 2 bits: 84% MMLU (38 GB) vs 46% for MLX mixed_2_6 (44 GB).

JANG_4K JANG_2S · 122B · 2.11bmiddot; 122B JANG_2S · 122B · 2.11bmiddot; 3.99b
94% MMLU 84% MMLU · 38 GBmiddot; 69 GB
+4 points vs MLX 4-bit (64 GB, 90%)
MLX 4-bit MLX mixed_2_6 · ~2.5bmiddot; 4.0b
90% MMLU 46% MMLU · 44 GBmiddot; 64 GB

MiniMax-M2.5 (230B) — JANG vs MLX

200-question MMLU

JANG_2L · 2.10 bits · 82.5 GB

74%

MLX 4-bit · 119.8 GB

26.5%

JANG 2 bitsがMLX 4 bitsの3倍のスコア、RAM 37 GB少なく使用。MLXはこのモデルで全ビットレベルで破綻。

科目別MMLU内訳を表示（10科目）

Subject	JANG_2L	4-bit	3-bit	2-bit
Abstract Algebra	10/20	3/20	2/20	5/20
Anatomy	15/20	7/20	5/20	5/20
Astronomy	20/20	7/20	6/20	4/20
College CS	13/20	4/20	5/20	6/20
College Physics	13/20	8/20	6/20	6/20
HS Biology	18/20	4/20	5/20	6/20
HS Chemistry	18/20	4/20	5/20	5/20
HS Mathematics	8/20	6/20	6/20	3/20
Logical Fallacies	18/20	5/20	4/20	5/20
World Religions	15/20	5/20	5/20	5/20
Total	148/200 (74%)	53/200 (26.5%)	49/200 (24.5%)	50/200 (25%)

JANGが10科目すべて勝利。MLX 4/3/2-bitすべてランダムレベル（25%）。原因：MLXが回答の代わりにメタコメンタリーを生成。

jangq.ai GitHub

ローカルでチャットを始める

MLX Studioをダウンロードして、60秒以内にMacでAIを実行しましょう。

Mac版ダウンロード GitHubで見る

MLX Studioで なんでも作ろう。

必要なものすべて。クラウド不要。

ストリーミングチャットUI

画像生成 & 編集

音声チャット

ビジョン＆マルチモーダル

推論ブロック

Anthropic + OpenAI API

モデル変換機

HuggingFaceブラウザ

5層キャッシングスタック

投機的デコーディング

50+アーキテクチャ＆14パーサー

CLI: pip install vmlx

MCPネイティブサポート

ハイブリッドSSM＆Mamba

20以上の内蔵ツール。設定不要。

ファイルI/O

コード検索

Shell

ウェブ検索

URL Fetch

Git

ユーティリティ

Macでローカルに画像を生成・編集

推論＆ビジョン付きストリーミングチャット

ワンクリックでモデルを閲覧＆ダウンロード

メニューバーコントロール

よくある質問

JANG — あらゆるサイズでより高い品質

ローカルでチャットを始める

MLX Studioで
なんでも作ろう。