什么是MLX Studio？

MLX Studio is a free macOS app for AI chat and agentic coding, powered by vMLX Engine. It is the only local AI app on Mac with a full 5-layer caching stack (prefix cache, paged KV, KV quantization q4/q8, continuous batching, persistent disk cache), hybrid SSM/Mamba architecture support, and 20+ built-in agentic tools via MCP. No competing app — not oMLX, not LM Studio, not Inferencer — combines all of these capabilities.

How is MLX Studio better than oMLX?

oMLX has SSD caching, continuous batching, prefix caching, tool calling, and a Responses API (added March 2025). But MLX Studio has KV cache quantization (q4/q8) saving 2-8x cache memory, hybrid SSM/Mamba support for Nemotron-H and Jamba models, 20+ built-in agentic coding tools (file I/O, shell, web search, git, browser automation), 14 auto-detected tool call parsers, 4 reasoning parsers with collapsible UI, speculative decoding, and audio TTS/STT — none of which oMLX offers. oMLX added VLM support but without KV quantization. MLX Studio's engine is strictly more capable.

How is MLX Studio better than LM Studio?

MLX Studio is 224x faster than LM Studio at 100K context (154,121 vs 686 tokens/sec). LM Studio uses llama.cpp with basic token caching but has no KV cache quantization, no persistent disk cache, no prefix caching for instant TTFT, and no built-in agentic tools. MLX Studio also has 14 tool call parsers, 4 reasoning parsers, hybrid SSM/Mamba support, and both Responses and Chat Completions APIs — LM Studio has none of these.

How is MLX Studio better than Inferencer?

Inferencer is a freemium app focused on token inspection. It has no caching stack (no prefix cache, no KV quantization, no disk cache, no continuous batching), no agentic coding tools, no tool call parsers, no reasoning parsers, no Responses API, no hybrid SSM/Mamba support, and no speculative decoding. MLX Studio is free and has all of these features.

MLX Studio和vMLX Engine有什么区别？

MLX Studio is the app — the chat UI, agentic tools, model browser, and settings interface you interact with. vMLX Engine is the inference backend that powers it — the caching, batching, model loading, and API layer. Think of it like LM Studio and llama.cpp, except vMLX Engine is 224x faster.

需要互联网吗？

仅在初次下载模型时需要。所有推理都在Mac上本地运行，无需云连接、无需API密钥、数据不会离开您的设备。 Unlike LM Studio and Inferencer which have cloud/subscription tiers, MLX Studio is completely free with no cloud dependency.

任何运行macOS 26（Tahoe）的Apple Silicon（M1或更高版本）Mac。最低8 GB RAM，建议16 GB以上。远程端点支持macOS 14+。 MLX Studio is purpose-built for Apple Silicon unified memory using MLX, not llama.cpp like LM Studio or Ollama.

也可以使用云API吗？

Yes. Connect to OpenAI, Anthropic, Groq, or any OpenAI-compatible endpoint. Studio's 20+ agentic tools work with both local and remote models — a capability no other local AI app offers.

MLX Studio — 在 Mac 上聊天、编程、生成图像

Name: MLX Studio
Availability: InStock
Author: MLX Studio

20+

智能工具

224×

100K上下文更快

50+

模型架构

11

API端点

功能

你需要的一切。无需云端。

与任何模型聊天、用 Flux 生成图像、使用 20 多种智能工具编程、使用 Anthropic 或 OpenAI API、在格式之间转换模型 — 全部在 Mac 上本地运行。无需 API 密钥、无需订阅、数据不会离开您的设备。既适合需要简单聊天应用的初学者，也适合需要完整推理栈（KV 缓存量化、前缀缓存、投机解码和 14 个工具解析器）的高级用户。

流式聊天界面

多轮流式对话，内联工具调用指示器、可折叠推理块、图像预览和实时状态指示器。每个细节都为清晰度精心设计。

图像生成 & 编辑

在本地生成和编辑图像。5 个生成模型（Flux Schnell、Dev、Klein）+ 4 个编辑模型（Qwen Image Edit、Flux Kontext、Flux Fill）。无需云服务、无需 API 密钥。

语音聊天

每个回复内置文字转语音。使用Mac原生语音合成免提收听AI输出。

视觉与多模态

将图像拖放到聊天中。Qwen VL等视觉模型在本地分析视觉内容，支持点击放大预览。

推理模块

适用于DeepSeek R1、Qwen 3和GLM等模型的可折叠思考部分。查看模型的思维链。

Anthropic + OpenAI API

原生 Anthropic Messages API 端点以及 OpenAI Chat 和 Responses API。使用 Claude Code、Anthropic SDK 或任何兼容客户端。也可连接远程端点。

模型转换器

内置 GGUF-to-MLX 转换器，支持标准配置文件（Balanced 4-bit、Quality 8-bit、Compact 3-bit）和 JANG 混合精度配置文件（2S 至 6M）。无需命令行即可转换任何模型。

HuggingFace浏览器

在应用中直接搜索、浏览和下载MLX模型。一键开始与任何模型聊天。

5层缓存堆栈

前缀缓存、分页多上下文KV、KV量化（q4/q8）、连续批处理（256序列）和持久磁盘缓存。没有其他本地应用同时具备这五项功能。

推测解码

可配置的草稿模型，生成速度提高20–90%。大模型并行验证草稿token — 相同质量，更少GPU传递。

50+架构与14个解析器

自动检测Llama、Qwen、DeepSeek、Gemma、Mistral、Phi、GLM、Nemotron、MiniMax、Jamba等。14个工具调用解析器、4个推理解析器 — 无需手动配置。

CLI: pip install vmlx

开源引擎。pip install vmlx然后vmlx serve model。从终端转换、基准测试、诊断。Apache 2.0。

MCP原生支持

内置MCP（Model Context Protocol）服务器。将外部MCP工具与20+内置工具一起连接。代理循环最多自动继续10次迭代。

混合SSM与Mamba

为Nemotron-H、Jamba和GatedDeltaNet架构提供专用BatchMambaCache。唯一能正确运行混合注意力+SSM模型的本地应用。

智能工具

20+内置工具。零配置。

唯一支持原生MCP工具调用的本地AI应用。模型可以读取、写入、搜索和执行 — 全部在本地运行。oMLX、LM Studio和Inferencer没有内置智能工具。

MLX Studio — Agentic Tools

MLX Studio agentic coding tools interface showing file I/O, code search, shell execution, web search, git integration, and clipboard tools

文件I/O

read_file write_file edit_file list_dir copy move delete

代码搜索

grep glob

Shell

execute_command

网络搜索

duckduckgo_search brave_search

URL Fetch

fetch_url

Git

git_status git_diff git_log git_show

实用工具

clipboard_read clipboard_write current_datetime

图像生成 & 编辑

在 Mac 上本地生成和编辑图像

5 个图像生成模型（Flux Schnell、Dev、Z-Image Turbo、Klein 4B、Klein 9B）和 4 个图像编辑模型（Qwen Image Edit、Flux Kontext、Flux Fill、Flux Klein Edit）。提交照片和文本提示即可进行修复、变换或风格转换。模型自动下载。无需云 API、无需订阅 — 完全在 Apple Silicon 上运行。

MLX Studio — 图像生成 & 编辑

MLX Studio 图像生成与编辑界面 - Flux Schnell、Dev、Z-Image Turbo、Klein、Qwen Image Edit、Flux Kontext、Flux Fill

聊天

带推理和视觉的流式聊天

可折叠推理块、内联代码高亮、图像预览和实时token流的多轮对话。为视觉模型拖放图像。每个聊天可设置temperature、top-p、系统提示和最大token数。聊天记录保存在SQLite中。

MLX Studio — Chat

模型

一键浏览和下载模型

内置HuggingFace模型浏览器。搜索MLX模型，按文本或图像筛选，查看大小和架构，一键下载。

MLX Studio — Model Browser

随时可用

菜单栏控制

实时服务器状态、快速模型切换和会话控制 — 始终在菜单栏中一键可达。

驱动引擎 · 开源

vMLX Engine

在github.com/jjang-ai/vmlx开源 — 使用pip install vmlx安装。Mac上唯一具备5层缓存堆栈的本地AI引擎：前缀缓存、分页KV、KV量化（q4/q8）、连续批处理和持久磁盘缓存。同时提供Anthropic Messages API和OpenAI兼容端点 — 使用Claude Code、Anthropic SDK或任何兼容客户端。50+架构、14个工具解析器、4个推理解析器、Mamba/SSM混合、推测解码。

2.5K context

vMLX 0.05s

Others 0.49s

9.7× faster

首个token时间

10K context

vMLX 0.08s

Others 6.12s

76× faster

首个token时间

100K context

vMLX 0.65s

Others 131s

224× faster

冷启动提示处理

✓ 前缀缓存 — 对话中重复的部分只计算一次并重复使用

✓ 分页KV缓存 — 所有聊天保留在内存中，切换时不会被清除

✓ 缓存量化 — q4/q8将缓存内存减少4–8倍，支持更长的上下文

✓ 连续批处理 — 高效处理最多256个并发序列

✓ 磁盘缓存 — 提示计算在应用重启后保留，实现即时热启动

✓ Apple Silicon原生 — 基于MLX而非llama.cpp构建，针对统一内存优化

API参考 — Anthropic + OpenAI端点

MLX Studio — API Reference

模型转换器 — GGUF-to-MLX & JANG配置文件

MLX Studio — Model Converter

MLX Studio GGUF-to-MLX model converter with standard and JANG quantization profiles

FAQ

常见问题

MLX Studio是一款免费的macOS应用，用于AI聊天和智能编程。它是Mac上唯一具有原生前缀缓存、分页KV缓存、KV量化、连续批处理、混合SSM支持和完整VLM集成的本地AI应用。包含20多个内置工具，用于文件编辑、代码搜索、Shell执行、网络搜索等 — 全部由在Apple Silicon上本地运行的vMLX Engine驱动。

MLX Studio是应用程序 — 聊天UI、智能工具、模型浏览器和设置界面。vMLX Engine是驱动它的推理后端 — 缓存、批处理、模型加载和API层。可以类比LM Studio和llama.cpp的关系。

仅在初次下载模型时需要。所有推理都在Mac上本地运行，无需云连接、无需API密钥、数据不会离开您的设备。

任何运行macOS 26（Tahoe）的Apple Silicon（M1或更高版本）Mac。最低8 GB RAM，建议16 GB以上。远程端点支持macOS 14+。

可以。连接到OpenAI、Anthropic、Groq或任何OpenAI兼容端点。Studio的智能工具同时支持本地和远程模型。

7个类别共20多个工具：文件I/O（读取、写入、编辑、复制、移动、删除）、代码搜索（grep、glob）、Shell执行、网络搜索（DuckDuckGo、Brave）、URL获取、git（status、diff、log）和实用工具（剪贴板、日期/时间）。

支持。每个回复都有TTS播放按钮。Qwen VL等视觉模型通过拖放接受图像输入，并提供内联预览。

是的。完全免费，经过代码签名和公证。无订阅，无使用限制。

MLX的GGUF · 开源

JANG — 每种大小都有更好的质量

GGUF为llama.cpp提供了K-quants。JANG为MLX做了同样的事情 — 保护注意力层的智能位分配。 On Qwen3.5-122B at ~2 bits: 94% MMLU (JANG_4K, 69 GB) vs 90% for MLX 4-bit (64 GB). At 2 bits: 84% MMLU (38 GB) vs 46% for MLX mixed_2_6 (44 GB).

JANG_4K JANG_2S · 122B · 2.11bmiddot; 122B JANG_2S · 122B · 2.11bmiddot; 3.99b
94% MMLU 84% MMLU · 38 GBmiddot; 69 GB
+4 points vs MLX 4-bit (64 GB, 90%)
MLX 4-bit MLX mixed_2_6 · ~2.5bmiddot; 4.0b
90% MMLU 46% MMLU · 44 GBmiddot; 64 GB

MiniMax-M2.5 (230B) — JANG vs MLX

200-question MMLU

JANG_2L · 2.10 bits · 82.5 GB

74%

MLX 4-bit · 119.8 GB

26.5%

JANG 2 bits比MLX 4 bits高3倍，少用37 GB内存。MLX在此模型所有位数下均失败。

查看各科目MMLU详情（10科目）

Subject	JANG_2L	4-bit	3-bit	2-bit
Abstract Algebra	10/20	3/20	2/20	5/20
Anatomy	15/20	7/20	5/20	5/20
Astronomy	20/20	7/20	6/20	4/20
College CS	13/20	4/20	5/20	6/20
College Physics	13/20	8/20	6/20	6/20
HS Biology	18/20	4/20	5/20	6/20
HS Chemistry	18/20	4/20	5/20	5/20
HS Mathematics	8/20	6/20	6/20	3/20
Logical Fallacies	18/20	5/20	4/20	5/20
World Religions	15/20	5/20	5/20	5/20
Total	148/200 (74%)	53/200 (26.5%)	49/200 (24.5%)	50/200 (25%)

JANG全部10科目获胜。MLX 4/3/2-bit均随机水平（25%）。原因：MLX生成元评论而非直接回答。

jangq.ai GitHub

开始本地聊天

下载MLX Studio，60秒内在Mac上运行AI。

下载Mac版在GitHub上查看

在 MLX Studio 中 创造一切。

你需要的一切。无需云端。

流式聊天界面

图像生成 & 编辑

语音聊天

视觉与多模态

推理模块

Anthropic + OpenAI API

模型转换器

HuggingFace浏览器

5层缓存堆栈

推测解码

50+架构与14个解析器

CLI: pip install vmlx

MCP原生支持

混合SSM与Mamba

20+内置工具。零配置。

文件I/O

代码搜索

Shell

网络搜索

URL Fetch

Git

实用工具

在 Mac 上本地生成和编辑图像

带推理和视觉的流式聊天

一键浏览和下载模型

菜单栏控制

常见问题

JANG — 每种大小都有更好的质量

开始本地聊天

在 MLX Studio 中
创造一切。