免费 · macOS · Apple Silicon · 一站式

在 MLX Studio 中
创造一切。

聊天、编程、生成图像、推理 — 全部在 Mac 上本地运行。唯一拥有完整推理引擎、20 多种智能工具、Flux 本地图像生成、语音/视觉/推理的 AI 应用。由 vMLX Engine 驱动。

JANG_Q唯一支持混合精度量化的MLX引擎 — 230B模型2 bits下74% MMLU (82.5 GB) vs MLX 4-bit 26.5% (119.8 GB)
永久免费 Apple Silicon 无需云端 20+工具 图像生成 Anthropic API 模型转换器 50+架构 语音 & 视觉 pip install vmlx
MLX Studio
MLX Studio agentic coding interface — building a Tetris game with AI
MLX Studio — Image Generation
MLX Studio local image generation with Flux Schnell on Apple Silicon

Local image generation with Flux Schnell — 1024×1024 in seconds on Apple Silicon

20+
智能工具
224×
100K上下文更快
50+
模型架构
11
API端点
功能

你需要的一切。无需云端。

与任何模型聊天、用 Flux 生成图像、使用 20 多种智能工具编程、使用 Anthropic 或 OpenAI API、在格式之间转换模型 — 全部在 Mac 上本地运行。无需 API 密钥、无需订阅、数据不会离开您的设备。既适合需要简单聊天应用的初学者,也适合需要完整推理栈(KV 缓存量化、前缀缓存、投机解码和 14 个工具解析器)的高级用户。

流式聊天界面

多轮流式对话,内联工具调用指示器、可折叠推理块、图像预览和实时状态指示器。每个细节都为清晰度精心设计。

图像生成 & 编辑

在本地生成和编辑图像。5 个生成模型(Flux Schnell、Dev、Klein)+ 4 个编辑模型(Qwen Image Edit、Flux Kontext、Flux Fill)。无需云服务、无需 API 密钥。

语音聊天

每个回复内置文字转语音。使用Mac原生语音合成免提收听AI输出。

视觉与多模态

将图像拖放到聊天中。Qwen VL等视觉模型在本地分析视觉内容,支持点击放大预览。

推理模块

适用于DeepSeek R1、Qwen 3和GLM等模型的可折叠思考部分。查看模型的思维链。

Anthropic + OpenAI API

原生 Anthropic Messages API 端点以及 OpenAI Chat 和 Responses API。使用 Claude Code、Anthropic SDK 或任何兼容客户端。也可连接远程端点。

模型转换器

内置 GGUF-to-MLX 转换器,支持 标准配置文件(Balanced 4-bit、Quality 8-bit、Compact 3-bit)和 JANG 混合精度配置文件(2S 至 6M)。无需命令行即可转换任何模型。

HuggingFace浏览器

在应用中直接搜索、浏览和下载MLX模型。一键开始与任何模型聊天。

5层缓存堆栈

前缀缓存、分页多上下文KV、KV量化(q4/q8)、连续批处理(256序列)和持久磁盘缓存。没有其他本地应用同时具备这五项功能。

推测解码

可配置的草稿模型,生成速度提高20–90%。大模型并行验证草稿token — 相同质量,更少GPU传递。

50+架构与14个解析器

自动检测Llama、Qwen、DeepSeek、Gemma、Mistral、Phi、GLM、Nemotron、MiniMax、Jamba等。14个工具调用解析器、4个推理解析器 — 无需手动配置。

CLI: pip install vmlx

开源引擎。pip install vmlx然后vmlx serve model。从终端转换、基准测试、诊断。Apache 2.0。

MCP原生支持

内置MCP(Model Context Protocol)服务器。将外部MCP工具与20+内置工具一起连接。代理循环最多自动继续10次迭代。

混合SSM与Mamba

为Nemotron-H、Jamba和GatedDeltaNet架构提供专用BatchMambaCache。唯一能正确运行混合注意力+SSM模型的本地应用。

智能工具

20+内置工具。零配置。

唯一支持原生MCP工具调用的本地AI应用。模型可以读取、写入、搜索和执行 — 全部在本地运行。oMLX、LM Studio和Inferencer没有内置智能工具。

MLX Studio — Agentic Tools
MLX Studio agentic coding tools interface showing file I/O, code search, shell execution, web search, git integration, and clipboard tools

文件I/O

read_file write_file edit_file list_dir copy move delete

代码搜索

grep glob

Shell

execute_command

网络搜索

duckduckgo_search brave_search

URL Fetch

fetch_url

Git

git_status git_diff git_log git_show

实用工具

clipboard_read clipboard_write current_datetime
图像生成 & 编辑

在 Mac 上本地生成和编辑图像

5 个图像生成模型(Flux Schnell、Dev、Z-Image Turbo、Klein 4B、Klein 9B)和 4 个图像编辑模型(Qwen Image Edit、Flux Kontext、Flux Fill、Flux Klein Edit)。提交照片和文本提示即可进行修复、变换或风格转换。模型自动下载。无需云 API、无需订阅 — 完全在 Apple Silicon 上运行。

MLX Studio — 图像生成 & 编辑
MLX Studio 图像生成与编辑界面 - Flux Schnell、Dev、Z-Image Turbo、Klein、Qwen Image Edit、Flux Kontext、Flux Fill
聊天

带推理和视觉的流式聊天

可折叠推理块、内联代码高亮、图像预览和实时token流的多轮对话。为视觉模型拖放图像。每个聊天可设置temperature、top-p、系统提示和最大token数。聊天记录保存在SQLite中。

MLX Studio — Chat
MLX Studio chat interface
模型

一键浏览和下载模型

内置HuggingFace模型浏览器。搜索MLX模型,按文本或图像筛选,查看大小和架构,一键下载。

MLX Studio — Model Browser
MLX Studio HuggingFace model browser
随时可用

菜单栏控制

实时服务器状态、快速模型切换和会话控制 — 始终在菜单栏中一键可达。

MLX Studio menu bar
驱动引擎 · 开源
vMLX Engine

github.com/jjang-ai/vmlx开源 — 使用pip install vmlx安装。Mac上唯一具备5层缓存堆栈的本地AI引擎:前缀缓存、分页KV、KV量化(q4/q8)、连续批处理和持久磁盘缓存。同时提供Anthropic Messages API和OpenAI兼容端点 — 使用Claude Code、Anthropic SDK或任何兼容客户端。50+架构、14个工具解析器、4个推理解析器、Mamba/SSM混合、推测解码。

2.5K context
vMLX 0.05s
Others 0.49s
9.7× faster
首个token时间
10K context
vMLX 0.08s
Others 6.12s
76× faster
首个token时间
100K context
vMLX 0.65s
Others 131s
224× faster
冷启动提示处理
前缀缓存 — 对话中重复的部分只计算一次并重复使用
分页KV缓存 — 所有聊天保留在内存中,切换时不会被清除
缓存量化 — q4/q8将缓存内存减少4–8倍,支持更长的上下文
连续批处理 — 高效处理最多256个并发序列
磁盘缓存 — 提示计算在应用重启后保留,实现即时热启动
Apple Silicon原生 — 基于MLX而非llama.cpp构建,针对统一内存优化
API参考 — Anthropic + OpenAI端点
MLX Studio — API Reference
MLX Studio API reference page showing Anthropic Messages API and OpenAI-compatible endpoints
模型转换器 — GGUF-to-MLX & JANG配置文件
MLX Studio — Model Converter
MLX Studio GGUF-to-MLX model converter with standard and JANG quantization profiles
FAQ

常见问题

MLX Studio是一款免费的macOS应用,用于AI聊天和智能编程。它是Mac上唯一具有原生前缀缓存、分页KV缓存、KV量化、连续批处理、混合SSM支持和完整VLM集成的本地AI应用。包含20多个内置工具,用于文件编辑、代码搜索、Shell执行、网络搜索等 — 全部由在Apple Silicon上本地运行的vMLX Engine驱动。
MLX Studio是应用程序 — 聊天UI、智能工具、模型浏览器和设置界面。vMLX Engine是驱动它的推理后端 — 缓存、批处理、模型加载和API层。可以类比LM Studio和llama.cpp的关系。
仅在初次下载模型时需要。所有推理都在Mac上本地运行,无需云连接、无需API密钥、数据不会离开您的设备。
任何运行macOS 26(Tahoe)的Apple Silicon(M1或更高版本)Mac。最低8 GB RAM,建议16 GB以上。远程端点支持macOS 14+。
可以。连接到OpenAI、Anthropic、Groq或任何OpenAI兼容端点。Studio的智能工具同时支持本地和远程模型。
7个类别共20多个工具:文件I/O(读取、写入、编辑、复制、移动、删除)、代码搜索(grep、glob)、Shell执行、网络搜索(DuckDuckGo、Brave)、URL获取、git(status、diff、log)和实用工具(剪贴板、日期/时间)。
支持。每个回复都有TTS播放按钮。Qwen VL等视觉模型通过拖放接受图像输入,并提供内联预览。
是的。完全免费,经过代码签名和公证。无订阅,无使用限制。
MLX的GGUF · 开源

JANG — 每种大小都有更好的质量

GGUF为llama.cpp提供了K-quants。JANG为MLX做了同样的事情 — 保护注意力层的智能位分配。 On Qwen3.5-122B at ~2 bits: 94% MMLU (JANG_4K, 69 GB) vs 90% for MLX 4-bit (64 GB). At 2 bits: 84% MMLU (38 GB) vs 46% for MLX mixed_2_6 (44 GB).

JANG_4K JANG_2S · 122B · 2.11bmiddot; 122B JANG_2S · 122B · 2.11bmiddot; 3.99b
94% MMLU 84% MMLU · 38 GBmiddot; 69 GB
+4 points vs MLX 4-bit (64 GB, 90%)
MLX 4-bit MLX mixed_2_6 · ~2.5bmiddot; 4.0b
90% MMLU 46% MMLU · 44 GBmiddot; 64 GB
MiniMax-M2.5 (230B) — JANG vs MLX
200-question MMLU
JANG_2L · 2.10 bits · 82.5 GB
74%
MLX 4-bit · 119.8 GB
26.5%
JANG 2 bits比MLX 4 bits高3倍,少用37 GB内存。MLX在此模型所有位数下均失败。
查看各科目MMLU详情(10科目)
Subject JANG_2L 4-bit 3-bit 2-bit
Abstract Algebra10/203/202/205/20
Anatomy15/207/205/205/20
Astronomy20/207/206/204/20
College CS13/204/205/206/20
College Physics13/208/206/206/20
HS Biology18/204/205/206/20
HS Chemistry18/204/205/205/20
HS Mathematics8/206/206/203/20
Logical Fallacies18/205/204/205/20
World Religions15/205/205/205/20
Total148/200 (74%)53/200 (26.5%)49/200 (24.5%)50/200 (25%)

JANG全部10科目获胜。MLX 4/3/2-bit均随机水平(25%)。原因:MLX生成元评论而非直接回答。

jangq.ai GitHub

开始本地聊天

下载MLX Studio,60秒内在Mac上运行AI。