¿Qué es MLX Studio?

MLX Studio is a free macOS app for AI chat and agentic coding, powered by vMLX Engine. It is the only local AI app on Mac with a full 5-layer caching stack (prefix cache, paged KV, KV quantization q4/q8, continuous batching, persistent disk cache), hybrid SSM/Mamba architecture support, and 20+ built-in agentic tools via MCP. No competing app — not oMLX, not LM Studio, not Inferencer — combines all of these capabilities.

How is MLX Studio better than oMLX?

oMLX has SSD caching, continuous batching, prefix caching, tool calling, and a Responses API (added March 2025). But MLX Studio has KV cache quantization (q4/q8) saving 2-8x cache memory, hybrid SSM/Mamba support for Nemotron-H and Jamba models, 20+ built-in agentic coding tools (file I/O, shell, web search, git, browser automation), 14 auto-detected tool call parsers, 4 reasoning parsers with collapsible UI, speculative decoding, and audio TTS/STT — none of which oMLX offers. oMLX added VLM support but without KV quantization. MLX Studio's engine is strictly more capable.

How is MLX Studio better than LM Studio?

MLX Studio is 224x faster than LM Studio at 100K context (154,121 vs 686 tokens/sec). LM Studio uses llama.cpp with basic token caching but has no KV cache quantization, no persistent disk cache, no prefix caching for instant TTFT, and no built-in agentic tools. MLX Studio also has 14 tool call parsers, 4 reasoning parsers, hybrid SSM/Mamba support, and both Responses and Chat Completions APIs — LM Studio has none of these.

How is MLX Studio better than Inferencer?

Inferencer is a freemium app focused on token inspection. It has no caching stack (no prefix cache, no KV quantization, no disk cache, no continuous batching), no agentic coding tools, no tool call parsers, no reasoning parsers, no Responses API, no hybrid SSM/Mamba support, and no speculative decoding. MLX Studio is free and has all of these features.

¿En qué se diferencia MLX Studio de vMLX Engine?

MLX Studio is the app — the chat UI, agentic tools, model browser, and settings interface you interact with. vMLX Engine is the inference backend that powers it — the caching, batching, model loading, and API layer. Think of it like LM Studio and llama.cpp, except vMLX Engine is 224x faster.

Solo para descargar modelos inicialmente. Toda la inferencia se ejecuta localmente en tu Mac sin conexión a la nube, sin claves API y sin datos saliendo de tu dispositivo. Unlike LM Studio and Inferencer which have cloud/subscription tiers, MLX Studio is completely free with no cloud dependency.

Cualquier Mac con Apple Silicon (M1 o posterior) con macOS 26 (Tahoe). Mínimo 8 GB RAM, 16 GB+ recomendado. Los endpoints remotos funcionan en macOS 14+. MLX Studio is purpose-built for Apple Silicon unified memory using MLX, not llama.cpp like LM Studio or Ollama.

¿Puedo usar APIs en la nube también?

Yes. Connect to OpenAI, Anthropic, Groq, or any OpenAI-compatible endpoint. Studio's 20+ agentic tools work with both local and remote models — a capability no other local AI app offers.

MLX Studio — Chat, Código, Genera Imágenes en Mac

Name: MLX Studio
Availability: InStock
Author: MLX Studio

20+

Herramientas agénticas

224×

Más rápido a 100K contexto

50+

Arquitecturas de modelos

11

Endpoints de API

CARACTERÍSTICAS

Todo lo que necesitas. Sin nube.

Chatea con cualquier modelo, genera imágenes con Flux, programa con más de 20 herramientas agénticas, usa APIs de Anthropic u OpenAI, convierte modelos entre formatos — todo ejecutándose localmente en tu Mac. Sin claves API, sin suscripciones, sin datos saliendo de tu máquina. Diseñado tanto para principiantes que quieren una app de chat simple como para usuarios avanzados que necesitan un stack de inferencia completo con cuantización de caché KV, prefix caching, decodificación especulativa y 14 parsers de herramientas.

Chat en streaming

Conversaciones en streaming multi-turno con indicadores de llamadas a herramientas, bloques de razonamiento plegables, vistas previas de imágenes e indicadores de estado en tiempo real. Cada detalle diseñado para mayor claridad.

Generación & Edición de Imágenes

Genera y edita imágenes localmente. 5 modelos de generación (Flux Schnell, Dev, Klein) + 4 modelos de edición (Qwen Image Edit, Flux Kontext, Flux Fill). Sin nube, sin claves API.

Chat de voz

Texto a voz integrado en cada respuesta. Escucha la salida de IA en modo manos libres con la síntesis de voz nativa de Mac.

Visión y multimodal

Arrastra y suelta imágenes en el chat. Los modelos de visión como Qwen VL analizan contenido visual localmente con vistas previas ampliables.

Bloques de razonamiento

Secciones de pensamiento plegables para modelos como DeepSeek R1, Qwen 3 y GLM. Observa la cadena de pensamiento del modelo.

APIs Anthropic + OpenAI

Endpoint nativo de Anthropic Messages API junto con OpenAI Chat y Responses APIs. Usa Claude Code, Anthropic SDK o cualquier cliente compatible. También conecta a endpoints remotos.

Convertidor de Modelos

Convertidor GGUF-to-MLX integrado con perfiles estándar (Balanced 4-bit, Quality 8-bit, Compact 3-bit) y perfiles JANG de precisión mixta (2S a 6M). Convierte cualquier modelo sin la línea de comandos.

Navegador HuggingFace

Busca, explora y descarga modelos MLX directamente en la app. Un clic para empezar a chatear con cualquier modelo.

Pila de caché de 5 capas

Caché de prefijo, KV multi-contexto paginado, cuantización KV (q4/q8), batching continuo (256 secuencias) y caché de disco persistente. Ninguna otra app local combina las cinco.

Decodificación especulativa

Modelo borrador configurable para una generación 20–90% más rápida. El modelo grande verifica los tokens borrador en paralelo — misma calidad, menos pasadas de GPU.

50+ arquitecturas y 14 parsers

Detecta automáticamente Llama, Qwen, DeepSeek, Gemma, Mistral, Phi, GLM, Nemotron, MiniMax, Jamba y más. 14 parsers de llamadas a herramientas, 4 parsers de razonamiento — sin configuración manual.

CLI: pip install vmlx

Motor de código abierto. pip install vmlx luego vmlx serve model. Convierte, benchmarkea, diagnostica desde terminal. Apache 2.0.

Soporte nativo MCP

Servidor MCP (Model Context Protocol) integrado. Conecta herramientas MCP externas junto con las 20+ herramientas integradas. Continuación automática de bucles de agente hasta 10 iteraciones.

SSM híbrido y Mamba

BatchMambaCache dedicado para arquitecturas Nemotron-H, Jamba y GatedDeltaNet. La única app local que ejecuta correctamente modelos híbridos de atención + SSM.

HERRAMIENTAS AGÉNTICAS

20+ herramientas integradas. Sin configuración.

La única app de IA local con llamadas a herramientas MCP nativas. Los modelos pueden leer, escribir, buscar y ejecutar — todo ejecutándose localmente. oMLX, LM Studio e Inferencer no tienen herramientas agénticas integradas.

MLX Studio — Agentic Tools

MLX Studio agentic coding tools interface showing file I/O, code search, shell execution, web search, git integration, and clipboard tools

Archivo I/O

read_file write_file edit_file list_dir copy move delete

Búsqueda de código

grep glob

Shell

execute_command

Búsqueda web

duckduckgo_search brave_search

URL Fetch

fetch_url

Git

git_status git_diff git_log git_show

Utilidades

clipboard_read clipboard_write current_datetime

GENERACIÓN & EDICIÓN DE IMÁGENES

Genera y edita imágenes localmente en tu Mac

5 modelos de generación de imágenes (Flux Schnell, Dev, Z-Image Turbo, Klein 4B, Klein 9B) y 4 modelos de edición (Qwen Image Edit, Flux Kontext, Flux Fill, Flux Klein Edit). Envía una foto + prompt de texto para inpaint, transformar o cambiar estilos. Los modelos se descargan automáticamente. Sin APIs en la nube, sin suscripciones — se ejecuta completamente en Apple Silicon.

MLX Studio — Generación & Edición de Imágenes

Interfaz de generación y edición de imágenes de MLX Studio - Flux Schnell, Dev, Z-Image Turbo, Klein, Qwen Image Edit, Flux Kontext, Flux Fill

CHAT

Chat en streaming con razonamiento y visión

Conversaciones multi-turno con bloques de razonamiento plegables, resaltado de código en línea, vistas previas de imágenes y streaming de tokens en tiempo real. Arrastra y suelta imágenes para modelos de visión. Temperature, top-p, prompt del sistema y tokens máximos por chat. Historial de chat almacenado en SQLite.

MLX Studio — Chat

MODELOS

Explora y descarga modelos con un clic

Navegador de modelos HuggingFace integrado. Busca modelos MLX, filtra por texto o imagen, consulta tamaños y arquitecturas, y descarga con un clic.

MLX Studio — Model Browser

SIEMPRE ACCESIBLE

Controles en la barra de menú

Estado del servidor en vivo, cambio rápido de modelo y controles de sesión — siempre a un clic en tu barra de menú.

Impulsado por · Código abierto

vMLX Engine

Ahora código abierto en github.com/jjang-ai/vmlx — instala con pip install vmlx. El único motor de IA local en Mac con una pila de caché de 5 capas: caché de prefijo, KV paginado, cuantización KV (q4/q8), batching continuo y caché de disco persistente. Sirve tanto Anthropic Messages API como endpoints compatibles con OpenAI — usa Claude Code, Anthropic SDK o cualquier cliente compatible. 50+ arquitecturas, 14 parsers de herramientas, 4 parsers de razonamiento, híbridos Mamba/SSM, decodificación especulativa.

2.5K context

vMLX 0.05s

Others 0.49s

9.7× faster

Tiempo hasta el primer token

10K context

vMLX 0.08s

Others 6.12s

76× faster

Tiempo hasta el primer token

100K context

vMLX 0.65s

Others 131s

224× faster

Procesamiento de prompt en frío

✓ Caché de prefijo — las partes repetidas de tu conversación se calculan una vez y se reutilizan

✓ Caché KV paginada — todos tus chats permanecen en memoria, sin eliminación al cambiar

✓ Cuantización de caché — q4/q8 reduce la memoria caché 4–8 veces, permitiendo contextos más largos

✓ Batching continuo — maneja hasta 256 secuencias concurrentes eficientemente

✓ Caché de disco — los cálculos de prompt sobreviven a reinicios de la app para arranques instantáneos

✓ Apple Silicon nativo — construido sobre MLX, no llama.cpp, optimizado para memoria unificada

Referencia API — Endpoints Anthropic + OpenAI

MLX Studio — API Reference

Conversor de modelos — GGUF-to-MLX & Perfiles JANG

MLX Studio — Model Converter

MLX Studio GGUF-to-MLX model converter with standard and JANG quantization profiles

FAQ

Preguntas frecuentes

MLX Studio es una app gratuita de macOS para chat con IA y programación agéntica. Es la única app de IA local en Mac con caché de prefijo nativo, caché KV paginada, cuantización KV, batching continuo, soporte híbrido SSM e integración completa de VLM. Incluye más de 20 herramientas integradas para edición de archivos, búsqueda de código, ejecución de shell, búsqueda web y más — todo impulsado por vMLX Engine ejecutándose localmente en Apple Silicon.

MLX Studio es la app — la interfaz de chat, herramientas agénticas, navegador de modelos e interfaz de configuración. vMLX Engine es el backend de inferencia que lo impulsa — el caché, batching, carga de modelos y capa API. Piensa en ello como LM Studio y llama.cpp.

Solo para descargar modelos inicialmente. Toda la inferencia se ejecuta localmente en tu Mac sin conexión a la nube, sin claves API y sin datos saliendo de tu dispositivo.

Cualquier Mac con Apple Silicon (M1 o posterior) con macOS 26 (Tahoe). Mínimo 8 GB RAM, 16 GB+ recomendado. Los endpoints remotos funcionan en macOS 14+.

Sí. Conéctate a OpenAI, Anthropic, Groq o cualquier endpoint compatible con OpenAI. Las herramientas agénticas de Studio funcionan tanto con modelos locales como remotos.

Más de 20 herramientas en 7 categorías: archivo I/O (leer, escribir, editar, copiar, mover, eliminar), búsqueda de código (grep, glob), ejecución de shell, búsqueda web (DuckDuckGo, Brave), URL fetch, git (status, diff, log) y utilidades (portapapeles, fecha/hora).

Sí. Cada respuesta tiene un botón de reproducción TTS. Los modelos de visión como Qwen VL aceptan imágenes mediante arrastrar y soltar con vistas previas en línea.

Sí. Completamente gratuito, firmado y notarizado. Sin suscripciones, sin límites de uso.

El GGUF para MLX · Código abierto

JANG — Mejor calidad en cada tamaño

GGUF le dio a llama.cpp los K-quants. JANG hace lo mismo para MLX — asignación inteligente de bits que protege las capas de atención. On Qwen3.5-122B at ~2 bits: 94% MMLU (JANG_4K, 69 GB) vs 90% for MLX 4-bit (64 GB). At 2 bits: 84% MMLU (38 GB) vs 46% for MLX mixed_2_6 (44 GB).

JANG_4K JANG_2S · 122B · 2.11bmiddot; 122B JANG_2S · 122B · 2.11bmiddot; 3.99b
94% MMLU 84% MMLU · 38 GBmiddot; 69 GB
+4 points vs MLX 4-bit (64 GB, 90%)
MLX 4-bit MLX mixed_2_6 · ~2.5bmiddot; 4.0b
90% MMLU 46% MMLU · 44 GBmiddot; 64 GB

MiniMax-M2.5 (230B) — JANG vs MLX

200-question MMLU

JANG_2L · 2.10 bits · 82.5 GB

74%

MLX 4-bit · 119.8 GB

26.5%

JANG a 2 bits puntúa 3x más que MLX a 4 bits usando 37 GB menos de RAM. MLX falla a todos los niveles en este modelo.

Ver desglose MMLU por tema (10 temas)

Subject	JANG_2L	4-bit	3-bit	2-bit
Abstract Algebra	10/20	3/20	2/20	5/20
Anatomy	15/20	7/20	5/20	5/20
Astronomy	20/20	7/20	6/20	4/20
College CS	13/20	4/20	5/20	6/20
College Physics	13/20	8/20	6/20	6/20
HS Biology	18/20	4/20	5/20	6/20
HS Chemistry	18/20	4/20	5/20	5/20
HS Mathematics	8/20	6/20	6/20	3/20
Logical Fallacies	18/20	5/20	4/20	5/20
World Religions	15/20	5/20	5/20	5/20
Total	148/200 (74%)	53/200 (26.5%)	49/200 (24.5%)	50/200 (25%)

JANG gana en los 10 temas. MLX 4/3/2-bit todos al azar (25%). Causa: MLX genera meta-comentarios en vez de respuestas.

jangq.ai GitHub

Empieza a chatear localmente

Descarga MLX Studio y ejecuta IA en tu Mac en menos de 60 segundos.

Descargar para Mac Ver en GitHub

Crea lo que quieras en MLX Studio.